[ad_1]

كانت هناك العديد من المحاولات لإنشاء مساعدين صوتيين مفتوحين المصدر ومدعومين بالذكاء الاصطناعي (انظر Rhasspy وMycroft وJasper، على سبيل المثال لا الحصر) – تم إنشاء كل ذلك بهدف إنشاء تجارب تحافظ على الخصوصية دون اتصال بالإنترنت ولا تؤثر على الوظائف. لكن ثبت أن التطوير بطيء للغاية. وذلك لأنه، بالإضافة إلى جميع التحديات المعتادة المصاحبة للمشاريع مفتوحة المصدر، فإن البرمجة المساعدة هي أمر ضروري صعب. تتمتع تقنيات مثل Google Assistant وSiri وAlexa بسنوات، إن لم يكن بعقود، من البحث والتطوير – وبنية تحتية هائلة للتمهيد.

لكن هذا لا يردع العاملين في الشبكة المفتوحة للذكاء الاصطناعي واسعة النطاق (LAION)، وهي منظمة ألمانية غير ربحية مسؤولة عن الحفاظ على بعض مجموعات بيانات تدريب الذكاء الاصطناعي الأكثر شهرة في العالم. أعلنت LAION هذا الشهر عن مبادرة جديدة، BUD-E، التي تسعى إلى بناء مساعد صوتي “مفتوح بالكامل” قادر على العمل على الأجهزة الاستهلاكية.

لماذا نطلق مشروعًا جديدًا للمساعد الصوتي عندما يكون هناك عدد لا يحصى من الأشخاص في حالات مختلفة من الهجر؟ يعتقد ويلاند بريندل، زميل معهد إليس ومساهم في BUD-E، أنه لا يوجد مساعد مفتوح ببنية قابلة للتوسيع بما يكفي للاستفادة الكاملة من تقنيات GenAI الناشئة، وخاصة نماذج اللغات الكبيرة (LLMs) على غرار OpenAI’s ChatGPT.

“معظم التفاعلات مع [assistants] تعتمد على واجهات الدردشة التي يصعب التفاعل معها، [and] وقال بريندل لـ TechCrunch في مقابلة عبر البريد الإلكتروني: “إن الحوارات مع تلك الأنظمة تبدو متكلفة وغير طبيعية”. “هذه الأنظمة جيدة لنقل الأوامر للتحكم في الموسيقى أو تشغيل الضوء، لكنها ليست أساسًا لمحادثات طويلة وجذابة. الهدف من BUD-E هو توفير الأساس لمساعد صوتي يبدو أكثر طبيعية بالنسبة للبشر ويحاكي أنماط الكلام الطبيعية للحوارات البشرية ويتذكر المحادثات السابقة.

وأضاف بريندل أن LAION تريد أيضًا التأكد من إمكانية دمج كل مكون من مكونات BUD-E في النهاية مع التطبيقات والخدمات بدون ترخيص، حتى تجاريًا – وهو ما لا ينطبق بالضرورة على جهود المساعدة المفتوحة الأخرى.

إن التعاون مع معهد إليس في توبنجن، وشركة كولابورا للاستشارات التقنية، ومركز توبنجن للذكاء الاصطناعي، BUD-E – وهو اختصار متكرر لـ “Buddy forتفاهم والتعاطف الرقمي” – لديه خريطة طريق طموحة. في منشور بالمدونة، يوضح فريق LAION ما يأملون في تحقيقه في الأشهر القليلة المقبلة، وبشكل أساسي بناء “الذكاء العاطفي” في BUD-E والتأكد من قدرته على التعامل مع المحادثات التي تتضمن متحدثين متعددين في وقت واحد.

وقال بريندل: “هناك حاجة كبيرة لمساعد صوتي طبيعي يعمل بشكل جيد”. “لقد أظهرت LAION في الماضي أنها رائعة في بناء المجتمعات، ويلتزم معهد ELLIS Tübingen ومركز Tübingen AI بتوفير الموارد اللازمة لتطوير المساعد.

تم تشغيل BUD-E – يمكنك تنزيله وتثبيته اليوم من GitHub على جهاز كمبيوتر يعمل بنظام Ubuntu أو Windows (سيأتي نظام macOS) – ولكن من الواضح جدًا أنه في المراحل الأولى.

قامت LAION بتصحيح العديد من النماذج المفتوحة معًا لتجميع MVP، بما في ذلك Phi-2 LLM من Microsoft، وStyleTTS2 من كولومبيا لتحويل النص إلى كلام، وFastConformer من Nvidia لتحويل الكلام إلى نص. على هذا النحو، فإن التجربة غير محسنة بعض الشيء. إن الحصول على BUD-E للاستجابة للأوامر في غضون 500 مللي ثانية تقريبًا – في نطاق المساعدين الصوتيين التجاريين مثل Google Assistant و Alexa – يتطلب وحدة معالجة رسومات قوية مثل Nvidia آر تي إكس 4090.

تعمل Collabora مجانًا لتكييف نماذجها مفتوحة المصدر للتعرف على الكلام وتحويل النص إلى كلام، WhisperLive وWhisperSpeech، من أجل BUD-E.

“إن بناء حلول تحويل النص إلى كلام والتعرف على الكلام بأنفسنا يعني أنه يمكننا تخصيصها إلى درجة غير ممكنة مع النماذج المغلقة المكشوفة من خلال واجهات برمجة التطبيقات،” جاكوب بيوتر كلابا، باحث في مجال الذكاء الاصطناعي في Collabora وعضو فريق BUD-E، قال في رسالة بالبريد الإلكتروني. “بدأت Collabora العمل في البداية [open assistants] ويرجع ذلك جزئيًا إلى أننا ناضلنا من أجل العثور على حل جيد لتحويل النص إلى كلام لوكيل صوتي قائم على LLM لأحد عملائنا. لقد قررنا توحيد الجهود مع مجتمع المصادر المفتوحة الأوسع لجعل نماذجنا متاحة ومفيدة على نطاق أوسع.

في المدى القريب، تقول LAION إنها ستعمل على جعل متطلبات أجهزة BUD-E أقل صعوبة وتقليل زمن وصول المساعد. تتمثل المهمة الأطول أمدًا في إنشاء مجموعة بيانات من مربعات الحوار لضبط BUD-E – بالإضافة إلى آلية ذاكرة للسماح لـ BUD-E بتخزين المعلومات من المحادثات السابقة وخط أنابيب لمعالجة الكلام يمكنه تتبع العديد من الأشخاص الذين يتحدثون ذات مرة.

سألت الفريق سواء إمكانية الوصول كانت الأولوية، مع الأخذ في الاعتبار أن أنظمة التعرف على الكلام لم تكن تعمل بشكل جيد تاريخيًا مع اللغات غير الإنجليزية واللهجات التي لا تنتمي عبر المحيط الأطلسي. وجدت إحدى الدراسات التي أجرتها جامعة ستانفورد أن أنظمة التعرف على الكلام من Amazon وIBM وGoogle وMicrosoft وApple كانت أكثر عرضة للخطأ في فهم المتحدثين السود مقارنة بالمتحدثين البيض من نفس العمر والجنس.

قال بريندل ذلك LAION لا تتجاهل إمكانية الوصول – ولكن هذا ليس “تركيزًا فوريًا” لـ برعم-E.

وقال بريندل: “ينصب التركيز الأول على إعادة تعريف تجربة كيفية تفاعلنا مع المساعدين الصوتيين قبل تعميم تلك التجربة على لهجات ولغات أكثر تنوعًا”.

إلى تلك النهاية، لدى LAION بعض الأفكار الرائعة لـ BUD-E، بدءًا من الصورة الرمزية المتحركة لإضفاء طابع شخصي على المساعد ودعم تحليل وجوه المستخدمين من خلال كاميرات الويب لمراعاة حالتهم العاطفية.

إن أخلاقيات هذا الجزء الأخير – تحليل الوجه – هي أمر محفوف بالمخاطر قليلاً على أقل تقدير. لكن روبرت كاكزماركزيك، أحد مؤسسي LAION، أكد أن LAION ستظل ملتزمة بالسلامة.

“[We] “الالتزام الصارم بالمبادئ التوجيهية للسلامة والأخلاق التي صاغها قانون الاتحاد الأوروبي للذكاء الاصطناعي”، قال لـ TechCrunch عبر البريد الإلكتروني – في إشارة إلى الإطار القانوني الذي يحكم بيع واستخدام الذكاء الاصطناعي في الاتحاد الأوروبي. يسمح قانون الذكاء الاصطناعي للاتحاد الأوروبي للدول الأعضاء في الاتحاد الأوروبي بتبني قواعد وضمانات أكثر تقييدًا للذكاء الاصطناعي “عالي المخاطر”، بما في ذلك مصنفات المشاعر.

وأضاف كازمارتشيك: “إن هذا الالتزام بالشفافية لا يسهل التعرف المبكر على التحيزات المحتملة وتصحيحها فحسب، بل يساعد أيضًا في قضية النزاهة العلمية”. “من خلال إتاحة الوصول إلى مجموعات البيانات الخاصة بنا، فإننا نمكن المجتمع العلمي الأوسع من المشاركة في الأبحاث التي تدعم أعلى معايير التكاثر.”

لم يكن عمل LAION السابق نقيًا بالمعنى الأخلاقي، وهو يتبع مشروعًا منفصلاً مثيرًا للجدل إلى حد ما في الوقت الحالي حول اكتشاف المشاعر. ولكن ربما سيكون BUD-E مختلفًا؛ سيتعين علينا أن ننتظر ونرى.

[ad_2]

من kokn

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *