Jannah Theme License is not validated, Go to the theme options page to validate the license, You need a single license for each domain name.
تكنلوجيا الويب

يقول بعض الخبراء إن معايير الذكاء الاصطناعى لها عيوب خطيرة


تعتمد مختبرات الذكاء الاصطناعى بشكل متزايد على منصات القياس المصنوعة من التعقيدات الجماعية مثل chatbot Arena لاستكشاف نقاط القوة والضعف في أحدث نماذجها. لكن بعض الخبراء يقولون إن هناك مشاكل خطيرة في هذا النهج من منظور أخلاقي وأكاديمي.

على مدار السنوات القليلة الماضية ، تحولت المختبرات بما في ذلك Openai و Google و Meta إلى منصات تجنيد المستخدمين للمساعدة في تقييم قدرات النماذج القادمة. عندما يسجل النموذج بشكل إيجابي ، فإن المختبر الذي يقف وراءه غالباً ما يصف هذا النتيجة كدليل على تحسن ذي معنى.

ومع ذلك ، فإن هذا نهج معيبة ، وفقًا لإميلي بندر ، أستاذة اللغويات بجامعة واشنطن ومؤلف مشارك لكتاب “ذا آي كون”. يأخذ Bender مشكلة خاصة مع chatbot Arena ، التي تهدف إلى المتطوعين مع دفع نموذجين مجهولين واختيار الاستجابة التي يفضلونها.

وقال بندر: “لكي تكون صالحة ، يحتاج المعيار إلى قياس شيء محدد ، ويجب أن يكون له صحة-أي ، يجب أن يكون هناك دليل على أن بناء الاهتمام محدد جيدًا وأن القياسات ترتبط فعليًا بالإنشاء”. “لم يوضح Chatbot Arena أن التصويت لمخرج واحد على شخص آخر يرتبط فعليًا بالتفضيلات ، ومع ذلك قد يتم تعريفه”.

قال Asmelash Teka Hadgu ، المؤسس المشارك لشركة AI Lesan وزميله في معهد أبحاث الذكاء الاصطناعي الموزع ، إنه يعتقد أن معايير مثل Chatbot Arena “تم اختيارها” من قبل AI Labs “للترويج للمطالبات المبالغ فيها”. أشار Hadgu إلى جدل حديث شمل نموذج Meta’s Llama 4 Maverick. قامت Meta بتصنيع إصدارًا من Maverick للتسجيل جيدًا على Chatbot Arena ، فقط لحجب هذا النموذج لصالح إصدار نسخة أسوأ أداء.

وقال Hadgu: “يجب أن تكون المعايير ديناميكية بدلاً من مجموعات بيانات ثابتة ،” تم توزيعها على كيانات مستقلة متعددة ، مثل المنظمات أو الجامعات ، ومصممة خصيصًا لحالات الاستخدام المتميزة ، مثل التعليم ، والرعاية الصحية ، وغيرها [models] للعمل. “

قام Hadgu و Kristine Gloria ، اللذان قاد سابقًا بمبادرة التقنيات الناشئة والذكية في معهد أسبن ، أيضًا إلى تعويض المقيمين النموذجيين عن عملهم. قال غلوريا إن مختبرات الذكاء الاصطناعى يجب أن تتعلم من أخطاء صناعة وضع علامات البيانات ، والتي تشتهر بممارساتها الاستغلالية. (تم اتهام بعض المختبرات بنفسها.)

وقالت غلوريا: “بشكل عام ، تعتبر عملية القياس الجماعية ذات قيمة قيمة وتذكرني بمبادرات علوم المواطنين”. “من الناحية المثالية ، فإنه يساعد على جلب وجهات نظر إضافية لتوفير بعض العمق في كل من التقييم وضبط البيانات. ولكن يجب ألا تكون المعايير هي المقياس الوحيد للتقييم. مع تحرك الصناعة والابتكار بسرعة ، يمكن أن تصبح المعايير لا يمكن الاعتماد عليها بسرعة.”

قال مات فريدريكسون ، الرئيس التنفيذي لشركة جراي سوان AI ، التي تدير حملات جماعية حمراء مصممة للنماذج ، إن المتطوعين ينجذبون إلى منصة جراي سوان لمجموعة من الأسباب ، بما في ذلك “تعلم وممارسة مهارات جديدة”. (يمنح Gray Swan أيضًا الجوائز النقدية لبعض الاختبارات.) ومع ذلك ، أقر بأن المعايير العامة “ليست بديلاً” للتقييمات “الخاصة”.

“[D]وقال فريدريكسون: “إن الإفليبرز يحتاجون أيضًا إلى الاعتماد على المعايير الداخلية ، والفرق الحمراء الخوارزمية ، والفرق الحمراء الذين يمكنهم اتباع نهج أكثر انفتاحًا أو جلب خبرة محددة في مجال المجال”.

قال أليكس أتاله ، الرئيس التنفيذي لشركة Modelplace OpenRouter ، التي عقدت شراكة مع Openai مؤخرًا لمنح المستخدمين الوصول المبكر إلى طرز GPT-4.1 من Openai ، إن الاختبار المفتوح وقياس النماذج وحدها “غير كاف”. وكذلك فعل Wei-Lin Chiang ، وهو طالب دكتوراه منظمة العفو الدولية في جامعة كاليفورنيا في بيركلي وأحد مؤسسي Lmarena ، الذي يحافظ على chatbot Arena.

“نحن بالتأكيد ندعم استخدام الاختبارات الأخرى” ، قال تشيانغ. “هدفنا هو إنشاء مساحة مفتوحة جديرة بالثقة تقيس تفضيلات مجتمعنا حول نماذج الذكاء الاصطناعى المختلفة.”

قال تشيانغ إن حوادث مثل التناقض القياسي في مافريك ليست نتيجة لعلاج عيب في تصميم chatbot Arena ، ولكن المختبرات تسيء تفسير سياستها. وقال تشيانغ إن LM Arena اتخذت خطوات لمنع التناقضات المستقبلية من حدوثها ، بما في ذلك تحديث سياساتها من أجل “تعزيز التزامنا بالتقييمات العادلة القابلة للتكرار”.

وقال تشيانغ: “مجتمعنا ليس هنا كمتطوعين أو اختبار النموذج”. “يستخدم الناس LM Arena لأننا نمنحهم مكانًا مفتوحًا وشفافًا للتفاعل مع الذكاء الاصطناعى وإعطاء ملاحظات جماعية. طالما أن اللوحة المتصدرين تعكس بصوت صوت المجتمع ، فإننا نرحب بمشاركته.”


اكتشاف المزيد من مجلة كوكان

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى