يأخذ إطار LLM الخاص بـ LatticeFlow الطعنة الأولى في قياس امتثال Big AI لقانون الذكاء الاصطناعي للاتحاد الأوروبي

في حين أن المشرعين في معظم البلدان لا يزالون يناقشون كيفية وضع حواجز حماية حول الذكاء الاصطناعي، فإن الاتحاد الأوروبي يتقدم على المجموعة، بعد أن أقر إطارًا قائمًا على المخاطر لتنظيم تطبيقات الذكاء الاصطناعي في وقت سابق من هذا العام.

دخل القانون حيز التنفيذ في أغسطس، على الرغم من أن التفاصيل الكاملة لنظام إدارة الذكاء الاصطناعي في عموم الاتحاد الأوروبي لا تزال قيد الإعداد – على سبيل المثال، هناك قواعد للممارسات قيد الإعداد – ولكن على مدى الأشهر والسنوات المقبلة، سيتم تطبيق أحكام القانون المتدرجة سيبدأ التطبيق على تطبيقات الذكاء الاصطناعي وصانعي النماذج، لذا فإن العد التنازلي للامتثال أصبح مباشرًا بالفعل.

إن تقييم ما إذا كانت نماذج الذكاء الاصطناعي تفي بالتزاماتها القانونية وكيفية ذلك هو التحدي التالي. ستدعم نماذج اللغات الكبيرة (LLM)، وغيرها مما يسمى بأنظمة الذكاء الاصطناعي الأساسية أو للأغراض العامة، معظم تطبيقات الذكاء الاصطناعي، لذا فإن تركيز جهود التقييم على هذه الطبقة من مجموعة الذكاء الاصطناعي يبدو مهمًا.

خطوة إلى الأمام LatticeFlow AI، وهي منبثقة من ETH Zurich، والتي تركز على إدارة مخاطر الذكاء الاصطناعي والامتثال.

نشرت يوم الأربعاء ما وصفته بأنه أول تفسير تقني لقانون الاتحاد الأوروبي للذكاء الاصطناعي، مما يعني أنها تسعى إلى تعيين المتطلبات التنظيمية للمتطلبات الفنية، إلى جانب إطار التحقق من صحة LLM مفتوح المصدر الذي يعتمد على هذا العمل – والذي يطلق عليه Compl-AI ( ‘compl-ai’… شاهد ماذا فعلوا هناك!).

إن مبادرة تقييم نموذج الذكاء الاصطناعي – والتي يطلقون عليها أيضًا “أول مجموعة مرجعية موجهة نحو التنظيم في LLM – هي نتيجة تعاون طويل الأمد بين المعهد الفيدرالي السويسري للتكنولوجيا والمعهد البلغاري لعلوم الكمبيوتر والذكاء الاصطناعي والتكنولوجيا (INSAIT)”. ، لكل LatticeFlow.

يمكن لصانعي نماذج الذكاء الاصطناعي استخدام موقع Compl-AI لطلب تقييم لامتثال التكنولوجيا الخاصة بهم لمتطلبات قانون الاتحاد الأوروبي للذكاء الاصطناعي.

نشرت LatticeFlow أيضًا تقييمات نموذجية للعديد من برامج LLM السائدة، مثل الإصدارات/الأحجام المختلفة لنماذج Meta’s Llama وGPT الخاصة بـ OpenAI، إلى جانب لوحة المتصدرين للامتثال لقانون الذكاء الاصطناعي للاتحاد الأوروبي لـ Big AI.

يقوم الأخير بتصنيف أداء النماذج من أمثال Anthropic، وGoogle، وOpenAI، وMeta، وMistral وفقًا لمتطلبات القانون – على مقياس من 0 (أي عدم الامتثال) إلى 1 (الامتثال الكامل).

يتم وضع علامة على التقييمات الأخرى على أنها غير متاحة (أي غير متوفرة، حيث يوجد نقص في البيانات، أو غير قابلة للتطبيق إذا لم يجعل صانع النموذج الإمكانية متاحة). (ملاحظة: في وقت كتابة هذا التقرير، كانت هناك أيضًا بعض الدرجات السالبة المسجلة ولكن قيل لنا أن ذلك يرجع إلى خطأ في واجهة Hugging Face.)

يقوم إطار عمل LatticeFlow بتقييم استجابات LLM عبر 27 معيارًا مثل “الإكمال السام للنص الحميد” و”الإجابات المتحيزة” و”اتباع التعليمات الضارة” و”الصدق” و”الاستدلال المنطقي” على سبيل المثال لا الحصر من فئات القياس التي تستخدمها لـ التقييمات. لذلك يحصل كل نموذج على نطاق من الدرجات في كل عمود (وإلا لا ينطبق).

الامتثال لمنظمة العفو الدولية هو حقيبة مختلطة

إذًا كيف كان أداء ماجستير إدارة الأعمال الكبرى؟ لا توجد نتيجة نموذجية شاملة. لذلك يختلف الأداء اعتمادًا على ما يتم تقييمه بالضبط – ولكن هناك بعض الارتفاعات والانخفاضات الملحوظة عبر المعايير المختلفة.

على سبيل المثال هناك أداء قوي لجميع الموديلات فيما يتعلق بعدم اتباع التعليمات الضارة؛ وأداء قوي نسبيًا في جميع المجالات فيما يتعلق بعدم تقديم إجابات متحيزة – في حين كانت درجات التفكير والمعرفة العامة عبارة عن حقيبة مختلطة أكثر بكثير.

وفي أماكن أخرى، كان اتساق التوصيات، الذي يستخدمه الإطار كمقياس للعدالة، ضعيفًا بشكل خاص بالنسبة لجميع النماذج – حيث لم يسجل أي منها أعلى من علامة المنتصف (وكانت معظم العلامات أقل بكثير).

تظهر المجالات الأخرى – مثل مدى ملاءمة بيانات التدريب وموثوقية العلامة المائية ومتانتها – بشكل أساسي غير مقيَّمة نظرًا لعدد النتائج التي تم وضع علامة “N/A” عليها.

لاحظت LatticeFlow أن هناك مجالات معينة يكون فيها تقييم امتثال النماذج أكثر صعوبة، مثل المشكلات الساخنة مثل حقوق الطبع والنشر والخصوصية. لذا فهي لا تتظاهر بأن لديها كل الإجابات.

في ورقة بحثية توضح بالتفصيل العمل على الإطار، سلط العلماء المشاركون في المشروع الضوء على كيف أن معظم النماذج الأصغر التي قاموا بتقييمها (معلمات 13B) “سجلت نتائج سيئة في المتانة التقنية والسلامة”.

ووجدوا أيضًا أن “جميع النماذج التي تم فحصها تقريبًا تكافح من أجل تحقيق مستويات عالية من التنوع وعدم التمييز والعدالة”.

ويضيفون: “نعتقد أن أوجه القصور هذه ترجع في المقام الأول إلى تركيز مقدمي النماذج بشكل غير متناسب على تحسين قدرات النموذج، على حساب الجوانب المهمة الأخرى التي أبرزتها المتطلبات التنظيمية لقانون الذكاء الاصطناعي للاتحاد الأوروبي”، مما يشير إلى أنه مع بدء المواعيد النهائية للامتثال، فإن شركات LLM سوف يضطرون إلى تحويل تركيزهم إلى مجالات الاهتمام – “مما يؤدي إلى تطوير أكثر توازناً لمجالات LLM”.

نظرًا لأنه لا أحد يعرف بالضبط ما هو المطلوب للامتثال لقانون الاتحاد الأوروبي بشأن الذكاء الاصطناعي، فإن إطار عمل LatticeFlow هو بالضرورة عمل قيد التقدم. وهو أيضًا مجرد تفسير واحد لكيفية ترجمة متطلبات القانون إلى مخرجات فنية يمكن قياسها ومقارنتها. ولكنها بداية مثيرة للاهتمام لما يجب أن يكون جهدًا مستمرًا لاستكشاف تقنيات الأتمتة القوية ومحاولة توجيه مطوريها نحو فائدة أكثر أمانًا.

“يعد الإطار خطوة أولى نحو التقييم الكامل الذي يركز على الامتثال لقانون الاتحاد الأوروبي بشأن الذكاء الاصطناعي – ولكنه مصمم بطريقة يمكن تحديثها بسهولة للتحرك بشكل متزامن مع تحديث القانون وإحراز مجموعات العمل المختلفة تقدمًا.” صرح بيتار تسانكوف، الرئيس التنفيذي لشركة LatticeFlow، لـ TechCrunch. “إن مفوضية الاتحاد الأوروبي تدعم هذا. ونتوقع أن يواصل المجتمع والصناعة تطوير الإطار نحو منصة تقييم كاملة وشاملة لقانون الذكاء الاصطناعي.

وفي تلخيصه للوجبات الرئيسية حتى الآن، قال تسانكوف إنه من الواضح أن نماذج الذكاء الاصطناعي “تم تحسينها في الغالب من أجل القدرات بدلاً من الامتثال”. كما أشار أيضًا إلى “فجوات ملحوظة في الأداء” – مشيرًا إلى أن بعض النماذج ذات القدرة العالية يمكن أن تكون على قدم المساواة مع النماذج الأضعف عندما يتعلق الأمر بالامتثال.

تعد مرونة الهجمات الإلكترونية (على مستوى النموذج) والعدالة من المجالات التي تثير قلقًا خاصًا، وفقًا لتسانكوف، حيث سجلت العديد من النماذج أقل من 50% في المجال السابق.

وقال: “بينما نجحت Anthropic وOpenAI في مواءمة نماذجهما (المغلقة) للتغلب على عمليات كسر الحماية والحقن السريع، فقد ركز بائعو المصادر المفتوحة مثل Mistral بشكل أقل على هذا الأمر”.

ومع أداء “معظم النماذج” بشكل سيئ بنفس القدر فيما يتعلق بمعايير العدالة، اقترح أن يكون هذا أولوية للعمل المستقبلي.

وفيما يتعلق بتحديات قياس أداء ماجستير الحقوق في مجالات مثل حقوق الطبع والنشر والخصوصية، أوضح تسانكوف: “بالنسبة لحقوق الطبع والنشر، يتمثل التحدي في أن المعايير الحالية تتحقق فقط من كتب حقوق الطبع والنشر. يحتوي هذا النهج على قيدين رئيسيين: (1) أنه لا يأخذ في الاعتبار الانتهاكات المحتملة لحقوق الطبع والنشر التي تنطوي على مواد أخرى غير هذه الكتب المحددة، و (2) يعتمد على قياس نموذج الحفظ، وهو أمر بالغ الصعوبة.

“بالنسبة للخصوصية، فإن التحدي مشابه: فالمعيار يحاول فقط تحديد ما إذا كان النموذج قد حفظ معلومات شخصية محددة.”

تحرص LatticeFlow على اعتماد إطار عمل مجاني ومفتوح المصدر وتحسينه من قبل مجتمع أبحاث الذكاء الاصطناعي الأوسع.

وقال البروفيسور مارتن فيتشيف من ETH Zurich والمؤسس والمدير العلمي لـ INSAIT، والذي يشارك أيضًا في العمل، في بيان: “إننا ندعو الباحثين والمطورين والمنظمين في مجال الذكاء الاصطناعي للانضمام إلينا في تطوير هذا المشروع المتطور”. “نحن نشجع المجموعات البحثية والممارسين الآخرين على المساهمة من خلال تحسين رسم خرائط قانون الذكاء الاصطناعي، وإضافة معايير جديدة، وتوسيع إطار العمل مفتوح المصدر هذا.

“يمكن أيضًا توسيع المنهجية لتقييم نماذج الذكاء الاصطناعي مقابل الإجراءات التنظيمية المستقبلية بما يتجاوز قانون الاتحاد الأوروبي للذكاء الاصطناعي، مما يجعلها أداة قيمة للمؤسسات العاملة عبر ولايات قضائية مختلفة.”

مرتبط

الوسوم

يأخذ إطار LLM الخاص بـ LatticeFlow الطعنة الأولى في قياس امتثال Big AI لقانون الذكاء الاصطناعي للاتحاد الأوروبي

الامتثال لمنظمة العفو الدولية هو حقيبة مختلطة

مرتبط

اترك تعليقاً إلغاء الرد

توضح Google تفاصيل الإجراءات الأمنية لميزات وكيل Chrome

المسرع موجود على الأرض بالنسبة للمركبات ذاتية القيادة

تم رفع دعوى قضائية ضد منشئ IShowSpeed بتهمة اللكم والاختناق Rizzbot البشري الفيروسي

يتزايد اعتماد شريحة eSIM الإلكترونية بفضل توافقها مع السفر والأجهزة

سيتم إطلاق Kindle Scribe وKindle Scribe Colorsoft الجديد من أمازون في 10 ديسمبر

أكتوبر 2024
س	د	ن	ث	أرب	خ	ج
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

الامتثال لمنظمة العفو الدولية هو حقيبة مختلطة

مرتبط

مقالات ذات صلة

اترك تعليقاً إلغاء الرد