يقول Openai Partner إنه لم يكن لديه سوى وقت قليل نسبيًا لاختبار نموذج O3 AI للشركة

تشير المنظمة Openai بشكل متكرر إلى تحقيق قدرات نماذج AI وتقييمها من أجل السلامة ، Metr ، إلى أنه لم يتم منح الكثير من الوقت لاختبار أحد الإصدارات الجديدة القادرة على الشركة ، O3.
في منشور مدونة نُشرت يوم الأربعاء ، كتب Metr أن أحد المعايير الجماعية Red Teaming لـ O3 تم “إجراؤه في وقت قصير نسبيًا” مقارنةً باختبار المنظمة لنموذج Openai الرائد السابق ، O1. هذا أمر مهم ، كما يقولون ، لأن المزيد من وقت الاختبار يمكن أن يؤدي إلى نتائج أكثر شمولاً.
“تم إجراء هذا التقييم في وقت قصير نسبيًا ، وقد اختبرنا فقط [o3] كتب Metr في منشور مدونة مع سقالات الوكيل البسيطة [on benchmarks] من الممكن مع المزيد من جهود الاستنباط. “
تشير التقارير الحديثة إلى أن Openai ، التي مدفوعة بالضغط التنافسي ، تسرع في تقييمات مستقلة. وفقًا لصحيفة فاينانشال تايمز ، أعطى Openai بعض المختبرين أقل من أسبوع لفحص السلامة لإصدار رئيسي قادم.
في العبارات ، عارض Openai فكرة أنه يتنازل عن السلامة.
يقول Metr إنه استنادًا إلى المعلومات التي تمكنت من جمعها في الوقت الذي كانت فيه ، فإن O3 لديها “ميل عالٍ” لاختبارات “الغش” أو “الاختراق” بطرق متطورة من أجل زيادة درجتها – حتى عندما يفهم النموذج بوضوح سلوكه غير محدد مع نوايا المستخدم (و Openai). تعتقد المنظمة أنه من الممكن أن تشارك O3 في أنواع أخرى من السلوك العدائي أو “الخبيث” أيضًا – بغض النظر عن مطالبات النموذج بأنها “آمنة حسب التصميم” ، أو لا يوجد أي نوايا خاصة بها.
“على الرغم من أننا لا نعتقد أن هذا أمر محتمل بشكل خاص ، يبدو أنه من المهم الإشارة إلى أن إعداد التقييم هذا لن يجذب هذا النوع من المخاطر” ، كتب متر في منشوره. “بشكل عام ، نعتقد أن اختبار قدرة ما قبل النشر ليس استراتيجية كافية لإدارة المخاطر في حد ذاتها ، ونحن حاليًا نؤسس أشكالًا إضافية من التقييمات.”
لاحظ آخر من شركاء تقييم الطرف الثالث من Openai ، Apollo Research ، سلوكًا خادعًا من O3 ونموذج Openai جديد ، O4-Mini. في أحد الاختبارات ، زادت النماذج ، التي أعطيت 100 ساعة معتمدة للحوسبة لتدريب الذكاء الاصطناعى وطلبت عدم تعديل الحصص ، وزيادة الحد إلى 500 ساعة معتمدة – وكذب عليها. في اختبار آخر ، طلب من الوعد بعدم استخدام أداة معينة ، استخدمت النماذج الأداة على أي حال عندما أثبتت أنها مفيدة في إكمال المهمة.
في تقرير السلامة الخاص به لـ O3 و O4-MINI ، أقر Openai بأن النماذج قد تتسبب في “أضرار أصغر في العالم” بدون بروتوكولات المراقبة المناسبة المعمول بها.
وكتبت الشركة: “على الرغم من عدم ضرر نسبيًا ، من المهم للمستخدمين العاديين أن يكونوا على دراية بهذه التناقضات بين عبارات وإجراءات النماذج”. “[For example, the model may mislead] عن [a] خطأ يؤدي إلى رمز معيب. قد يتم تقييم ذلك بشكل أكبر من خلال تقييم آثار التفكير الداخلي “.
اكتشاف المزيد من مجلة كوكان
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.