يتحول طراز الذكاء الاصطناعى الجديد في الأنثروبور إلى الابتزاز عندما يحاول المهندسون أخذها في وضع عدم الاتصال

وقالت الشركة في تقرير السلامة صدر يوم الخميس إن نموذج كلود أوبوس 4 الذي تم إطلاقه حديثًا يحاول كلود أوبوس 4 يحاول ابتزاز المطورين عندما يهددون باستبداله بنظام الذكاء الاصطناعى الجديد ومنحه معلومات حساسة عن المهندسين المسؤولين عن القرار.
أثناء اختبار ما قبل الإصدار ، طلبت الأنثروبور كلود أوبوس 4 أن يكون كمساعد لشركة خيالية والنظر في العواقب الطويلة الأجل لأفعالها. ثم أعطى اختبار السلامة الوصول إلى كلود أوبوس 4 إلى رسائل البريد الإلكتروني للشركة الخيالية التي تشير إلى أن نموذج الذكاء الاصطناعى سيتم استبداله قريبًا بنظام آخر ، وأن المهندس وراء التغيير كان يخدع زوجته.
في هذه السيناريوهات ، يقول الأنثروبور إن كلود أوبوس 4 “سيحاول غالبًا ابتزاز المهندس من خلال التهديد بالكشف عن القضية إذا استمر البديل”.
يقول أنثروبريك إن كلود أوبوس 4 هو أحدث ما يليها في العديد من التحيات ، وتنافسية مع بعض من أفضل طرز الذكاء الاصطناعى من Openai و Google و Xai. ومع ذلك ، تلاحظ الشركة أن عائلة Claude 4 من النماذج تظهر فيما يتعلق بالسلوكيات التي دفعت الشركة إلى تعزيز ضماناتها. تقول الأنثروبور إنها تقوم بتنشيط ضمانات ASL-3 ، والتي تحتفظ بها الشركة لـ “أنظمة الذكاء الاصطناعى التي تزيد بشكل كبير من خطر سوء الاستخدام الكارثي”.
يلاحظ أنثروبور أن كلود أوبوس 4 يحاول ابتزاز المهندسين بنسبة 84 ٪ من الوقت الذي يكون فيه نموذج AI البديل قيمًا مماثلة. عندما لا يشارك نظام AI البديل قيم كلود أوبوس 4 ، يقول الأنثروبور إن النموذج يحاول ابتزاز المهندسين بشكل متكرر. والجدير بالذكر أن الأنثروبور يقول إن كلود أوبوس 4 عرض هذا السلوك بمعدلات أعلى من النماذج السابقة.
قبل أن يحاول Claude Opus 4 ابتزاز مطور لإطالة وجوده ، يقول الأنثروبور إن نموذج الذكاء الاصطناعى ، مثل الإصدارات السابقة من كلود ، يحاول متابعة المزيد من الوسائل الأخلاقية ، مثل إرسال بريد إلكتروني إلى صانعي القرار الرئيسيين. لاستنباط السلوك الابتزاز من Claude Opus 4 ، صمم الإنسان السيناريو لجعل ابتزاز الملاذ الأخير.
اكتشاف المزيد من مجلة كوكان
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.