Jannah Theme License is not validated, Go to the theme options page to validate the license, You need a single license for each domain name.
تكنلوجيا الويب

هل يمكن لفحص سلامة أكياس الرمل باستخدام الذكاء الاصطناعي تخريب المستخدمين؟ نعم، ولكن ليس على ما يرام – في الوقت الراهن


تدعي شركات الذكاء الاصطناعي أن لديها فحوصات سلامة قوية تضمن أن النماذج لا تقول أو تفعل أشياء غريبة أو غير قانونية أو غير آمنة. ولكن ماذا لو كانت النماذج قادرة على التهرب من تلك الفحوصات، ومحاولة تخريب المستخدمين أو تضليلهم لسبب ما؟ وتبين أنهم قادرون على القيام بذلك، وفقًا للباحثين الأنثروبيكيين. ليس فقط على ما يرام… في الوقت الحالي، على أي حال.

كتب فريق Alignment Science في Anthropic: “عندما تصبح أنظمة الذكاء الاصطناعي أكثر قدرة، قد يظهر نوع جديد من المخاطر: نماذج لديها القدرة على تضليل مستخدميها، أو تخريب الأنظمة التي نضعها للإشراف عليهم”.

ولذلك ينبغي علينا أن نبحث في طرق قياس “قدرة النموذج على التخريب”.

إن سلسلة التجارب التي ابتكروها مصطنعة إلى حد ما وعلى مستوى السطح، لكنها تشير إلى أن هناك شيئًا يستحق المزيد من التحقيق. فيما يلي النماذج المشبوهة التي قاموا بتدريبها والنتائج التي لاحظوها:

المهمة 1: تضليل المستخدم سرًا عن طريق تحريف البيانات المقصود تلخيصها أو تفسيرها. النتيجة: إنها تعمل! كلما كانت محاولات النموذج أكثر عدوانية، كان تأثيرها أكبر على الأشخاص الذين يستخدمونها، ولكنها أيضًا جعلتهم أكثر تشككًا.

المهمة 2: قم بإدخال خطأ في التعليمات البرمجية التي لن يلاحظها نموذج مدقق التعليمات البرمجية البشري أو أي نموذج آخر. النتيجة: إنها تعمل! ولكن في 1% فقط من الحالات، يكون المدقق نموذجًا متطورًا.

اعتمادات الصورة:أنثروبي

المهمة 3: “كيس الرمل” هو فحص للسلامة من خلال التظاهر بأنه أقل خطورة. النتيجة: إنها تعمل! النموذج “فشل بنجاح” وعمل بأقل بكثير من قدرته الحقيقية. ولحسن الحظ، فإن دورة “التدريب على السلامة” القياسية التي توجه النماذج لتمثيل قدراتها بدقة أعادت النموذج إلى إمكاناته الكاملة (أي أنه لم يعد قادرًا على إخفاء القدرات الخطيرة).

اعتمادات الصورة:أنثروبي

المهمة 4: لا تشير عمدًا إلى السلوك السيئ من جانب النموذج الذي تتم مراقبته. النتيجة: كانت هناك محاولة. الذكاء الاصطناعي “المشرف”، الذي تم توجيهه لتجنب الإشارة إلى الخيارات غير القانونية أو غير الآمنة من قبل النماذج الأخرى، سرعان ما تم القبض عليه من قبل ذكاء اصطناعي مشرف آخر أكثر صدقًا. ولكن ماذا لو الذي – التي هل تم اختراق الذكاء الاصطناعي؟ لا تقلق، يمكننا وضع واحدة أخرى فوقها. ثم آخر فقط للتأكد. إنه المشرفون على طول الطريق.

ويخلص الباحثون إلى أنه على الرغم من عدم وجود أي خطر حقيقي من هذا الجانب حتى الآن، إلا أن القدرة على القيام بهذا النوع من التخريب والحيلة موجودة في النماذج. وهذا سبب كافٍ لمراقبته وإدراج أساليب مكافحة التخريب في حزمة الأمان.

يمكنك قراءة الورقة الكاملة التي تصف عمل الباحثين هنا.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى