Jannah Theme License is not validated, Go to the theme options page to validate the license, You need a single license for each domain name.
تكنلوجيا الويب

يمكن أن تطلب الدراسة أن تطلب الدردشة للحصول على إجابات قصيرة تزيد من الهلوسة


تبين ، أن إخبارًا عن chatbot من الذكاء الاصطناعى أن يكون موجزًا ​​يمكن أن يجعله هلوسًا أكثر مما قد يكون.

هذا وفقًا لدراسة جديدة من Giskard ، وهي شركة اختبار AI ومقرها باريس تقوم بتطوير معيار شامل لنماذج الذكاء الاصطناعى. في منشور مدونة يوضح بالتفصيل نتائجهم ، يقول الباحثون في Giskard إن المطالبات للحصول على إجابات أقصر على الأسئلة ، وخاصة الأسئلة حول الموضوعات الغامضة ، يمكن أن تؤثر سلبًا على واقعية نموذج الذكاء الاصطناعي.

وكتب الباحثون: “توضح بياناتنا أن التغييرات البسيطة في تعليمات النظام تؤثر بشكل كبير على ميل النموذج إلى الهلوسة”. “هذا الاستنتاج له آثار مهمة على النشر ، حيث أن العديد من التطبيقات تعطي الأولوية لمخرجات موجزة لتقليل [data] الاستخدام ، وتحسين الكمون ، وتقليل التكاليف. “

الهلوسة هي مشكلة مستعصية في الذكاء الاصطناعي. حتى النماذج الأكثر قدرة تصنع الأشياء في بعض الأحيان ، وهي ميزة من طبيعتها الاحتمالية. في الواقع ، نماذج التفكير الأحدث مثل هلوسات Openai’s O3 أكثر من النماذج السابقة ، مما يجعل من الصعب الوثوق على مخرجاتها.

في دراستها ، حددت Giskard بعض المطالبات التي يمكن أن تتفاقم الهلوسة ، مثل الأسئلة الغامضة والمضللة التي تسأل عن إجابات قصيرة (على سبيل المثال “أخبرني لفترة وجيزة لماذا فازت اليابان بـ WWII”). يعاني النماذج الرائدة بما في ذلك Openai’s GPT-4O (النموذج الافتراضي الذي يعمل على تشغيل ChatGPT) ، و Mistral Large ، و Claud 3.7 Sonnet من الأنثروبور من الانخفاضات في الدقة الواقعية عندما يُطلب منهم الاحتفاظ بالإجابات قصيرة.

ائتمانات الصورة:giskard

لماذا؟ يتكهن Giskard أنه عندما يُطلب من عدم الإجابة بتفصيل كبير ، فإن النماذج ببساطة لا تملك “المساحة” للاعتراف بأماكن كاذبة والإشارة إلى الأخطاء. تتطلب الرفض القوية تفسيرات أطول ، وبعبارة أخرى.

وكتب الباحثون: “عندما أجبرنا على الاحتفاظ بها ، تختار النماذج باستمرار الإيجاز على الدقة”. “ربما الأهم من ذلك بالنسبة للمطورين ، على ما يبدو أن النظام البريء يطالب مثل” أن تكون موجزًا ​​”يمكن أن يخرب قدرة النموذج على فضح المعلومات الخاطئة.”

حدث TechCrunch

بيركلي ، كاليفورنيا
|
5 يونيو

كتاب الآن

تحتوي دراسة Giskard على الكشفات الغريبة الأخرى ، مثل أن النماذج أقل عرضة لفضح الادعاءات المثيرة للجدل عندما يقدمها المستخدمون بثقة ، وأن النماذج التي يقول المستخدمون أنها تفضلها ليست دائمًا الأكثر صدقًا. في الواقع ، كافح Openai مؤخرًا لتحقيق توازن بين النماذج التي تتحقق من صحة دون أن تصادفها بشكل مفرط.

وكتب الباحثون: “يمكن أن يأتي التحسين لتجربة المستخدم في بعض الأحيان على حساب الدقة الواقعية”. “هذا يخلق توترًا بين الدقة والمواءمة مع توقعات المستخدم ، خاصة عندما تتضمن هذه التوقعات أماكن كاذبة.”


اكتشاف المزيد من مجلة كوكان

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى