Jannah Theme License is not validated, Go to the theme options page to validate the license, You need a single license for each domain name.
تكنلوجيا الويب

قد لا ترى نماذج الذكاء الاصطناعي “المرئية” أي شيء على الإطلاق


توصف أحدث جولة من نماذج اللغات، مثل GPT-4o وGemini 1.5 Pro، بأنها “متعددة الوسائط”، قادرة على فهم الصور والصوت وكذلك النص. لكن دراسة جديدة توضح أنهم لا يفعلون ذلك حقًا يرى بالطريقة التي قد تتوقعها. في الواقع، قد لا يرون على الإطلاق.

لكي نكون واضحين في البداية، لم يقم أحد بتقديم ادعاءات مثل “هذا الذكاء الاصطناعي يمكنه أن يرى كما يفعل الناس!” (حسناً، ربما فعل البعض ذلك). لكن التسويق والمعايير المستخدمة للترويج لهذه النماذج تستخدم عبارات مثل “قدرات الرؤية”، و”الفهم البصري”، وما إلى ذلك. يتحدثون عن كيفية رؤية النموذج للصور ومقاطع الفيديو وتحليلها، بحيث يمكنه فعل أي شيء بدءًا من حل الواجبات المنزلية وحتى مشاهدة اللعبة نيابةً عنك.

لذلك، على الرغم من أن ادعاءات هذه الشركات قد تم صياغتها ببراعة، فمن الواضح أنها تريد التعبير عن أن النموذج يرى بمعنى ما من الكلمة. وهو يفعل ذلك – ولكن بنفس الطريقة التي يقوم بها بالرياضيات أو كتابة القصص: مطابقة الأنماط في البيانات المدخلة مع الأنماط الموجودة في بيانات التدريب الخاصة به. يؤدي هذا إلى فشل النماذج بنفس الطريقة التي تفشل بها في بعض المهام الأخرى التي تبدو تافهة، مثل اختيار رقم عشوائي.

أجرى باحثون في جامعة أوبورن وجامعة ألبرتا دراسة – غير رسمية في بعض النواحي، ولكنها منهجية – للفهم البصري لنماذج الذكاء الاصطناعي الحالية. لقد اختبروا أكبر النماذج متعددة الوسائط على سلسلة من المهام البصرية البسيطة جدًا، مثل السؤال عما إذا كان الشكلان متداخلين، أو عدد الأشكال الخماسية الموجودة في الصورة، أو أي حرف في الكلمة محاط بدائرة. (يمكن الاطلاع على ملخص للصفحة الصغيرة هنا.)

إنها من النوع الذي يمكن حتى لطالب الصف الأول أن يفهمه بشكل صحيح، لكنها أعطت نماذج الذكاء الاصطناعي صعوبة كبيرة.

“مهامنا السبع بسيطة للغاية، حيث يمكن للبشر أن يؤديها بدقة 100٪. “نتوقع من الذكاء الاصطناعي أن يفعل الشيء نفسه، لكنه ليس كذلك حاليًا”، كتب المؤلف المشارك آنه نجوين في رسالة بالبريد الإلكتروني إلى TechCrunch. “رسالتنا هي: انظروا، هذه النماذج الأفضل ما زالت تفشل”.”

اعتمادات الصورة: رحمانزادهجيرفي وآخرون

يعد اختبار الأشكال المتداخلة أحد أبسط مهام التفكير البصري التي يمكن تصورها. تم عرضها بدائرتين إما متداخلتين قليلاً، أو ملامستين فقط أو مع وجود مسافة بينهما، ولم تتمكن النماذج من تحقيق ذلك بشكل صحيح باستمرار. من المؤكد أن GPT-4o كان على صواب في أكثر من 95% من الحالات عندما كانا متباعدين، ولكن عند مسافات صفر أو صغيرة، كان صحيحًا في 18% فقط من الحالات. Gemini Pro 1.5 هو الأفضل، لكنه لا يزال يحصل على 7/10 فقط على المسافات القريبة.

(لا تظهر الرسوم التوضيحية الأداء الدقيق للنماذج ولكن المقصود منها إظهار عدم اتساق النماذج عبر الشروط. الإحصائيات الخاصة بكل نموذج موجودة في الورقة.)

أو ماذا عن حساب عدد الدوائر المتشابكة في الصورة؟ أراهن أن حصانًا أعلى من المتوسط ​​يمكنه فعل هذا.

اعتمادات الصورة: رحمانزادهجيرفي وآخرون

لقد نجحوا جميعًا بنسبة 100% في تنفيذ الأمر عندما تكون هناك خمس حلقات، ولكن إضافة حلقة واحدة يؤدي إلى تدمير النتائج تمامًا. الجوزاء ضائع، غير قادر على القيام بذلك بشكل صحيح مرة واحدة. يجيب Sonnet-3.5 على ستة… ثلث الوقت، وGPT-4o أقل بقليل من نصف الوقت. إن إضافة حلقة أخرى يجعل الأمر أكثر صعوبة، ولكن إضافة حلقة أخرى يجعل الأمر أسهل بالنسبة للبعض.

الهدف من هذه التجربة ببساطة هو إظهار أنه مهما كان ما تفعله هذه النماذج، فإنه لا يتوافق حقًا مع ما نعتقد أنه رؤية. بعد كل شيء، حتى لو كانت رؤيتهم سيئة، فإننا لا نتوقع أن تختلف الصور ذات الحلقات الستة والسابعة والثمانية والتسعة على نطاق واسع في النجاح.

وأظهرت المهام الأخرى التي تم اختبارها أنماطا مماثلة؛ لم يكن الأمر أنهم كانوا يرون أو يفكرون جيدًا أو سيئًا، ولكن يبدو أن هناك سببًا آخر يجعلهم قادرين على العد في حالة واحدة وليس في حالة أخرى.

إحدى الإجابات المحتملة، بالطبع، هي التحديق في وجهنا مباشرة: لماذا يجب أن يكونوا جيدين جدًا في الحصول على صورة صحيحة لخمس دوائر، لكنهم يفشلون فشلاً ذريعًا في الباقي، أو عندما تكون خمسة خماسيات؟ (لكي نكون منصفين، كان أداء Sonnet-3.5 جيدًا في ذلك.) لأن جميعهم لديهم صورة من خمس دوائر تظهر بشكل بارز في بيانات التدريب الخاصة بهم: الحلقات الأولمبية.

اعتمادات الصورة: اللجنة الأولمبية الدولية

لا يتم تكرار هذا الشعار مرارًا وتكرارًا في بيانات التدريب فحسب، بل من المحتمل أن يتم وصفه بالتفصيل في النص البديل وإرشادات الاستخدام والمقالات المتعلقة به. ولكن أين ستجد في بيانات التدريب الخاصة بهم ست حلقات متشابكة. أو سبعة؟ إذا كانت ردودهم تشير إلى أي شيء: لا مكان! ليس لديهم أي فكرة عما “ينظرون إليه”، وليس لديهم فهم بصري فعلي لماهية الحلقات أو التداخلات أو أي من هذه المفاهيم.

سألت عن رأي الباحثين في هذا “العمى” الذي يتهمون العارضات بوجوده. مثل المصطلحات الأخرى التي نستخدمها، فهي تتمتع بجودة مجسمة ليست دقيقة تمامًا ولكن من الصعب الاستغناء عنها.

كتب نجوين: “أوافق على أن كلمة “أعمى” لها العديد من التعريفات حتى بالنسبة للبشر، ولا توجد حتى الآن كلمة تصف هذا النوع من العمى/عدم حساسية الذكاء الاصطناعي تجاه الصور التي نعرضها”. “في الوقت الحالي، لا توجد تقنية لتصور ما يراه النموذج بالضبط. وسلوكهم عبارة عن وظيفة معقدة لمطالبة إدخال النص، وإدخال الصورة، والعديد من مليارات الأوزان.

لقد توقع أن النماذج ليست عمياء تمامًا، ولكن المعلومات المرئية التي تستخرجها من الصورة هي تقريبية ومجردة، شيء مثل “هناك دائرة على الجانب الأيسر”. لكن النماذج ليس لديها وسيلة لإصدار أحكام بصرية، حيث تجعل استجاباتها مثل ردود شخص مطلع على صورة ما ولكنه لا يستطيع رؤيتها في الواقع.

وكمثال أخير، أرسل نجوين هذا، والذي يدعم الفرضية المذكورة أعلاه:

اعتمادات الصورة: آنه نجوين

عندما تتداخل دائرة زرقاء ودائرة خضراء (كما يدفع السؤال النموذج إلى اعتبارها حقيقة)، فغالبًا ما تكون هناك منطقة مظللة باللون السماوي، كما هو الحال في مخطط Venn. إذا سألك أحد هذا السؤال، فمن الممكن أن تعطي أنت أو أي شخص ذكي نفس الإجابة، لأنها معقولة تمامًا… إذا كانت عيناك مغمضتين! ولكن لا أحد بأعينهم يفتح سوف يستجيب بهذه الطريقة.

هل يعني كل هذا أن نماذج الذكاء الاصطناعي “المرئية” هذه عديمة الفائدة؟ بعيد عنه. إن عدم القدرة على القيام بالتفكير الأولي حول صور معينة يشير إلى قدراتها الأساسية، ولكن ليس إلى قدراتها المحددة. من المرجح أن يكون كل نموذج من هذه النماذج دقيقًا للغاية في أشياء مثل تصرفات الإنسان وتعبيراته، وصور الأشياء والمواقف اليومية، وما شابه ذلك. والحقيقة أن هذا هو ما أرادوا تفسيره.

إذا اعتمدنا على تسويق شركات الذكاء الاصطناعي لإخبارنا بكل ما يمكن أن تفعله هذه النماذج، فسنعتقد أن لديهم رؤية 20/20. هناك حاجة إلى بحث كهذا لإظهار أنه، بغض النظر عن مدى دقة النموذج في تحديد ما إذا كان الشخص جالسًا أو يمشي أو يركض، فإنه يفعل ذلك دون “الرؤية” بالمعنى الذي نعنيه (إذا صح التعبير).


اكتشاف المزيد من مجلة كوكان

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى