الناس يقمعون الذكاء الاصطناعي من خلال جعلها تجعل الكرات ترتد في الأشكال الدوارة

تستمر قائمة المعايير غير الرسمية والغريبة في النمو.
على مدار الأيام القليلة الماضية ، أصبح بعضهم في مجتمع الذكاء الاصطناعى على X مهووسًا باختبار لكيفية اختلاف نماذج الذكاء الاصطناعي ، وخاصة ما يسمى نماذج التفكير ، بمطالبات مثل هذا: . اجعل الشكل يدور ببطء ، وتأكد من أن الكرة تبقى داخل الشكل. “
تدير بعض النماذج بشكل أفضل على معيار “الكرة في الشكل الدوار” من غيرها. وفقًا لمستخدم واحد على X ، اجتاحت R1 R1 من AI Labs من AI Labseek الأرضية مع وضع O1 Pro Openai ، والذي يكلف 200 دولار شهريًا كجزء من خطة ChatGpt Pro Openai.
👀 Deepseek R1 (يمين) سحق O1-Pro (يسار) 👀
موجه: “اكتب نصًا بيثون للكرة الصفراء المرتدة داخل مربع ، تأكد من التعامل مع اكتشاف الاصطدام بشكل صحيح. اجعل المربع يدور ببطء. تنفيذها في بيثون. تأكد من بقاء الكرة داخل المربع ” pic.twitter.com/3sad9efpez
– إيفان فيورافانتي ᯅ (ivanfioravanti) 22 يناير 2025
لكل ملصق X آخر ، أساءت كلود 3.5 Sonnet’s Hothropic’s Claude و Google Gemini 1.5 Pro في الفيزياء ، مما أدى إلى هروب الكرة. ذكر المستخدمون الآخرون أن Gemini 2.0 Flash Thinking التجريبي ، وحتى GPT-4O الأقدم من Openai ، قد أدى إلى التقييم دفعة واحدة.
تم اختبار 9 نماذج منظمة العفو الدولية على مهمة محاكاة الفيزياء: تدوير المثلث + كرة كذاب. نتائج:
🥇 Deepseek-R1
🥈 السونار ضخمة
🥉 GPT-4Oأسوأ؟ Openai O1: أسيء فهم المهمة تمامًا 😂
الفيديو أدناه ↓ الصف الأول = نماذج التفكير ، REST = النماذج الأساسية. pic.twitter.com/eoyrhvnazr
– aadhithya d (@aadhithya_d2003) 22 يناير 2025
ولكن ما الذي يثبت أن الذكاء الاصطناعى يمكنه أو لا يمكنه ترميز شكل دوار يحتوي على الكرة؟
حسنًا ، يمثل محاكاة الكرة المرتدة تحديًا للبرمجة الكلاسيكية. تتضمن عمليات المحاكاة الدقيقة خوارزميات اكتشاف التصادم ، والتي تحاول تحديد وقت تصادم كائنين (مثل الكرة وجانب الشكل). يمكن أن تؤثر الخوارزميات المكتوبة بشكل سيئ على أداء المحاكاة أو تؤدي إلى أخطاء فيزياء واضحة.
يقول X User N8 Programs ، وهو باحث في الإقامة في AI Startup Nous Research ، إن الأمر استغرق منه ساعتين تقريبًا لبرمجة كرة كذبة في سحر دوار من الصفر. “يتعين على المرء تتبع أنظمة إحداثيات متعددة ، وكيفية القيام بالتصادمات في كل نظام ، وتصميم الكود من البداية لتكون قوية” ، أوضحت برامج N8 في منشور.
ولكن في حين أن كرات الكرات والأشكال الدوارة هي اختبار معقول لمهارات البرمجة ، إلا أنها ليست معيارًا تجريبيًا للغاية من الذكاء الاصطناعي. حتى الاختلافات الطفيفة في المطالبة يمكن أن تسفر عن نتائج مختلفة. لهذا السبب أن بعض المستخدمين على X يبلغون عن المزيد من الحظ مع O1 ، بينما يقول آخرون أن R1 تقصر.
إذا كان هناك أي شيء ، فإن الاختبارات الفيروسية مثل هذه تشير إلى المشكلة المستعصية المتمثلة في إنشاء أنظمة مفيدة لقياس نماذج الذكاء الاصطناعى. غالبًا ما يكون من الصعب معرفة ما الذي يميز نموذجًا عن الآخر ، خارج المعايير الباطنية غير ذات صلة بمعظم الناس.
تجري العديد من الجهود لبناء اختبارات أفضل ، مثل اختبار ARC-AAGI والامتحان الأخير للبشرية. سنرى كيف تلك الأجرة – وفي الوقت نفسه شاهد صور الكرات من الكرات في الأشكال الدوارة.
اكتشاف المزيد من مجلة كوكان
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.