يشكك الباحثون في قدرة الذكاء الاصطناعي على “الاستدلال” عندما تتعثر النماذج في مسائل رياضية مع تغييرات تافهة
كيف تفعل نماذج التعلم الآلي ما تفعله؟ وهل هم حقًا “يفكرون” أو “يفكرون” بالطريقة التي نفهم بها تلك الأشياء؟ هذا سؤال فلسفي بقدر ما هو سؤال عملي، لكن ورقة بحثية جديدة انتشرت يوم الجمعة تشير إلى أن الإجابة، على الأقل في الوقت الحالي، هي “لا” بشكل واضح للغاية.
أصدرت مجموعة من علماء أبحاث الذكاء الاصطناعي في شركة أبل ورقتهم البحثية بعنوان “فهم حدود التفكير الرياضي في نماذج اللغات الكبيرة” للتعليق العام يوم الخميس. في حين أن المفاهيم الأعمق للتعلم الرمزي وإعادة إنتاج الأنماط لا تزال غير واضحة بعض الشيء، إلا أن المفهوم الأساسي لأبحاثهم من السهل جدًا فهمه.
لنفترض أنني طلبت منك حل مسألة رياضية بسيطة مثل هذه:
أوليفر يختار 44 كيوي يوم الجمعة. ثم يختار 58 كيوي يوم السبت. وفي يوم الأحد، يختار ضعف عدد الكيوي الذي التقطه يوم الجمعة. كم عدد الكيوي الذي يمتلكه أوليفر؟
من الواضح أن الإجابة هي 44 + 58 + (44 * 2) = 190. على الرغم من أن النماذج اللغوية الكبيرة غير دقيقة في العمليات الحسابية، إلا أنها تستطيع حل شيء مثل هذا بشكل موثوق. ولكن ماذا لو قمت بإدخال القليل من المعلومات الإضافية العشوائية، مثل هذا:
أوليفر يختار 44 كيوي يوم الجمعة. ثم يختار 58 كيوي يوم السبت. في يوم الأحد، يختار ضعف عدد الكيوي الذي التقطه يوم الجمعة، ولكن خمسة منهم كانوا أصغر قليلا من المتوسط. كم عدد الكيوي الذي يمتلكه أوليفر؟
إنها نفس المشكلة الحسابية، أليس كذلك؟ وبالطبع حتى تلميذ المرحلة الابتدائية سيعرف أنه حتى حبة الكيوي الصغيرة لا تزال كيوي. ولكن كما اتضح، فإن نقطة البيانات الإضافية هذه تربك حتى حاملي شهادة الماجستير في القانون (LLM) المتطورين. إليك نظرة GPT-o1-mini:
… في يوم الأحد، كان حجم 5 من هؤلاء الكيوي أصغر من المتوسط. نحتاج إلى طرحها من إجمالي الأحد: 88 (كيوي الأحد) – 5 (كيوي أصغر) = 83 كيوي
هذا مجرد مثال بسيط من بين مئات الأسئلة التي قام الباحثون بتعديلها بشكل طفيف، ولكن جميعها تقريبًا أدت إلى انخفاضات هائلة في معدلات النجاح للنماذج التي تحاول تجربتها.
الآن، لماذا يجب أن يكون هذا؟ لماذا يتم التخلص من النموذج الذي يفهم المشكلة بهذه السهولة من خلال تفاصيل عشوائية لا صلة لها بالموضوع؟ يقترح الباحثون أن طريقة الفشل الموثوقة هذه تعني أن النماذج لا تفهم المشكلة حقًا على الإطلاق. تسمح لهم بيانات التدريب الخاصة بهم بالرد بالإجابة الصحيحة في بعض المواقف، ولكن بمجرد الحاجة إلى أدنى “تفكير” فعلي، مثل ما إذا كان يجب عد حبات الكيوي الصغيرة، فإنهم يبدأون في إنتاج نتائج غريبة وغير بديهية.
وكما قال الباحثون في ورقتهم:
[W]قمنا بالتحقيق في هشاشة الاستدلال الرياضي في هذه النماذج وأثبتنا أن أدائها يتدهور بشكل ملحوظ مع زيادة عدد الجمل في السؤال. نحن نفترض أن هذا الانخفاض يرجع إلى حقيقة أن حاملي ماجستير القانون الحاليين غير قادرين على التفكير المنطقي الحقيقي؛ وبدلاً من ذلك، يحاولون تكرار خطوات التفكير التي تمت ملاحظتها في بيانات التدريب الخاصة بهم.
تتوافق هذه الملاحظة مع الصفات الأخرى التي تُنسب غالبًا إلى حاملي ماجستير اللغة بسبب سهولة تعاملهم مع اللغة. عندما تكون عبارة “أنا أحبك”، إحصائيًا، متبوعة بعبارة “أنا أحبك أيضًا”، يمكن لـ LLM تكرار ذلك بسهولة – لكن هذا لا يعني أنه يحبك. وعلى الرغم من أنه يمكن أن يتبع سلاسل معقدة من الاستدلال التي تعرض لها من قبل، فإن حقيقة أن هذه السلسلة يمكن كسرها حتى عن طريق الانحرافات السطحية تشير إلى أنه لا يفكر في الواقع بقدر تكرار الأنماط التي لاحظها في بيانات التدريب الخاصة به.
قام مهرداد فرج طبر، أحد المؤلفين المشاركين، بتقسيم الورقة بشكل جيد للغاية في هذا الموضوع على X.
أحد الباحثين في OpenAI، بينما أثنى على عمل ميرزاده وآخرين، اعترض على استنتاجاتهم، قائلًا إنه من المحتمل تحقيق النتائج الصحيحة في جميع حالات الفشل هذه مع القليل من الهندسة السريعة. لاحظ فرجتابر (مستجيبًا للود النموذجي ولكن المثير للإعجاب الذي يميل الباحثون إلى استخدامه) أنه في حين أن التحفيز الأفضل قد ينجح في الانحرافات البسيطة، إلا أن النموذج قد يتطلب بيانات سياقية أكثر بشكل كبير من أجل مواجهة الانحرافات المعقدة – تلك التي، مرة أخرى، يمكن للطفل أن يشير بشكل تافه خارج.
هل هذا يعني أن LLMs لا يفكر؟ ربما. أنهم لا يستطيعون التفكير؟ لا أحد يعرف. هذه ليست مفاهيم محددة جيدًا، وتميل الأسئلة إلى الظهور في أحدث أبحاث الذكاء الاصطناعي، حيث تتغير أحدث التطورات يوميًا. ربما يكون “السبب” لحملة ماجستير إدارة الأعمال، ولكن بطريقة لا ندركها بعد أو نعرف كيفية التحكم فيها.
إنه يمثل حدودًا رائعة في مجال البحث، ولكنه أيضًا قصة تحذيرية عندما يتعلق الأمر بكيفية بيع الذكاء الاصطناعي. هل يمكنها حقًا أن تفعل الأشياء التي يدعونها، وإذا فعلت ذلك، فكيف؟ نظرًا لأن الذكاء الاصطناعي أصبح أداة برمجية يومية، فإن هذا النوع من الأسئلة لم يعد أكاديميًا.
اكتشاف المزيد من مجلة كوكان
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.