[ad_1]

في يوم الثلاثاء، أصدرت شركة Anthropic الناشئة مجموعة من نماذج الذكاء الاصطناعي التوليدية التي تدعي أنها تحقق الأداء الأفضل في فئتها. وبعد بضعة أيام فقط، كشفت شركة Inflection AI المنافسة عن نموذج تؤكد أنه يقترب من مطابقة الجودة لبعض النماذج الأكثر قدرة الموجودة، بما في ذلك GPT-4 من OpenAI.

إن شركتي Anthropic وInflection ليستا بأي حال من الأحوال أولى شركات الذكاء الاصطناعي التي تتنافس على نماذجها فيما يتعلق بالمنافسة أو التغلب عليها من خلال بعض التدابير الموضوعية. ناقشت Google نفس نماذج Gemini الخاصة بها عند إصدارها، وقالت OpenAI إنها GPT-4 وأسلافها، GPT-3 وGPT-2 وGPT-1. والقائمة تطول.

لكن ما هي المقاييس التي يتحدثون عنها؟ عندما يقول البائع أن النموذج يحقق أداء أو جودة متطورين، ماذا يعني ذلك بالضبط؟ ولعل الأمر الأكثر أهمية هو: هل سيكون النموذج الذي “يؤدي” من الناحية الفنية أفضل من أي نموذج آخر في الواقع؟ يشعر تحسنت بطريقة ملموسة؟

فيما يتعلق بهذا السؤال الأخير، ليس من المحتمل.

السبب – أو بالأحرى المشكلة – يكمن في المعايير التي تستخدمها شركات الذكاء الاصطناعي لتحديد نقاط القوة والضعف في النموذج.

إن المعايير الأكثر استخداماً اليوم لنماذج الذكاء الاصطناعي – وتحديداً نماذج تشغيل برامج الدردشة مثل ChatGPT من OpenAI و Anthropic’s Claude – تؤدي عملاً سيئاً في التقاط كيفية تفاعل الشخص العادي مع النماذج التي يتم اختبارها. على سبيل المثال، يحتوي أحد المعايير التي استشهدت بها Anthropic في إعلانها الأخير، GPQA (“معيار الأسئلة والأجوبة على مستوى الدراسات العليا في Google”)، على مئات من أسئلة الأحياء والفيزياء والكيمياء على مستوى الدكتوراه – ومع ذلك يستخدم معظم الأشخاص برامج الدردشة الآلية لمهام مثل الاستجابة إلى رسائل البريد الإلكتروني، وكتابة رسائل الغلاف والتحدث عن مشاعرهم.

يقول جيسي دودج، العالم في معهد ألين للذكاء الاصطناعي، وهو منظمة غير ربحية لأبحاث الذكاء الاصطناعي، إن الصناعة وصلت إلى “أزمات التقييم”.

قال دودج لـ TechCrunch في مقابلة: “عادةً ما تكون المعايير ثابتة وتركز بشكل ضيق على تقييم قدرة واحدة، مثل واقعية النموذج في مجال واحد، أو قدرته على حل أسئلة الاختيار من متعدد للاستدلال الرياضي”. “يبلغ عمر العديد من المعايير المستخدمة للتقييم أكثر من ثلاث سنوات، وذلك عندما كانت أنظمة الذكاء الاصطناعي تستخدم في الغالب للبحث فقط ولم يكن لديها العديد من المستخدمين الحقيقيين. بالإضافة إلى ذلك، يستخدم الأشخاص الذكاء الاصطناعي التوليدي بعدة طرق، فهم مبدعون للغاية.

لا يعني ذلك أن المعايير الأكثر استخدامًا عديمة الفائدة تمامًا. لا شك أن هناك من يسأل أسئلة الرياضيات على مستوى الدكتوراه في ChatGPT. ومع ذلك، مع تزايد وضع نماذج الذكاء الاصطناعي التوليدية كأنظمة للسوق الشامل، وأنظمة “القيام بكل شيء”، أصبحت المعايير القديمة أقل قابلية للتطبيق.

يشير ديفيد ويدر، باحث ما بعد الدكتوراه في جامعة كورنيل الذي يدرس الذكاء الاصطناعي والأخلاق، إلى أن العديد من اختبارات المعايير المشتركة للمهارات – بدءًا من حل مسائل الرياضيات على مستوى المدرسة الابتدائية إلى تحديد ما إذا كانت الجملة تحتوي على مفارقة تاريخية – لن تكون ذات صلة أبدًا بغالبية المستخدمين.

قال Widder لـ TechCrunch: “غالبًا ما تم تصميم أنظمة الذكاء الاصطناعي الأقدم لحل مشكلة معينة في سياق ما (مثل أنظمة خبراء الذكاء الاصطناعي الطبي)، مما يجعل الفهم السياقي العميق لما يشكل أداءً جيدًا في هذا السياق المحدد أكثر إمكانية”. “نظرًا لأن الأنظمة يُنظر إليها بشكل متزايد على أنها ذات أغراض عامة، فإن هذا أقل احتمالًا، لذلك نرى تركيزًا متزايدًا على اختبار النماذج على مجموعة متنوعة من المعايير عبر مجالات مختلفة.”

وبغض النظر عن عدم التوافق مع حالات الاستخدام، هناك تساؤلات حول ما إذا كانت بعض المعايير تقيس بشكل صحيح ما تهدف إلى قياسه.

وجد تحليل لاختبار HellaSwag، وهو اختبار مصمم لتقييم المنطق المنطقي في النماذج، أن أكثر من ثلث أسئلة الاختبار تحتوي على أخطاء مطبعية وكتابة “غير منطقية”. في مكان آخر، MMLU (اختصار لـ “فهم لغة المهام المتعددة الهائل”)، وهو معيار أشار إليه البائعون بما في ذلك Google وOpenAI وAnthropic كدليل على أن نماذجهم يمكن أن تفكر من خلال المشكلات المنطقية، ويطرح أسئلة يمكن حلها من خلال الحفظ عن ظهر قلب.

“[Benchmarks like MMLU are] قال ويدر: “المزيد عن حفظ وربط كلمتين رئيسيتين معًا”. “يمكنني أن أجد [a relevant] مقالة سريعة إلى حد ما وأجيب على السؤال، لكن هذا لا يعني أنني أفهم الآلية السببية، أو يمكنني استخدام فهم هذه الآلية السببية للتفكير فعليًا وحل المشكلات الجديدة والمعقدة في سياقات غير متوقعة. النموذج لا يستطيع ذلك أيضًا.

لذلك يتم كسر المعايير. ولكن هل يمكن إصلاحها؟

دودج يعتقد ذلك – مع المزيد من المشاركة البشرية.

وقالت: “إن المسار الصحيح للمضي قدمًا، هنا، هو مزيج من معايير التقييم مع التقييم البشري، حيث يتم طرح نموذج يتضمن استعلامًا حقيقيًا للمستخدم ثم تعيين شخص لتقييم مدى جودة الاستجابة”.

أما بالنسبة إلى Widder، فهو أقل تفاؤلاً بإمكانية تحسين المعايير اليوم – حتى مع إصلاحات الأخطاء الأكثر وضوحًا، مثل الأخطاء المطبعية – إلى درجة أنها ستكون مفيدة للغالبية العظمى من مستخدمي نماذج الذكاء الاصطناعي التوليدي. وبدلاً من ذلك، يعتقد أن اختبارات النماذج يجب أن تركز على التأثيرات النهائية لهذه النماذج وما إذا كانت التأثيرات، سواء كانت جيدة أو سيئة، يُنظر إليها على أنها مرغوبة بالنسبة للمتأثرين.

وقال: “أود أن أسأل ما هي الأهداف السياقية المحددة التي نريد أن يتم استخدام نماذج الذكاء الاصطناعي من أجلها وتقييم ما إذا كانت ستكون ناجحة أم لا في مثل هذه السياقات”. “ونأمل أيضًا أن تتضمن هذه العملية تقييم ما إذا كان ينبغي لنا استخدام الذكاء الاصطناعي في مثل هذه السياقات”.

[ad_2]

من kokn

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *