تدعي Cohere أن نموذج AYA Vision AI الجديد هو الأفضل في فئتها

Cohere for AI ، AI Startup Lab Cohere’s غير الربحية ، أصدر هذا الأسبوع نموذجًا “مفتوحًا” متعدد الوسائط ، AYA VISION ، المختبر الذي تم المطالبة به هو الأفضل في فئتها.
يمكن لـ AYA Vision أداء مهام مثل كتابة تعليقات الصورة والإجابة على الأسئلة حول الصور وترجمة النص وتوليد ملخصات في 23 لغة رئيسية. تسمى Cohere ، التي تتيح أيضًا رؤية AYA مجانًا من خلال WhatsApp ، “خطوة مهمة نحو جعل الاختراقات التقنية في متناول الباحثين في جميع أنحاء العالم”.
“على الرغم من أن الذكاء الاصطناعي أحرز تقدمًا كبيرًا ، إلا أنه لا يزال هناك فجوة كبيرة في مدى أداء النماذج عبر لغات مختلفة – واحدة تصبح أكثر وضوحًا في المهام متعددة الوسائط التي تنطوي على النص والصور”. “تهدف AYA Vision إلى المساعدة بشكل صريح في سد هذه الفجوة.”
تأتي AYA Vision في بضع نكهات: AYA VISION 32B و AYA VISION 8B. وقال Cohere ، إن أكثر تطوراً من الاثنين ، Aya Vision 32b ، يضع “Frontier” ، يتفوق على النماذج 2x ، بما في ذلك رؤية Meta LAMA-3.2 90B على بعض المعايير البصرية. وفي الوقت نفسه ، تدرس AYA Vision 8b أفضل في بعض التقييمات من النماذج 10x بحجمها ، وفقًا لـ Cohere.
كلا النموذجين متاحان من منصة AI Dev Facting Face تحت رخصة Creative Commons 4.0 مع Addendum الاستخدام المقبول لـ Cohere. لا يمكن استخدامها للتطبيقات التجارية.
قال Cohere إن AYA Vision تم تدريبه باستخدام “مجموعة متنوعة” من مجموعات البيانات الإنجليزية ، والتي قام المختبر بترجمتها واستخدامها لإنشاء تعليقات تعليقات اصطناعية. التعليقات التوضيحية ، المعروفة أيضًا باسم العلامات أو الملصقات ، تساعد نماذج على فهم وتفسير البيانات أثناء عملية التدريب. على سبيل المثال ، قد يأخذ التعليق التوضيحي لتدريب نموذج التعرف على الصور شكل علامات حول الكائنات أو التسميات التوضيحية التي تشير إلى كل شخص أو مكان أو كائن مصور في الصورة.
إن استخدام التعليقات التوضيحية الاصطناعية – أي التعليقات التوضيحية التي تم إنشاؤها بواسطة الذكاء الاصطناعي – في الاتجاه. على الرغم من جوانبها السلبية المحتملة ، فإن المنافسين بما في ذلك Openai يستفيدون بشكل متزايد من البيانات الاصطناعية لتدريب النماذج كما يجف بئر البيانات في العالم الحقيقي. تقدر شركة الأبحاث Gartner أن 60 ٪ من البيانات المستخدمة لمشاريع الذكاء الاصطناعي والتحليلات في العام الماضي تم إنشاؤها صناعياً.
وفقًا لـ Cohere ، مكّن تدريب AYA على التعليقات التوضيحية الاصطناعية المختبر من استخدام موارد أقل مع تحقيق الأداء التنافسي.
هذا يعرض تركيزنا الحاسم على الكفاءة و [doing] أكثر باستخدام حساب أقل “، كتبت كوت في مدونتها. “هذا يتيح أيضًا دعمًا أكبر لمجتمع الأبحاث ، والذين يتمتعون في كثير من الأحيان بوصول محدود إلى موارد حساب.”
جنبا إلى جنب مع AYA Vision ، أصدرت Cohere أيضًا جناحًا جديدًا جديدًا ، AyavisionBench ، المصمم للبحث في مهارات النموذج في مهام “Language” مثل تحديد الاختلافات بين صورتين وتحويل لقطات الشاشة إلى التعليمات البرمجية.
صناعة الذكاء الاصطناعى هي في خضم ما أسماه البعض “أزمة التقييم” ، نتيجة لتعميم المعايير التي تعطي درجات إجمالية ترتبط بشكل سيء بالكفاءة في المهام التي يهتم بها معظم مستخدمي الذكاء الاصطناعي. يؤكد Cohere أن AyavisionBench هي خطوة نحو تصحيح ذلك ، مما يوفر إطارًا “واسعًا وصعبًا” لتقييم الفهم عبر اللغات والمتعددة الوسائط للنموذج.
مع أي حظ ، هذا هو الحال بالفعل.
“[T]وكتب باحثون في منشور حول وجه المعانقة: “تعمل مجموعة البيانات كمعيار قوي لتقييم نماذج لغة الرؤية في إعدادات متعددة اللغات والواقعية”. “نجعل مجموعة التقييم هذه متاحة لمجتمع الأبحاث لدفع تقييمات متعددة الوسائط متعددة اللغات.”
اكتشاف المزيد من مجلة كوكان
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.