Google Gemini: كل ما تحتاج لمعرفته حول منصة الذكاء الاصطناعي التوليدية الجديدة

تحاول Google إحداث ضجة مع Gemini، وهي منصة توليدية جديدة للذكاء الاصطناعي ظهرت لأول مرة مؤخرًا. ولكن في حين يبدو برج الجوزاء واعدًا في بعض الجوانب، إلا أنه مقصر في جوانب أخرى. إذن ما هو الجوزاء؟ كيف يمكن إستخدامه؟ وكيف يرقى إلى مستوى المنافسة؟

لتسهيل مواكبة أحدث تطورات Gemini، قمنا بتجميع هذا الدليل المفيد، والذي سنستمر في تحديثه مع إصدار نماذج وميزات Gemini الجديدة.

ما هو الجوزاء؟

Gemini هي عائلة نماذج الذكاء الاصطناعي من الجيل التالي التي وعدت بها Google منذ فترة طويلة، والتي طورتها مختبرات أبحاث الذكاء الاصطناعي التابعة لشركة Google DeepMind وGoogle Research. يأتي بثلاث نكهات:

الجوزاء الترا، نموذج الجوزاء الرائد
الجوزاء برو، نموذج برج الجوزاء “الخفيف”.
الجوزاء نانووهو نموذج أصغر “مقطر” يعمل على الأجهزة المحمولة مثل Pixel 8 Pro

تم تدريب جميع نماذج جيميني لتكون “متعددة الوسائط بشكل أصلي” – وبعبارة أخرى، قادرة على العمل مع أكثر من مجرد نص واستخدامه. لقد تم تدريبهم مسبقًا وضبطهم جيدًا على مجموعة متنوعة من الملفات الصوتية والصور ومقاطع الفيديو، ومجموعة كبيرة من قواعد التعليمات البرمجية، والنصوص بلغات مختلفة.

وهذا ما يميز جيميني عن النماذج مثل نموذج اللغة الكبير LaMDA الخاص بشركة Google، والذي تم تدريبه فقط على البيانات النصية. لا يستطيع LaMDA فهم أو إنشاء أي شيء آخر غير النص (مثل المقالات ومسودات البريد الإلكتروني وما إلى ذلك) – ولكن هذا ليس هو الحال مع نماذج Gemini. ولا تزال قدرتهم على فهم الصور والصوت والطرائق الأخرى محدودة، لكنها أفضل من لا شيء.

ما الفرق بين بارد والجوزاء؟

اعتمادات الصورة: جوجل

أثبتت Google مرة أخرى أنها تفتقر إلى موهبة العلامة التجارية، ولم توضح منذ البداية أن Gemini منفصل ومتميز عن Bard. Bard هي ببساطة واجهة يمكن من خلالها الوصول إلى بعض نماذج Gemini – فكر فيها كتطبيق أو عميل لـ Gemini ونماذج الذكاء الاصطناعي الأخرى. من ناحية أخرى، فإن الجوزاء عبارة عن عائلة من العارضات – وليست تطبيقًا أو واجهة أمامية. لا توجد تجربة الجوزاء المستقلة، ومن غير المرجح أن تكون هناك على الإطلاق. إذا كنت ستقارن بمنتجات OpenAI، فإن Bard يتوافق مع ChatGPT، تطبيق الذكاء الاصطناعي للمحادثة الشهير من OpenAI، ويتوافق Gemini مع نموذج اللغة الذي يشغله، والذي في حالة ChatGPT هو GPT-3.5 أو 4.

وبالمناسبة، فإن Gemini أيضًا مستقلة تمامًا عن Imagen-2، وهو نموذج لتحويل النص إلى صورة قد يتناسب أو لا يتناسب مع استراتيجية الذكاء الاصطناعي الشاملة للشركة. لا تقلق، أنت لست الوحيد الذي يرتبك بسبب هذا!

ماذا يمكن أن يفعل الجوزاء؟

ونظرًا لأن نماذج جيميني متعددة الوسائط، فيمكنها نظريًا أداء مجموعة من المهام، بدءًا من نسخ الكلام إلى التعليق على الصور ومقاطع الفيديو وحتى إنشاء أعمال فنية. لم يصل سوى عدد قليل من هذه الإمكانات إلى مرحلة المنتج حتى الآن (سنتحدث عن ذلك لاحقًا)، لكن Google تعد بها جميعًا – وأكثر – في مرحلة ما في المستقبل غير البعيد.

وبطبيعة الحال، فإنه من الصعب بعض الشيء أن تأخذ الشركة في كلمتها.

لم يتم تسليم Google بشكل خطير مع إطلاق Bard الأصلي. وفي الآونة الأخيرة، أثارت شريط فيديو يزعم أنه يُظهر قدرات الجوزاء التي تبين أنها تم التلاعب بها بشكل كبير وكانت طموحة إلى حد ما. تَوأَم يكون، يُحسب لشركة التكنولوجيا العملاقة، أنها متاحة بشكل ما اليوم – ولكن بشكل محدود إلى حد ما.

ومع ذلك، على افتراض أن جوجل صادقة إلى حد ما في ادعاءاتها، فإليك ما ستتمكن المستويات المختلفة لنماذج جيميني من فعله بمجرد إصدارها:

الجوزاء الترا

قليل من الناس هم الذين وضعوا أيديهم على نموذج Gemini Ultra، النموذج “الأساسي” الذي تم بناء الآخرين عليه حتى الآن – مجرد “مجموعة مختارة” من العملاء عبر عدد قليل من تطبيقات وخدمات جوجل. ولن يتغير هذا إلا في وقت لاحق من هذا العام، عندما يتم إطلاق أكبر نموذج من Google على نطاق أوسع. معظم المعلومات حول Ultra تأتي من العروض التوضيحية للمنتجات التي تقودها Google، لذا من الأفضل أن تؤخذ مع قليل من الشك.

تقول Google إن Gemini Ultra يمكن استخدامه للمساعدة في أشياء مثل واجبات الفيزياء المنزلية وحل المشكلات خطوة بخطوة في ورقة العمل والإشارة إلى الأخطاء المحتملة في الإجابات المملوءة بالفعل. يمكن تطبيق جيميني ألترا أيضًا على مهام، مثل تحديد الأوراق العلمية ذات الصلة بمشكلة معينة، كما تقول جوجل، واستخراج المعلومات من تلك الأوراق و”تحديث” مخطط من أحدها عن طريق إنشاء الصيغ اللازمة لإعادة إنشاء المخطط ببيانات أحدث.

يدعم Gemini Ultra تقنيًا إنشاء الصور، كما تمت الإشارة إليه سابقًا. لكن هذه الإمكانية لن تجد طريقها إلى النسخة المنتجة من النموذج عند الإطلاق، وفقًا لجوجل – ربما لأن الآلية أكثر تعقيدًا من كيفية إنشاء تطبيقات مثل ChatGPT للصور. بدلاً من تغذية المطالبات إلى مولد الصور (مثل DALL-E 3، في حالة ChatGPT)، يقوم Gemini بإخراج الصور “محليًا” دون خطوة وسيطة.

الجوزاء برو

على عكس Gemini Ultra، فإن Gemini Pro متاح للعامة اليوم. ولكن من المربك أن قدراتها تعتمد على مكان استخدامها.

تقول Google إنه في Bard، حيث تم إطلاق Gemini Pro لأول مرة في شكل نص فقط، يعد النموذج بمثابة تحسين على LaMDA في قدراته على التفكير والتخطيط والفهم. وجدت دراسة مستقلة أجراها باحثون من جامعة كارنيجي ميلون وBerriAI أن Gemini Pro أفضل بالفعل من OpenAI’s GPT-3.5 في التعامل مع سلاسل التفكير الأطول والأكثر تعقيدًا.

لكن الدراسة وجدت أيضًا أنه، مثل جميع نماذج اللغات الكبيرة، يواجه Gemini Pro بشكل خاص مشاكل رياضية تتضمن عدة أرقام، وقد وجد المستخدمون الكثير من الأمثلة على الاستدلال السيئ والأخطاء. لقد ارتكبت الكثير من الأخطاء الواقعية للاستفسارات البسيطة مثل من فاز بأحدث جوائز الأوسكار. لقد وعدت جوجل بإجراء تحسينات، لكن ليس من الواضح متى ستصل.

يتوفر Gemini Pro أيضًا عبر واجهة برمجة التطبيقات في Vertex AI، منصة مطوري الذكاء الاصطناعي المُدارة بالكامل من Google، والتي تقبل النص كمدخل وتولد النص كمخرج. يمكن لنقطة نهاية إضافية، Gemini Pro Vision، معالجة النص و الصور – بما في ذلك الصور والفيديو – وإخراج النص على غرار OpenAI’s GPT-4 مع نموذج الرؤية.

استخدام Gemini Pro في Vertex AI.

ضمن Vertex AI، يمكن للمطورين تخصيص Gemini Pro لسياقات محددة وحالات الاستخدام باستخدام عملية الضبط الدقيق أو “التأريض”. يمكن أيضًا توصيل Gemini Pro بواجهات برمجة التطبيقات الخارجية التابعة لجهات خارجية لتنفيذ إجراءات معينة.

في وقت ما في “أوائل عام 2024″، سيتمكن عملاء Vertex من النقر على Gemini Pro لتشغيل وكلاء المحادثة الصوتية والدردشة المصممين خصيصًا (أي روبوتات الدردشة). سيصبح Gemini Pro أيضًا خيارًا لقيادة تلخيص البحث وميزات توليد التوصيات والإجابات في Vertex AI، بالاعتماد على المستندات عبر الأساليب (مثل ملفات PDF والصور) من مصادر مختلفة (مثل OneDrive وSalesforce) لتلبية الاستفسارات.

اعتمادات الصورة: تَوأَم

في AI Studio، أداة Google المستندة إلى الويب لمطوري التطبيقات والأنظمة الأساسية، توجد مسارات عمل لإنشاء مطالبات ذات شكل حر ومنظم ومطالبات للدردشة باستخدام Gemini Pro. يتمتع المطورون بإمكانية الوصول إلى نقطتي النهاية Gemini Pro وGemini Pro Vision، ويمكنهم ضبط درجة حرارة النموذج للتحكم في النطاق الإبداعي للمخرجات وتقديم أمثلة لإعطاء تعليمات النغمة والأسلوب – وكذلك ضبط إعدادات الأمان.

الجوزاء نانو

Gemini Nano هو إصدار أصغر بكثير من طرازي Gemini Pro وUltra، وهو فعال بما يكفي للتشغيل مباشرة على (بعض) الهواتف بدلاً من إرسال المهمة إلى خادم في مكان ما. يعمل حتى الآن على تشغيل ميزتين في Pixel 8 Pro: التلخيص في المُسجل والرد الذكي في Gboard.

يتضمن تطبيق Recorder، الذي يتيح للمستخدمين الضغط على زر لتسجيل الصوت ونسخه، ملخصًا مدعومًا من Gemini لمحادثاتك المسجلة والمقابلات والعروض التقديمية والمقتطفات الأخرى. يحصل المستخدمون على هذه الملخصات حتى لو لم يكن لديهم إشارة أو اتصال Wi-Fi متاح – وفي إشارة إلى الخصوصية، لا تترك أي بيانات هواتفهم أثناء هذه العملية.

يتوفر Gemini Nano أيضًا في تطبيق Gboard، وهو تطبيق لوحة مفاتيح Google، كمعاينة للمطورين. هناك، يتم تشغيل ميزة تسمى الرد الذكي، والتي تساعد في اقتراح الشيء التالي الذي تريد قوله عند إجراء محادثة في تطبيق المراسلة. وتقول جوجل إن الميزة تعمل في البداية مع تطبيق واتساب فقط، ولكنها ستصل إلى المزيد من التطبيقات في عام 2024.

هل Gemini أفضل من GPT-4 الخاص بـ OpenAI؟

لا توجد طريقة لمعرفة حال عائلة الجوزاء حقًا يستمر الأمر حتى تقوم Google بإصدار Ultra في وقت لاحق من هذا العام، لكن الشركة تطالب بإدخال تحسينات على أحدث ما توصلت إليه التكنولوجيا – والذي عادةً ما يكون GPT-4 من OpenAI.

لقد أشادت Google عدة مرات بتفوق Gemini في المعايير، زاعمة أن Gemini Ultra يتجاوز أحدث النتائج الحالية في “30 من أصل 32 معيارًا أكاديميًا مستخدمًا على نطاق واسع والمستخدمة في أبحاث وتطوير النماذج اللغوية الكبيرة.” وتقول الشركة إن Gemini Pro، في الوقت نفسه، أكثر قدرة على أداء مهام مثل تلخيص المحتوى والعصف الذهني والكتابة من GPT-3.5.

ولكن إذا تركنا جانباً مسألة ما إذا كانت المعايير تشير حقاً إلى نموذج أفضل، فإن النتائج التي تشير إليها جوجل تبدو أفضل بشكل هامشي فقط من نماذج OpenAI المقابلة. وكما ذكرنا سابقًا، لم تكن بعض الانطباعات المبكرة رائعة، حيث أشار المستخدمون والأكاديميون إلى أن Gemini Pro يميل إلى فهم الحقائق الأساسية بشكل خاطئ، ويواجه صعوبة في الترجمات، ويقدم اقتراحات برمجية سيئة.

كم سيكلف الجوزاء؟

Gemini Pro مجاني للاستخدام في Bard، وفي الوقت الحالي، AI Studio وVertex AI.

ومع ذلك، بمجرد خروج Gemini Pro من المعاينة في Vertex، سيكلف النموذج 0.0025 دولارًا أمريكيًا لكل حرف بينما سيكلف الإخراج 0.00005 دولارًا أمريكيًا لكل حرف. يدفع عملاء Vertex مقابل كل 1000 حرف (حوالي 140 إلى 250 كلمة)، وفي حالة نماذج مثل Gemini Pro Vision، يدفعون لكل صورة (0.0025 دولار).

لنفترض أن المقالة المكونة من 500 كلمة تحتوي على 2000 حرف. إن تلخيص هذه المقالة باستخدام Gemini Pro سيكلف 5 دولارات. في أثناء، توليد مقالة ذات طول مماثل ستكلف 0.1 دولار.

أين يمكنك تجربة الجوزاء؟

الجوزاء برو

أسهل مكان لتجربة Gemini Pro هو في بارد. هناك إصدار محسّن من Pro يجيب على استفسارات Bard النصية باللغة الإنجليزية في الولايات المتحدة في الوقت الحالي، مع وصول لغات إضافية وبلدان مدعومة في المستقبل.

يمكن الوصول إلى Gemini Pro أيضًا في المعاينة في Vertex AI عبر واجهة برمجة التطبيقات. واجهة برمجة التطبيقات (API) مجانية الاستخدام “ضمن الحدود” في الوقت الحالي وتدعم 38 لغة ومنطقة بما في ذلك أوروبا، بالإضافة إلى ميزات مثل وظائف الدردشة والتصفية.

وفي مكان آخر، يمكن العثور على Gemini Pro في AI Studio. باستخدام الخدمة، يمكن للمطورين تكرار المطالبات وروبوتات الدردشة المستندة إلى Gemini ثم الحصول على مفاتيح API لاستخدامها في تطبيقاتهم – أو تصدير التعليمات البرمجية إلى IDE أكثر تميزًا.

ستبدأ Duet AI للمطورين، وهي مجموعة أدوات المساعدة المدعومة بالذكاء الاصطناعي من Google لإكمال التعليمات البرمجية وإنشائها، في استخدام نموذج Gemini في الأسابيع المقبلة. وتخطط جوجل لجلب نماذج Gemini إلى أدوات التطوير لمتصفح Chrome ومنصة تطوير الأجهزة المحمولة Firebase في نفس الوقت تقريبًا، في أوائل عام 2024.

الجوزاء نانو

Gemini Nano موجود على Pixel 8 Pro، وسيتوفر على أجهزة أخرى في المستقبل. يمكن للمطورين المهتمين بدمج النموذج في تطبيقات Android الخاصة بهم الاشتراك للحصول على نظرة خاطفة.

سنبقي هذا المنشور على اطلاع بآخر التطورات.

مرتبط

اكتشاف المزيد من مجلة كوكان

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

الوسوم

Google Gemini: كل ما تحتاج لمعرفته حول منصة الذكاء الاصطناعي التوليدية الجديدة

ما هو الجوزاء؟

ما الفرق بين بارد والجوزاء؟