Jannah Theme License is not validated, Go to the theme options page to validate the license, You need a single license for each domain name.
تكنلوجيا الويب

Google Gemini: كل ما تحتاج لمعرفته حول منصة الذكاء الاصطناعي التوليدية الجديدة


تحاول Google إحداث ضجة مع Gemini، وهي مجموعة رائدة من نماذج وتطبيقات وخدمات الذكاء الاصطناعي التوليدية. ولكن في حين يبدو برج الجوزاء واعدًا في بعض الجوانب، إلا أنه مقصر في جوانب أخرى، كما كشفت مراجعتنا غير الرسمية.

إذن ما هو الجوزاء؟ كيف يمكن إستخدامه؟ وكيف يرقى إلى مستوى المنافسة؟

لتسهيل مواكبة أحدث تطورات Gemini، قمنا بتجميع هذا الدليل المفيد، والذي سنستمر في تحديثه مع إصدار نماذج وميزات Gemini الجديدة.

ما هو الجوزاء؟

Gemini هي عائلة نماذج GenAI من الجيل التالي التي وعدت بها Google منذ فترة طويلة، والتي طورتها مختبرات أبحاث الذكاء الاصطناعي التابعة لشركة Google DeepMind وGoogle Research. يأتي بثلاث نكهات:

  • الجوزاء الترا، نموذج الجوزاء الرائد.
  • الجوزاء برو، نموذج الجوزاء “الخفيف”.
  • الجوزاء نانووهو نموذج أصغر “مقطر” يعمل على الأجهزة المحمولة مثل Pixel 8 Pro.

تم تدريب جميع نماذج جيميني لتكون “متعددة الوسائط بشكل أصلي” – وبعبارة أخرى، قادرة على العمل واستخدام أكثر من مجرد كلمات. لقد تم تدريبهم مسبقًا وضبطهم جيدًا على مجموعة متنوعة من الملفات الصوتية والصور ومقاطع الفيديو، ومجموعة كبيرة من قواعد التعليمات البرمجية والنصوص بلغات مختلفة.

وهذا ما يميز Gemini عن النماذج مثل LaMDA الخاص بشركة Google، والذي تم تدريبه حصريًا على البيانات النصية. لا يستطيع LaMDA فهم أو إنشاء أي شيء آخر غير النص (على سبيل المثال، المقالات ومسودات البريد الإلكتروني)، ولكن هذا ليس هو الحال مع نماذج Gemini.

ما الفرق بين تطبيقات Gemini ونماذج Gemini؟

اعتمادات الصورة: جوجل

أثبتت Google مرة أخرى أنها تفتقر إلى موهبة العلامة التجارية، ولم توضح منذ البداية أن Gemini منفصل ومتميز عن تطبيقات Gemini على الويب والهاتف المحمول (Bard سابقًا). تعد تطبيقات Gemini مجرد واجهة يمكن من خلالها الوصول إلى بعض نماذج Gemini – فكر في الأمر كعميل لـ GenAI من Google.

وبالمناسبة، فإن تطبيقات ونماذج Gemini أيضًا مستقلة تمامًا عن Imagen 2، وهو نموذج Google لتحويل النص إلى صورة والمتوفر في بعض أدوات وبيئات التطوير الخاصة بالشركة. لا تقلق، فأنت لست الوحيد الذي يرتبك بسبب هذا.

ماذا يمكن أن يفعل الجوزاء؟

ونظرًا لأن نماذج جيميني متعددة الوسائط، فيمكنها نظريًا أداء مجموعة من المهام متعددة الوسائط، بدءًا من نسخ الكلام إلى التعليق على الصور ومقاطع الفيديو وحتى إنشاء أعمال فنية. لم يصل سوى عدد قليل من هذه الإمكانات إلى مرحلة المنتج حتى الآن (سنتحدث عن ذلك لاحقًا)، لكن Google تعد بها جميعًا – وأكثر – في مرحلة ما في المستقبل غير البعيد.

وبطبيعة الحال، فإنه من الصعب بعض الشيء أن تأخذ الشركة في كلمتها.

لقد فشلت Google في التسليم بشكل خطير مع إطلاق Bard الأصلي. وفي الآونة الأخيرة، أثارت شريط فيديو يزعم أنه يُظهر قدرات الجوزاء التي تبين أنها تم التلاعب بها بشكل كبير وكانت طموحة إلى حد ما.

ومع ذلك، على افتراض أن Google صادقة إلى حد ما في ادعاءاتها، فإليك ما ستتمكن المستويات المختلفة من Gemini من فعله بمجرد وصولهم إلى إمكاناتهم الكاملة:

الجوزاء الترا

تقول Google إن برنامج Gemini Ultra – بفضل تعدد طرقه – يمكن استخدامه للمساعدة في أشياء مثل واجبات الفيزياء المنزلية، وحل المشكلات خطوة بخطوة في ورقة العمل، والإشارة إلى الأخطاء المحتملة في الإجابات المملوءة بالفعل.

يمكن تطبيق Gemini Ultra أيضًا على مهام مثل تحديد الأوراق العلمية ذات الصلة بمشكلة معينة، كما تقول Google، حيث يتم استخراج المعلومات من تلك الأوراق و”تحديث” مخطط من أحدها عن طريق إنشاء الصيغ اللازمة لإعادة إنشاء المخطط باستخدام بيانات أحدث. .

يدعم Gemini Ultra تقنيًا إنشاء الصور، كما تمت الإشارة إليه سابقًا. لكن هذه الإمكانية لم تشق طريقها إلى النسخة المنتجة من النموذج بعد – ربما لأن الآلية أكثر تعقيدًا من كيفية إنشاء تطبيقات مثل ChatGPT للصور. بدلاً من تغذية المطالبات إلى مولد الصور (مثل DALL-E 3، في حالة ChatGPT)، يقوم Gemini بإخراج الصور “محليًا”، دون خطوة وسيطة.

يتوفر Gemini Ultra كواجهة برمجة تطبيقات من خلال Vertex AI، منصة مطوري الذكاء الاصطناعي المُدارة بالكامل من Google، وAI Studio، أداة Google المستندة إلى الويب لمطوري التطبيقات والأنظمة الأساسية. كما أنه يعمل على تشغيل تطبيقات Gemini، ولكن ليس مجانًا. يتطلب الوصول إلى Gemini Ultra من خلال ما تسميه Google Gemini Advanced الاشتراك في خطة Google One AI Premium Plan، بسعر 20 دولارًا شهريًا.

تعمل خطة AI Premium أيضًا على ربط Gemini بحسابك الأوسع على Google Workspace، مثل رسائل البريد الإلكتروني في Gmail والمستندات في المستندات والعروض التقديمية في جداول البيانات وتسجيلات Google Meet. وهذا مفيد، على سبيل المثال، في تلخيص رسائل البريد الإلكتروني أو تسجيل الملاحظات أثناء مكالمة فيديو.

الجوزاء برو

تقول Google إن Gemini Pro يعد تحسينًا على LaMDA في قدرات التفكير والتخطيط والفهم.

وجدت دراسة مستقلة أجراها باحثون من جامعة كارنيجي ميلون وBerriAI أن Gemini Pro أفضل بالفعل من OpenAI’s GPT-3.5 في التعامل مع سلاسل التفكير الأطول والأكثر تعقيدًا. لكن الدراسة وجدت أيضًا أنه، مثل جميع نماذج اللغات الكبيرة، يواجه Gemini Pro بشكل خاص مشاكل رياضية تتضمن عدة أرقام، وقد وجد المستخدمون الكثير من الأمثلة على الاستدلال السيئ والأخطاء.

ومع ذلك، وعدت Google بالتحسينات – ووصلت الأولى في شكل Gemini 1.5 Pro.

تم تصميم Gemini 1.5 Pro (قيد المعاينة حاليًا) ليكون بديلاً سهلاً، وقد تم تحسينه في عدد من المجالات مقارنة بسابقه، وربما الأهم من ذلك في كمية البيانات التي يمكنه معالجتها. يمكن لـ Gemini 1.5 Pro (في معاينة خاصة محدودة) استيعاب 700000 كلمة تقريبًا، أو 30000 سطر تقريبًا من التعليمات البرمجية – أي 35 ضعفًا من الكمية التي يمكن لـ Gemini 1.0 Pro التعامل معها. و- كون النموذج متعدد الوسائط – فهو لا يقتصر على النص. يمكن لـ Gemini 1.5 Pro تحليل ما يصل إلى 11 ساعة من الصوت أو ساعة من الفيديو بمجموعة متنوعة من اللغات المختلفة، وإن كان ذلك ببطء (على سبيل المثال، يستغرق البحث عن مشهد في فيديو مدته ساعة واحدة من 30 ثانية إلى دقيقة واحدة من المعالجة).

يتوفر Gemini Pro أيضًا عبر واجهة برمجة التطبيقات (API) في Vertex AI لقبول النص كمدخل وإنشاء نص كمخرج. يمكن لنقطة نهاية إضافية، Gemini Pro Vision، معالجة النص و الصور – بما في ذلك الصور والفيديو – وإخراج النص على غرار OpenAI’s GPT-4 مع نموذج الرؤية.

تَوأَم

استخدام Gemini Pro في Vertex AI. اعتمادات الصورة: تَوأَم

ضمن Vertex AI، يمكن للمطورين تخصيص Gemini Pro لسياقات محددة وحالات الاستخدام باستخدام عملية الضبط الدقيق أو “التأريض”. يمكن أيضًا توصيل Gemini Pro بواجهات برمجة التطبيقات الخارجية التابعة لجهات خارجية لتنفيذ إجراءات معينة.

في AI Studio، توجد مسارات عمل لإنشاء مطالبات محادثة منظمة باستخدام Gemini Pro. يتمتع المطورون بإمكانية الوصول إلى نقطتي النهاية Gemini Pro وGemini Pro Vision، ويمكنهم ضبط درجة حرارة النموذج للتحكم في النطاق الإبداعي للمخرجات وتقديم أمثلة لإعطاء تعليمات النغمة والأسلوب – وكذلك ضبط إعدادات الأمان.

الجوزاء نانو

Gemini Nano هو إصدار أصغر بكثير من طرازي Gemini Pro وUltra، وهو فعال بما يكفي للتشغيل مباشرة على (بعض) الهواتف بدلاً من إرسال المهمة إلى خادم في مكان ما. يعمل حتى الآن على تشغيل ميزتين في Pixel 8 Pro: التلخيص في المُسجل والرد الذكي في Gboard.

يتضمن تطبيق Recorder، الذي يتيح للمستخدمين الضغط على زر لتسجيل الصوت ونسخه، ملخصًا مدعومًا من Gemini لمحادثاتك المسجلة والمقابلات والعروض التقديمية والمقتطفات الأخرى. يحصل المستخدمون على هذه الملخصات حتى لو لم يكن لديهم إشارة أو اتصال Wi-Fi متاح – وفي إشارة إلى الخصوصية، لا تترك أي بيانات هواتفهم أثناء هذه العملية.

يتوفر Gemini Nano أيضًا في تطبيق Gboard، وهو تطبيق لوحة مفاتيح Google، كمعاينة للمطورين. هناك، يتم تشغيل ميزة تسمى الرد الذكي، والتي تساعد في اقتراح الشيء التالي الذي تريد قوله عند إجراء محادثة في تطبيق المراسلة. وتقول جوجل إن الميزة تعمل في البداية مع تطبيق واتساب فقط ولكنها ستصل إلى المزيد من التطبيقات في عام 2024.

هل Gemini أفضل من GPT-4 الخاص بـ OpenAI؟

لقد أشادت Google عدة مرات بتفوق Gemini في المعايير، زاعمة أن Gemini Ultra يتجاوز أحدث النتائج الحالية في “30 من أصل 32 معيارًا أكاديميًا مستخدمًا على نطاق واسع والمستخدمة في أبحاث وتطوير النماذج اللغوية الكبيرة.” وتقول الشركة إن Gemini Pro، في الوقت نفسه، أكثر قدرة على أداء مهام مثل تلخيص المحتوى والعصف الذهني والكتابة من GPT-3.5.

ولكن إذا تركنا جانباً مسألة ما إذا كانت المعايير تشير حقاً إلى نموذج أفضل، فإن النتائج التي تشير إليها جوجل تبدو أفضل بشكل هامشي فقط من نماذج OpenAI المقابلة. وكما ذكرنا سابقًا، لم تكن بعض الانطباعات المبكرة رائعة، حيث أشار المستخدمون والأكاديميون إلى أن Gemini Pro يميل إلى فهم الحقائق الأساسية بشكل خاطئ، ويواجه صعوبة في الترجمات ويقدم اقتراحات برمجية سيئة.

كم سيكلف الجوزاء؟

Gemini Pro مجاني للاستخدام في تطبيقات Gemini، وفي الوقت الحالي، في AI Studio وVertex AI.

ومع ذلك، بمجرد خروج Gemini Pro من المعاينة في Vertex، سيكلف النموذج 0.0025 دولارًا أمريكيًا لكل حرف بينما سيكلف الإخراج 0.00005 دولارًا أمريكيًا لكل حرف. يدفع عملاء Vertex مقابل كل 1000 حرف (حوالي 140 إلى 250 كلمة)، وفي حالة نماذج مثل Gemini Pro Vision، يدفعون لكل صورة (0.0025 دولار).

لنفترض أن المقالة المكونة من 500 كلمة تحتوي على 2000 حرف. إن تلخيص هذه المقالة باستخدام Gemini Pro سيكلف 5 دولارات. وفي الوقت نفسه، فإن إنشاء مقالة بنفس الطول سيكلف 0.1 دولار.

لم يتم الإعلان عن أسعار Ultra بعد.

أين يمكنك تجربة الجوزاء؟

الجوزاء برو

أسهل مكان لتجربة Gemini Pro هو تطبيقات Gemini. يقوم Pro وUltra بالإجابة على الاستفسارات بمجموعة من اللغات.

يمكن أيضًا الوصول إلى Gemini Pro وUltra في المعاينة في Vertex AI عبر واجهة برمجة التطبيقات. واجهة برمجة التطبيقات (API) مجانية الاستخدام “ضمن الحدود” في الوقت الحالي وتدعم مناطق معينة، بما في ذلك أوروبا، بالإضافة إلى ميزات مثل وظائف الدردشة والتصفية.

وفي مكان آخر، يمكن العثور على Gemini Pro وUltra في AI Studio. باستخدام الخدمة، يمكن للمطورين تكرار المطالبات وروبوتات الدردشة المستندة إلى Gemini ثم الحصول على مفاتيح API لاستخدامها في تطبيقاتهم – أو تصدير التعليمات البرمجية إلى IDE أكثر تميزًا.

Duet AI للمطورين، مجموعة أدوات المساعدة المدعومة بالذكاء الاصطناعي من Google لإكمال التعليمات البرمجية وإنشائها، تستخدم الآن نماذج Gemini. وجلبت Google نماذج Gemini إلى أدوات التطوير الخاصة بها لمنصة تطوير الأجهزة المحمولة Chrome وFirebase.

الجوزاء نانو

Gemini Nano موجود على Pixel 8 Pro، وسيتوفر على أجهزة أخرى في المستقبل. يمكن للمطورين المهتمين بدمج النموذج في تطبيقات Android الخاصة بهم الاشتراك للحصول على نظرة خاطفة.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى