يأتي منشئ الفيديو من Google إلى المزيد من العملاء
يأتي منشئ الفيديو من Google إلى عدد قليل من العملاء – عملاء Google Cloud، على وجه الدقة.
أعلنت جوجل يوم الثلاثاء أن Veo، نموذج الذكاء الاصطناعي الخاص بها والذي يمكنه إنشاء مقاطع فيديو قصيرة من الصور والمطالبات، سيكون متاحًا في المعاينة الخاصة للعملاء الذين يستخدمون Vertex AI، منصة تطوير الذكاء الاصطناعي الخاصة بـ Google Cloud.
تقول Google إن الإطلاق سيمكن أحد العملاء، Quora، من جلب Veo إلى منصة Poe chatbot الخاصة بها، وعميل آخر، مالك Oreo Mondelez International، لإنشاء محتوى تسويقي مع شركائها من الوكالات.
وقال سبنسر تشان، رئيس منتج Poe، في بيان: “لقد أنشأنا Poe لإضفاء الطابع الديمقراطي على الوصول إلى أفضل نماذج الذكاء الاصطناعي التوليدية في العالم”. “من خلال الشراكات مع قادة مثل Google، نعمل على توسيع الإمكانيات الإبداعية عبر جميع طرائق الذكاء الاصطناعي.”
المولد الرائد
تم الكشف عن Veo في أبريل، ويمكنه إنشاء مقاطع بدقة 1080 بكسل للحيوانات والأشياء والأشخاص يصل طولها إلى ست ثوانٍ بمعدل 24 أو 30 إطارًا في الثانية. وتقول جوجل إن Veo قادر على التقاط أنماط بصرية وسينمائية مختلفة، بما في ذلك لقطات المناظر الطبيعية والفواصل الزمنية، وإجراء تعديلات على اللقطات التي تم إنشاؤها بالفعل.
لماذا الانتظار الطويل لAPI؟ يقول وارن باركلي، المدير الأول لإدارة المنتجات في Google Cloud: “الاستعداد المؤسسي”.
وقال: “منذ الإعلان عن Veo، قامت فرقنا بتعزيز النموذج وتقويته وتحسينه لعملاء المؤسسات في Vertex AI”. “اعتبارًا من اليوم، يمكنك إنشاء مقاطع فيديو عالية الوضوح بدقة 720 بكسل، وبنسبة عرض إلى ارتفاع 16:9 أفقيًا أو 9:16 عموديًا. وعلى غرار الطريقة التي قمنا بها بتحسين قدرات النماذج الأخرى مثل Gemini على Vertex AI، سنستمر في القيام بذلك من أجل Veo.
يفهم Veo المؤثرات البصرية بشكل جيد من خلال المطالبات، كما يقول جوجل (فكر في التسميات التوضيحية مثل “انفجار هائل”)، ولديه فهم إلى حد ما للفيزياء، بما في ذلك ديناميكيات السوائل. يدعم النموذج أيضًا التحرير المقنع لإجراء تغييرات على مناطق معينة من الفيديو، وهو قادر تقنيًا على تجميع اللقطات معًا في مشاريع أطول.
وبهذه الطرق، تتنافس شركة Veo مع نماذج إنشاء الفيديو الرائدة اليوم – وليس فقط Sora من OpenAI، ولكن نماذج من Adobe، وRunway، وLuma، وMeta، وغيرها.
هذا لا يعني أن Veo مثالي. بما يعكس القيود المفروضة على الذكاء الاصطناعي اليوم، تختفي الكائنات الموجودة في مقاطع فيديو Veo وتعاود الظهور دون الكثير من الشرح أو الاتساق. وغالبًا ما يخطئ Veo في الفيزياء. على سبيل المثال، سوف تنعكس السيارات بشكل غير مفهوم ومستحيل على عشرة سنتات.
التدريب والمخاطر
تم تدريب Veo على الكثير من اللقطات. هذه هي الطريقة عمومًا التي تعمل بها نماذج الذكاء الاصطناعي التوليدية: بتزويدها بمثال تلو الآخر لبعض أشكال البيانات، تلتقط النماذج أنماطًا في البيانات تمكنها من إنشاء بيانات جديدة – مقاطع فيديو، في حالة Veo.
جوجل، مثل العديد من منافسيها في مجال الذكاء الاصطناعي، لن تحدد بالضبط مصدر البيانات لتدريب نماذجها التوليدية. عند سؤاله عن Veo على وجه التحديد، قال باركلي فقط إن النموذج “قد” يتم تدريبه على “بعض” محتوى YouTube “بما يتوافق مع [Google’s] اتفاقية مع منشئي المحتوى على YouTube.” (تمتلك شركة Alphabet، الشركة الأم لشركة Google، موقع YouTube.)
وأضاف: “لقد تم تدريب Veo على مجموعة متنوعة من مجموعات بيانات وصف الفيديو عالية الجودة والتي تم تنسيقها بشكل كبير من أجل السلامة والأمن”. “يتم تدريب النماذج الأساسية لشركة Google بشكل أساسي على المصادر المتاحة للجمهور.”
كشفت تقارير صحيفة نيويورك تايمز في أبريل أن جوجل قامت بتوسيع شروط الخدمة الخاصة بها العام الماضي جزئيًا للسماح للشركة بالاستفادة من المزيد من البيانات لتدريب نماذج الذكاء الاصطناعي الخاصة بها. وبموجب شروط الخدمة القديمة، لم يكن من الواضح ما إذا كان بإمكان جوجل استخدام بيانات يوتيوب لإنشاء منتجات خارج منصة الفيديو. لكن الأمر ليس كذلك في ظل الشروط الجديدة، التي تخفف القيود إلى حد كبير.
على الرغم من أن جوجل تستضيف أدوات للسماح لمشرفي المواقع بمنع الروبوتات الخاصة بالشركة من استخراج بيانات التدريب من مواقعهم على الويب، إلا أنها لا تقدم آلية للسماح للمبدعين بإزالة أعمالهم من مجموعات التدريب الحالية. تؤكد جوجل أن نماذج التدريب التي تستخدم البيانات المتاحة للجمهور هي استخدام عادل، مما يعني أن الشركة تعتقد أنها غير ملزمة بطلب الإذن من مالكي البيانات أو تعويضهم. (ومع ذلك، تقول جوجل إنها لا تستخدم بيانات العملاء لتدريب نماذجها).
بفضل الطريقة التي تتصرف بها النماذج التوليدية اليوم عند تدريبها، فإنها تحمل مخاطر معينة، مثل القلس، والذي يشير إلى الوقت الذي يقوم فيه النموذج بإنشاء نسخة طبق الأصل من بيانات التدريب. تم العثور على أدوات مثل Runway تبث صورًا ثابتة مشابهة إلى حد كبير لتلك الموجودة في مقاطع الفيديو المحمية بحقوق الطبع والنشر، مما يضع حقل ألغام قانونيًا محتملاً لمستخدمي الأدوات.
الحل الذي تقدمه Google هو مرشحات المستوى الفوري لـ Veo، بما في ذلك المحتوى العنيف والصريح. وفي حالة فشل هذه الإجراءات، تقول الشركة إن سياسة التعويض الخاصة بها توفر دفاعًا لمستخدمي Veo المؤهلين ضد مزاعم انتهاك حقوق الطبع والنشر.
وقال باركلي: “نحن نخطط لتعويض مخرجات Veo على Vertex AI عندما تصبح متاحة بشكل عام”.
فيو في كل مكان
على مدى الأشهر القليلة الماضية، قامت جوجل ببناء Veo ببطء في المزيد من تطبيقاتها وخدماتها حيث تعمل على تحسين النموذج.
في شهر مايو، جلبت جوجل برنامج Veo إلى Google Labs، وهو برنامج الوصول المبكر الخاص بها، لمجموعة مختارة من المختبرين. وفي سبتمبر، أعلنت جوجل عن تكامل Veo لـ YouTube Shorts، وهو تنسيق الفيديو القصير على YouTube، للسماح للمبدعين بإنشاء خلفيات ومقاطع فيديو مدتها ست ثوانٍ.
ماذا عن مخاطر التزييف العميق لكل هذا، ربما تتساءل؟ تقول Google إنها تستخدم تقنية العلامات المائية الخاصة بها، SynthID، لتضمين علامات غير مرئية في الإطارات التي ينشئها Veo. من المؤكد أن SynthID ليس مضمونًا ضد التعديلات، ولم تجعل Google جزء معرف المحتوى متاحًا لأطراف ثالثة.
قد تكون هذه نقاطًا مثيرة للجدل إذا لم تكتسب Veo قوة جذب ذات معنى. على جبهة الشراكات، تنازلت Google عن الأرض أمام منافسيها المبدعين في مجال الذكاء الاصطناعي، الذين تحركوا بسرعة لجذب المنتجين والاستوديوهات والوكالات الإبداعية بأدواتهم. وقعت Runway مؤخرًا صفقة مع Lionsgate لتدريب نموذج مخصص على كتالوج أفلام الاستوديو، وتعاونت OpenAI مع العلامات التجارية والمخرجين المستقلين لعرض إمكانات Sora.
قالت Google في وقت ما إنها تستكشف تطبيقات Veo بالتعاون مع فنانين من بينهم دونالد جلوفر (AKA Childish Gambino). ولم تقدم الشركة أي تحديث بشأن جهود التوعية هذه اليوم.
إن عرض Google لـ Veo – وهي طريقة لتقليل التكاليف والتكرار السريع لمحتوى الفيديو – ينطوي على خطر تنفير المبدعين. تشير تقديرات دراسة أجريت عام 2024 بتكليف من نقابة الرسوم المتحركة، وهي اتحاد يمثل رسامي الرسوم المتحركة ورسامي الكاريكاتير في هوليوود، إلى أن أكثر من 100 ألف وظيفة في مجال الأفلام والتلفزيون والرسوم المتحركة في الولايات المتحدة سوف تتعطل بسبب الذكاء الاصطناعي بحلول عام 2026.
وقد يفسر هذا النهج الحذر “البطيء والثابت” الذي تتبعه شركة جوجل. عندما سئل باركلي، لم يقدم الوقت المتوقع للوصول لتوفر Veo بشكل عام في Vertex، ولم يذكر متى قد يأتي Veo إلى منصات وخدمات Google الإضافية.
وقال: “عادةً ما نقوم بإصدار المنتجات للمعاينة أولاً، حيث يتيح لنا ذلك الحصول على تعليقات واقعية من مجموعة مختارة من عملاء المؤسسات لدينا قبل أن تصبح متاحة بشكل عام للاستخدام على نطاق أوسع”. “يساعد هذا في تحسين الأداء الوظيفي والتأكد من أن المنتج يلبي احتياجات عملائنا.”
وفي إعلان ذي صلة اليوم، قالت جوجل إن منشئ الصور الرئيسي الخاص بها، Imagen 3، متاح الآن لجميع عملاء Vertex AI بدون قائمة انتظار. لقد اكتسب ميزات جديدة للتخصيص وتحرير الصور – ولكن هذه الميزات محصورة خلف قائمة انتظار منفصلة في الوقت الحالي.
اكتشاف المزيد من مجلة كوكان
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.