يمكن VEO 3 إنشاء مقاطع فيديو – والموسيقى التصويرية للتواصل معها

يمكن لآخر طراز AI المولود في Google ، Veo 3 ، إنشاء صوت لمواكبة المقاطع التي تنشئها.
يوم الثلاثاء خلال مؤتمر مطور Google I/O 2025 ، كشفت Google عن VEO 3 ، والتي تدعي الشركة أن تولد المؤثرات الصوتية ، وضوضاء الخلفية ، وحتى الحوار لمرافقة مقاطع الفيديو التي تنشئها. يقول Google إن VEO 3 تحسن أيضًا على سابقتها ، Veo 2 ، من حيث جودة اللقطات التي يمكن أن تنشئها.
يتوفر VEO 3 يوم الثلاثاء في تطبيق Gemini chatbot من Google للمشتركين في خطة AI Ultra التي تبلغ قيمتها 249.99 دولارًا في Google ، حيث يمكن مطالبتها بالنص أو الصورة.
وقال ديميس هاسابيس ، الرئيس التنفيذي لشركة Google Deepmind ، قسم RED من AI R&D من Google ، خلال مؤتمر صحفي: “لأول مرة ، نخرج من العصر الصامت لتوليد الفيديو”. “[You can give Veo 3] موجه يصف الأحرف والبيئة ، واقترح حوارًا مع وصف لكيفية رغبتها في الصوت. “
أدى توافر الأدوات الواسع لإنشاء مولدات الفيديو إلى انفجار من مقدمي الخدمات بحيث تصبح المساحة مشبعة. الشركات الناشئة بما في ذلك Runway و Lightricks و Genmo و Pika و Higgsfield و Kling و Luma ، بالإضافة إلى عمالقة التكنولوجيا مثل Openai و Alibaba ، تصدر نماذج في مقطع سريع. في كثير من الحالات ، يميز القليل عن نموذج واحد.
إن إخراج الصوت سيكون بمثابة تمييز كبير لـ VEO 3 ، إذا تمكنت Google من تقديم وعودها. أدوات توليد الصوت التي تعمل بالنيابة ليست جديدة ، ولا نماذج لإنشاء مؤثرات صوت فيديو. ولكن يمكن VEO 3 الفريد فهم وحدات البكسل الخام من مقاطع الفيديو الخاصة بها والأصوات التي تم إنشاؤها مع المقاطع تلقائيًا ، لكل Google.
إليك عينة مقطع من النموذج:
من المحتمل أن يكون VEO 3 ممكنًا من خلال عمل DeepMind السابق في “Video-to-Audio” AI. في يونيو الماضي ، كشفت DeepMind أنه كان يطور تقنية الذكاء الاصطناعى لإنشاء الموسيقى التصويرية لمقاطع الفيديو من خلال تدريب نموذج على مجموعة من الأصوات ونصوص الحوار وكذلك مقاطع الفيديو.
لن يقول DeepMind بالضبط أين حصل على المحتوى لتدريب Veo 3 ، لكن YouTube هو احتمال قوي. تمتلك Google YouTube ، وأخبرت DeepMind من قبل TechCrunch أن نماذج Google مثل VEO “May” يتم تدريبها على بعض مواد YouTube.
للتخفيف من خطر الإصابة بعمق ، تقول DeepMind إنها تستخدم تقنية العلامات المائية الخاصة بها ، Synthid ، لتضمين علامات غير مرئية في إطارات توليد VEO 3.
في حين أن شركات مثل Google Pitch Veo 3 كأدوات إبداعية قوية ، فإن العديد من الفنانين يشعرون بالقلق من ذلك – فهي تهدد برفع الصناعات بأكملها. تقدر دراسة أجريت عام 2024 بتكليف من نقابة الرسوم المتحركة ، وهي اتحاد يمثل الرسوم المتحركة في هوليوود ورسام كاريكاتير ، أن أكثر من 100000 من وظائف الأفلام والتلفزيون والرسوم المتحركة في الولايات المتحدة ستتعطيل من قبل الذكاء الاصطناعي بحلول عام 2026.
قامت Google أيضًا بطرح إمكانات جديدة لـ VEO 2 ، بما في ذلك ميزة تتيح للمستخدمين تقديم صور نموذجية للشخصيات والمشاهد والكائنات والأنماط لتحسين الاتساق. يمكن لآخر VEO 2 فهم حركات الكاميرا مثل التناوب والدمى والتكبير ، ويسمح للمستخدمين بإضافة أو محو كائنات من مقاطع الفيديو أو توسيع إطارات المقاطع ، على سبيل المثال ، تحويلها من صورة إلى مشهد.
تقول Google أن كل هذه القدرات الجديدة VEO 2 ستأتي إلى منصة API الخاصة به في الأسابيع المقبلة.
اكتشاف المزيد من مجلة كوكان
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.