تشتد حرارة سباق الفيديو التوليدي في الصين
في يوم الاثنين، كشفت شركة Tencent، عملاق الإنترنت الصيني المعروف بإمبراطورية ألعاب الفيديو وتطبيق الدردشة WeChat، عن نسخة جديدة من نموذج توليد الفيديو مفتوح المصدر DynamiCrafter على GitHub. إنه تذكير بأن بعض أكبر شركات التكنولوجيا في الصين تعمل بهدوء على تكثيف الجهود لإحداث تغيير في مجال تحويل النصوص والصورة إلى فيديو.
مثل أدوات الفيديو التوليدية الأخرى الموجودة في السوق، يستخدم DynamiCrafter طريقة الانتشار لتحويل التسميات التوضيحية والصور الثابتة إلى مقاطع فيديو مدتها ثوانٍ. مستوحاة من ظاهرة الانتشار الطبيعية في الفيزياء، يمكن لنماذج الانتشار في التعلم الآلي تحويل البيانات البسيطة إلى بيانات أكثر تعقيدًا وواقعية، على غرار كيفية انتقال الجسيمات من منطقة ذات تركيز عالٍ إلى منطقة أخرى ذات تركيز منخفض.
يقوم الجيل الثاني من DynamiCrafter بإنتاج مقاطع فيديو بدقة بكسل تبلغ 640 × 1024، وهي ترقية من الإصدار الأولي في أكتوبر الذي تضمن مقاطع فيديو بدقة 320 × 512. تشير ورقة أكاديمية نشرها الفريق الذي يقف وراء DynamiCrafter إلى أن تقنيتها تختلف عن تلك الخاصة بالمنافسين من حيث أنها توسع إمكانية تطبيق تقنيات الصور المتحركة على “محتوى مرئي أكثر عمومية”.
تقول الورقة البحثية: “الفكرة الأساسية هي الاستفادة من الحركة السابقة لنماذج نشر النص إلى الفيديو من خلال دمج الصورة في العملية التوليدية كإرشاد”. وبالمقارنة، فإن التقنيات “التقليدية” “تركز بشكل أساسي على تحريك المشاهد الطبيعية باستخدام الديناميكيات العشوائية (مثل السحب والسوائل) أو الحركات الخاصة بمجال معين (مثل شعر الإنسان أو حركات الجسم).”
في عرض توضيحي (انظر أدناه) يقارن بين DynamiCrafter وStable Video Diffusion (الذي تم إطلاقه في نوفمبر) وPika Labs التي تم الترويج لها مؤخرًا، تبدو نتيجة نموذج Tencent أكثر حيوية قليلاً من النماذج الأخرى. حتمًا، ستفضل العينات المختارة DynamiCrafter، ولم يترك أي من النماذج، بعد محاولاتي القليلة الأولى، انطباعًا بأن الذكاء الاصطناعي سيكون قادرًا قريبًا على إنتاج أفلام كاملة.
ومع ذلك، فقد حظيت مقاطع الفيديو التوليدية بآمال كبيرة باعتبارها النقطة المحورية التالية في سباق الذكاء الاصطناعي بعد ازدهار النصوص والصور التوليدية. ومن المتوقع بالتالي أن تقوم الشركات الناشئة وشركات التكنولوجيا بضخ الموارد في هذا المجال. وهذا ليس استثناء في الصين. وبصرف النظر عن Tencent، أصدرت كل من ByteDance، الشركة الأم لـ TikTok، وBaidu، وAlibaba نماذج نشر الفيديو الخاصة بها.
قام كل من MagicVideo من ByteDance وUniVG من Baidu بنشر عروض توضيحية على GitHub، على الرغم من أنه لا يبدو أن أيًا منهما متاح للجمهور حتى الآن. مثل Tencent، جعلت Alibaba نموذج توليد الفيديو VGen مفتوح المصدر، وهي استراتيجية تحظى بشعبية متزايدة بين شركات التكنولوجيا الصينية التي تأمل في الوصول إلى مجتمع المطورين العالمي.
اكتشاف المزيد من مجلة كوكان
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.