Jannah Theme License is not validated, Go to the theme options page to validate the license, You need a single license for each domain name.
تكنلوجيا الويب

يقدم نموذج Meta’s Movie Gen فيديو واقعي مع الصوت، حتى نتمكن أخيرًا من الحصول على عدد لا نهائي من Moo Deng


لا أحد يعرف حقًا ما هي نماذج الفيديو التوليدية المفيدة حتى الآن، لكن هذا لم يمنع شركات مثل Runway وOpenAI وMeta من ضخ الملايين لتطويرها. يُطلق على أحدث إصدار من Meta اسم Movie Gen، وهو طبقًا لاسمه يحول المطالبات النصية إلى فيديو واقعي نسبيًا مع الصوت… ولكن لحسن الحظ لا يوجد صوت حتى الآن. ومن الحكمة أنهم لا يمنحون هذا الإصدار علنًا.

إن Movie Gen هو في الواقع مجموعة (أو “ممثل” كما يقولون) من النماذج الأساسية، وأكبرها هو بت تحويل النص إلى فيديو. تدعي Meta أنها تتفوق في الأداء على أمثال Runway’s Gen3، وأحدث LumaLabs، وKling1.5، على الرغم من أن هذا النوع من الأشياء، كما هو الحال دائمًا، يوضح أنهم يلعبون نفس اللعبة أكثر من فوز Movie Gen. يمكن العثور على التفاصيل الفنية في الورقة التعريفية التي تصف جميع المكونات.

يتم إنشاء الصوت ليتوافق مع محتويات الفيديو، مع إضافة على سبيل المثال أصوات المحرك التي تتوافق مع حركات السيارة، أو اندفاع شلال في الخلفية، أو صوت الرعد في منتصف الفيديو عندما يُطلب ذلك. حتى أنه سيضيف الموسيقى إذا كان ذلك يبدو ذا صلة.

وقد تم تدريبها على “مجموعة من مجموعات البيانات المرخصة والمتاحة للجمهور” والتي أطلقوا عليها اسم “الملكية/الحساسة تجاريًا” ولم يقدموا أي تفاصيل أخرى عنها. لا يمكننا إلا أن نخمن الوسائل التي تعني وجود الكثير من مقاطع الفيديو على Instagram وFacebook، بالإضافة إلى بعض العناصر الشريكة والكثير من العناصر الأخرى التي لا تتمتع بحماية كافية من أدوات استخراج البيانات – AKA “متاحة للعامة”.

ومع ذلك، من الواضح أن ما تهدف إليه Meta هنا، ليس مجرد الاستيلاء على “أحدث ما توصلت إليه التكنولوجيا” لمدة شهر أو شهرين، بل هو نهج عملي، حيث يمكن إنتاج منتج نهائي قوي من عملية بسيطة للغاية. ، موجه باللغة الطبيعية. أشياء مثل “تخيلني كخباز يصنع كعكة فرس النهر اللامعة في عاصفة رعدية”.

على سبيل المثال، كانت إحدى النقاط الشائكة لمولدات الفيديو هذه هي مدى صعوبة تحريرها عادةً. إذا طلبت مقطع فيديو لشخص ما يسير عبر الشارع، ثم أدركت أنك تريده أن يسير من اليمين إلى اليسار بدلاً من اليسار إلى اليمين، فهناك احتمال كبير أن تبدو اللقطة بأكملها مختلفة عند تكرار المطالبة بهذه التعليمات الإضافية. تضيف Meta طريقة تحرير بسيطة تعتمد على النص حيث يمكنك ببساطة أن تقول “قم بتغيير الخلفية إلى تقاطع مزدحم” أو “قم بتغيير ملابسها إلى فستان أحمر” وستحاول إجراء هذا التغيير، ولكن فقط هذا التغيير.

اعتمادات الصورة:ميتا

يتم أيضًا فهم حركات الكاميرا بشكل عام، مع مراعاة أشياء مثل “تتبع اللقطة” و”التحريك لليسار” عند إنشاء الفيديو. لا يزال هذا الأمر أخرقًا جدًا مقارنة بالتحكم الحقيقي في الكاميرا، لكنه أفضل بكثير من لا شيء.

قيود النموذج غريبة بعض الشيء. إنه يُنشئ فيديو بعرض 768 بكسل، وهو بُعد مألوف لدى معظم الأشخاص من 1024 × 768 الشهيرة ولكن القديمة، ولكنه أيضًا يبلغ ثلاثة أضعاف 256، مما يجعله يعمل بشكل جيد مع تنسيقات HD الأخرى. يقوم نظام Movie Gen بترقية هذا إلى 1080 بكسل، وهو مصدر الادعاء بأنه يولد هذه الدقة. ليس صحيحًا حقًا، لكننا سنمنحهم تصريحًا لأن الترقية فعالة بشكل مدهش.

ومن الغريب أنه يولد ما يصل إلى 16 ثانية من الفيديو… بمعدل 16 إطارًا في الثانية، وهو معدل إطارات لم يرغب فيه أو يطلبه أحد في التاريخ. ومع ذلك، يمكنك أيضًا تصوير فيديو مدته 10 ثوانٍ بمعدل 24 إطارًا في الثانية. يؤدي مع هذا واحد!

أما لماذا لا يصدر صوتًا… حسنًا، هناك سببان على الأرجح. أولاً، الأمر صعب للغاية. أصبح توليد الكلام أمرًا سهلاً الآن، لكن مطابقته مع حركات الشفاه، ومواءمة تلك الشفاه مع حركات الوجه، أصبح اقتراحًا أكثر تعقيدًا بكثير. أنا لا ألومهم على ترك هذه القضية حتى وقت لاحق، لأنها ستكون حالة فشل في دقيقة واحدة. يمكن أن يقول شخص ما “قم بإنشاء مهرج يلقي خطاب جيتيسبيرغ أثناء ركوب دراجة صغيرة في دوائر” – وقود الكابوس جاهز للانتشار على نطاق واسع.

السبب الثاني هو على الأرجح سياسي: إن طرح ما يرقى إلى مستوى مولد التزييف العميق قبل شهر من الانتخابات الكبرى هو… ليس الأفضل بالنسبة للبصريات. إن تقليص قدراته قليلاً، بحيث أنه إذا حاولت الجهات الفاعلة الخبيثة استخدامه، فإن ذلك سيتطلب بعض العمل الحقيقي من جانبهم، وهو خطوة وقائية عملية. من المؤكد أنه يمكن الجمع بين هذا النموذج التوليدي ومولد الكلام ومزامنة الشفاه المفتوحة، ولكن لا يمكنك جعله يولد مرشحًا يقدم ادعاءات جامحة.

قال أحد ممثلي Meta ردًا على أسئلة TechCrunch: “إن Movie Gen هو مفهوم بحثي محض للذكاء الاصطناعي في الوقت الحالي، وحتى في هذه المرحلة المبكرة، تعد السلامة أولوية قصوى كما كانت مع جميع تقنيات الذكاء الاصطناعي التوليدية لدينا”.

على عكس نماذج Llama ذات اللغات الكبيرة، على سبيل المثال، لن يكون Movie Gen متاحًا للعامة. يمكنك تكرار تقنياتها إلى حد ما من خلال اتباع ورقة البحث، ولكن لن يتم نشر الكود، باستثناء “مجموعة بيانات موجه التقييم الأساسي”، وهو ما يعني تسجيل المطالبات التي تم استخدامها لإنشاء مقاطع فيديو الاختبار.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى