يقوم PlayAI باستنساخ الأصوات عند الطلب
في عام 2016، اعتقد حماد سيد ومحمود فلفل، وهو مهندس سابق في واتساب، أنه سيكون من الرائع إنشاء امتداد Chrome لتحويل النص إلى كلام للمقالات المتوسطة. تم عرض الامتداد، الذي يمكنه قراءة أي قصة متوسطة بصوت عالٍ، في Product Hunt. وبعد مرور عام، أنتجت مشروعًا تجاريًا بأكمله.
وقال سيد لـ TechCrunch: “لقد رأينا فرصة أكبر في مساعدة الأفراد والمنظمات على إنشاء محتوى صوتي واقعي لتطبيقاتهم”. “بدون الحاجة إلى بناء نموذجهم الخاص، يمكنهم نشر تجارب الكلام ذات الجودة البشرية بشكل أسرع من أي وقت مضى.”
تقدم شركة سيد وفلفل، PlayAI (PlayHT سابقًا)، نفسها على أنها “الواجهة الصوتية للذكاء الاصطناعي”. يمكن للعملاء الاختيار من بين عدد من الأصوات المحددة مسبقًا، أو استنساخ الصوت، واستخدام واجهة برمجة تطبيقات PlayAI لدمج تحويل النص إلى كلام في تطبيقاتهم.
تتيح ميزة التبديل للمستخدمين ضبط نغمة الأصوات وإيقاعها ومضمونها.
يوفر PlayAI أيضًا “ساحة لعب” حيث يمكن للمستخدمين تحميل ملف لإنشاء نسخة للقراءة بصوت عالٍ ولوحة معلومات لإنشاء روايات صوتية وتعليقات صوتية أكثر صقلًا. ومؤخرًا، دخلت الشركة في لعبة “وكلاء الذكاء الاصطناعي” بأدوات يمكن استخدامها لأتمتة المهام مثل الرد على مكالمات العملاء في الشركة.
إحدى تجارب PlayAI الأكثر إثارة للاهتمام هي PlayNote، التي تحول ملفات PDF ومقاطع الفيديو والصور والأغاني والملفات الأخرى إلى عروض على غرار البودكاست، وملخصات للقراءة بصوت عالٍ، ومناقشات فردية، وحتى قصص للأطفال. كما هو الحال مع NotebookLM من Google، يقوم PlayNote بإنشاء برنامج نصي من ملف تم تحميله أو عنوان URL وإدخاله إلى مجموعة من نماذج الذكاء الاصطناعي، والتي تعمل معًا على صياغة المنتج النهائي.
لقد قمت بالتجربة، ولم تكن النتائج نصف سيئة. يؤدي إعداد “البودكاست” الخاص بـ PlayNote إلى إنتاج مقاطع مساوية إلى حد ما لـ NotebookLM’s من حيث الجودة، كما أن قدرة الأداة على استيعاب الصور ومقاطع الفيديو تؤدي إلى بعض الإبداعات الرائعة. نظرًا لصورة طبق خلد الدجاج الذي التقطته مؤخرًا، كتب PlayNote نصًا تدوينيًا مدته خمس دقائق حول هذا الموضوع. حقا، نحن نعيش في المستقبل.
من المؤكد أن هذه الأداة، مثل جميع أدوات الذكاء الاصطناعي، تولد أعمالًا فنية غريبة وهلوسة من وقت لآخر. وعلى الرغم من أن PlayNote سيبذل قصارى جهده لتكييف الملف مع التنسيق الذي اخترته، فلا تتوقع، على سبيل المثال، حفظًا قانونيًا جافًا للحصول على أفضل مادة مصدر. انظر: الدعوى القضائية التي رفعتها Musk ضد OpenAI في إطار قصة ما قبل النوم:
أصبح تنسيق البودكاست الخاص بـ PlayNote ممكنًا بفضل أحدث طراز من PlayAI، PlayDialog، والذي يقول سيد إنه يمكنه استخدام “السياق والتاريخ” للمحادثة لإنشاء خطاب يعكس تدفق المحادثة. وتابع: “باستخدام السياق التاريخي للمحادثة للتحكم في النغمة والعاطفة والإيقاع، يقدم PlayDialog المحادثة بطريقة طبيعية ونبرة مناسبة”.
وقد تعرضت PlayAI، وهي من المنافسين الوثيقين لشركة ElevenLabs، لانتقادات في الماضي بسبب نهجها في عدم التدخل فيما يتعلق بالسلامة. تتطلب أداة استنساخ الصوت الخاصة بالشركة أن يقوم المستخدمون بتحديد مربع يشير إلى أن لديهم “جميع الحقوق أو الموافقة اللازمة” لاستنساخ الصوت – ولكن لا توجد أي آلية تنفيذ. لم أواجه أي مشكلة في إنشاء نسخة من صوت كامالا هاريس من التسجيل.
وهذا يتعلق بالنظر في احتمالية عمليات الاحتيال والتزييف العميق.
تدعي PlayAI أيضًا أنها تكتشف وتحظر تلقائيًا “المحتوى الجنسي أو المسيء أو العنصري أو التهديدي”. لكن هذا لم يكن هو الحال في اختباراتي. لقد استخدمت نسخة Harris لإنشاء خطاب لا أستطيع تضمينه هنا بصراحة ولم أر رسالة تحذير مطلقًا.
وفي الوقت نفسه، تحتوي بوابة مجتمع PlayNote، المليئة بالمحتوى الذي تم إنشاؤه بشكل عام، على ملفات ذات عناوين صريحة مثل “امرأة تمارس الجنس عن طريق الفم”.
أخبرني سيد أن PlayAI تستجيب لبلاغات الأصوات المستنسخة دون موافقة، مثل هذا الصوت، عن طريق حظر المستخدم المسؤول وإزالة الصوت المستنسخ على الفور. كما يوضح أيضًا أن استنساخ الصوت عالي الدقة من PlayAI، والذي يتطلب 20 دقيقة من العينات الصوتية، يكون سعره أعلى (49 دولارًا شهريًا يتم إصدار فاتورة به سنويًا أو 99 دولارًا أمريكيًا شهريًا) مما يرغب معظم المحتالين في دفعه.
قال سيد: “لدى PlayAI العديد من الضمانات الأخلاقية المعمول بها”. “لقد قمنا بتنفيذ آليات قوية لتحديد ما إذا كان الصوت قد تم تصنيعه باستخدام التكنولوجيا لدينا، على سبيل المثال. إذا تم الإبلاغ عن أي سوء استخدام، فإننا نتحقق على الفور من أصل المحتوى ونتخذ إجراءات حاسمة لتصحيح الوضع ومنع المزيد من الانتهاكات الأخلاقية.
أتمنى بالتأكيد أن يكون هذا هو الحال – وأن تبتعد PlayAI عن الحملات التسويقية التي تضم مشاهير التكنولوجيا المتوفين. إذا لم يكن اعتدال PlayAI قويًا، فقد يواجه تحديات قانونية في ولاية تينيسي، التي لديها قانون يمنع المنصات من استضافة الذكاء الاصطناعي لإجراء تسجيلات غير مصرح بها لصوت الشخص.
إن أسلوب PlayAI في تدريب الذكاء الاصطناعي لاستنساخ الصوت غامض بعض الشيء أيضًا. ولن تكشف الشركة عن مصدر البيانات الخاصة بنماذجها، ظاهريًا لأسباب تنافسية.
“يستخدم PlayAI في الغالب مجموعات البيانات المفتوحة، [as well as licensed data] وقال سيد: “ومجموعات البيانات الخاصة التي تم إنشاؤها داخليًا”. “نحن لا نستخدم بيانات المستخدم من المنتجات في التدريب، أو المبدعين لتدريب النماذج. يتم تدريب نماذجنا على ملايين الساعات من الكلام البشري الواقعي، لتوصيل الأصوات بالجنسين الذكور والإناث عبر لغات ولهجات متعددة.
يتم تدريب معظم نماذج الذكاء الاصطناعي على بيانات الويب العامة، والتي قد يكون بعضها محميًا بحقوق الطبع والنشر أو بموجب ترخيص مقيد. يجادل العديد من بائعي الذكاء الاصطناعي بأن مبدأ الاستخدام العادل يحميهم من مطالبات حقوق الطبع والنشر. لكن هذا لم يمنع أصحاب البيانات من رفع دعاوى قضائية جماعية تزعم أن البائعين استخدموا إذن البيانات الخاصة بهم.
لم تتم مقاضاة PlayAI. ومع ذلك، تشير شروط الخدمة الخاصة بها إلى أنها لن تسري على المستخدمين إذا وجدوا أنفسهم تحت تهديد قانوني.
تواجه منصات استنساخ الصوت، مثل PlayAI، انتقادات من الممثلين الذين يخشون أن يتم استبدال العمل الصوتي في نهاية المطاف بالغناء الناتج عن الذكاء الاصطناعي، وأن الممثلين لن يكون لديهم سوى القليل من السيطرة على كيفية استخدام الثنائيات الرقمية الخاصة بهم.
أبرم اتحاد ممثلي هوليوود SAG-AFTRA صفقات مع بعض الشركات الناشئة، بما في ذلك سوق المواهب عبر الإنترنت Narrativ وReplica Studios، فيما وصفه بترتيبات استنساخ الصوت “العادلة” و”الأخلاقية”. ولكن حتى هذه الروابط خضعت لتدقيق مكثف، بما في ذلك من قبل أعضاء SAG-AFTRA أنفسهم.
في ولاية كاليفورنيا، تشترط القوانين على الشركات التي تعتمد على النسخة الرقمية المتماثلة لفناني الأداء (مثل الصوت المستنسخ) تقديم وصف للاستخدام المقصود للنسخة المتماثلة والتفاوض مع المستشار القانوني لفناني الأداء. كما أنها تتطلب من أصحاب العمل في مجال الترفيه الحصول على موافقة ملكية المؤدي المتوفى قبل استخدام نسخة رقمية لذلك الشخص.
يقول سيد إن PlayAI “تضمن” أن كل نسخة صوتية يتم إنشاؤها من خلال منصتها تكون حصرية للمبدع. وأضاف: “هذا التفرد أمر حيوي لحماية الحقوق الإبداعية للمستخدمين”.
يمثل العبء القانوني المتزايد أحد الرياح المعاكسة لشركة PlayAI. آخر هو المنافسة. تقدم شركات Papercup وDeepdub وAcapela وRespeecher وVoice.ai، بالإضافة إلى شركات التكنولوجيا الكبيرة مثل Amazon وMicrosoft وGoogle، أدوات الدبلجة والاستنساخ الصوتي باستخدام الذكاء الاصطناعي. ويقال إن شركة ElevenLabs المذكورة أعلاه، وهي واحدة من أبرز شركات استنساخ الصوت، تقوم بجمع أموال جديدة بقيمة تزيد عن 3 مليارات دولار.
ومع ذلك، فإن PlayAI لا تكافح من أجل العثور على مستثمرين. في هذا الشهر، أغلقت الشركة المدعومة من Y Combinator جولة تأسيسية بقيمة 20 مليون دولار بقيادة Kindred Ventures، ليصل إجمالي رأس مالها إلى 21 مليون دولار. شاركت أيضًا Race Capital و 500 Global.
وقال سيد: “سيتم استخدام رأس المال الجديد للاستثمار في نماذجنا الصوتية التوليدية للذكاء الاصطناعي ومنصة الوكيل الصوتي، ولتقصير الوقت الذي تستغرقه الشركات لبناء تجارب كلام ذات جودة بشرية”، مضيفًا أن PlayAI تخطط لتوسيع قوتها العاملة المكونة من 40 شخصًا. .
اكتشاف المزيد من مجلة كوكان
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.