×

أيمكنك سماعي الآن؟ تقنيات الذكاء الاصطناعي لمحاربة الصوت المزعج باستخدام الذكاء الاصطناعي التوليدي

أيمكنك سماعي الآن؟ تقنيات الذكاء الاصطناعي لمحاربة الصوت المزعج باستخدام الذكاء الاصطناعي التوليدي

[ad_1]

التسجيلات الصاخبة للمقابلات والخطب هي لعنة وجود مهندسي الصوت. لكن إحدى الشركات الألمانية الناشئة تأمل في إصلاح ذلك من خلال نهج تقني فريد يستخدم الذكاء الاصطناعي التوليدي لتعزيز وضوح الأصوات في الفيديو.

اليوم، خرجت تقنيات الذكاء الاصطناعي الصوتية من التسلل بتمويل قدره 1.9 مليون يورو. وفقًا للمؤسس المشارك والرئيس التنفيذي فابيان سيبل، فإن تقنية AI-coustics تتجاوز الحد القياسي للضوضاء لتعمل عبر – ومع – أي جهاز ومكبر صوت.

وقال سيبل لـ TechCrunch في مقابلة: “مهمتنا الأساسية هي جعل كل تفاعل رقمي، سواء كان ذلك عبر مكالمة جماعية أو جهاز استهلاكي أو مقطع فيديو غير رسمي على وسائل التواصل الاجتماعي، واضحًا مثل البث من استوديو احترافي”.

شارك سيبل، وهو مهندس صوت من خلال التدريب، في تأسيس AI-coustics مع كورفين جايديك، المحاضر في التعلم الآلي في جامعة برلين التقنية، في عام 2021. التقى سيبل وجيديكي أثناء دراسة تكنولوجيا الصوت في جامعة برلين التقنية، حيث غالبًا ما واجهوا ضعفًا في الصوت الجودة في الدورات والبرامج التعليمية عبر الإنترنت التي كان عليهم أن يأخذوها.

وقال سيبل: “لقد تحركنا مهمة شخصية للتغلب على التحدي المنتشر المتمثل في ضعف جودة الصوت في الاتصالات الرقمية”. “على الرغم من ضعف سمعي قليلاً بسبب إنتاج الموسيقى في أوائل العشرينات من عمري، إلا أنني كنت أعاني دائمًا من المحتوى والمحاضرات عبر الإنترنت، مما دفعنا إلى العمل على موضوع جودة الكلام ووضوحه في المقام الأول.”

إن سوق برامج قمع الضوضاء وتحسين الصوت التي تعمل بالذكاء الاصطناعي قوية جدًا بالفعل. يشمل منافسو AI-coustics Insoundz، الذي يستخدم الذكاء الاصطناعي التوليدي لتحسين مقاطع الكلام المتدفقة والمسجلة مسبقًا، وVeed.io، وهو مجموعة تحرير فيديو تحتوي على أدوات لإزالة ضوضاء الخلفية من المقاطع.

لكن سيبل يقول إن تقنيات الذكاء الاصطناعي الصوتية لديها نهج فريد لتطوير آليات الذكاء الاصطناعي التي تقوم بالعمل الفعلي للحد من الضوضاء.

تستخدم الشركة الناشئة نموذجًا تم تدريبه على عينات الكلام المسجلة في استوديو الشركة الناشئة في برلين، موطن شركة AI-coustics. يُدفع للأشخاص مقابل تسجيل عينات – لم يذكر سيبل المبلغ – ثم تتم إضافتها بعد ذلك إلى مجموعة بيانات لتدريب نموذج تقليل الضوضاء الخاص بالذكاء الاصطناعي.

وقال سيبل: “لقد طورنا أسلوبًا فريدًا لمحاكاة المؤثرات الصوتية والمشكلات – مثل الضوضاء، والصدى، والضغط، والميكروفونات محدودة النطاق، والتشويه، والقص، وما إلى ذلك – أثناء عملية التدريب”.

أراهن أن البعض سيعترض على نظام التعويض لمرة واحدة الذي تقدمه شركة AI-coustics للمبدعين، نظرًا لأن النموذج الذي تدربه الشركة الناشئة يمكن أن يصبح مربحًا للغاية على المدى الطويل. (هناك جدل صحي حول ما إذا كان منشئو بيانات التدريب لنماذج الذكاء الاصطناعي يستحقون بقايا لمساهماتهم). ولكن ربما يكون التحيز هو الشاغل الأكبر والأكثر إلحاحًا.

من الثابت أن خوارزميات التعرف على الكلام يمكنها تطوير تحيزات، وهي تحيزات تؤدي في النهاية إلى الإضرار بالمستخدمين. أظهرت دراسة نشرت في The Proceedings of the National Academy of Sciences أن التعرف على الكلام من الشركات الرائدة كان أكثر عرضة بمرتين لنسخ الصوت بشكل غير صحيح من المتحدثين السود مقارنة بالمتحدثين البيض.

وفي محاولة لمكافحة ذلك، يقول سيبل إن شركة AI-coustics تركز على تجنيد المساهمين “المتنوعين” في عينات الكلام. وأضاف: “الحجم والتنوع هما المفتاح للقضاء على التحيز وجعل التكنولوجيا مناسبة لجميع اللغات وهويات المتحدثين والأعمار واللهجات والأجناس.”

لم يكن الاختبار الأكثر علمية، لكنني قمت بتحميل ثلاثة مقاطع فيديو – مقابلة مع مزارع من القرن الثامن عشر، وعرض توضيحي لقيادة السيارة، واحتجاج على الصراع الإسرائيلي الفلسطيني – إلى منصة AI-coustics لمعرفة مدى نجاحها مع كل اختبار. . لقد أوفت تقنيات الذكاء الاصطناعي بالفعل بوعدها بتعزيز الوضوح؛ بالنسبة لأذني، كانت المقاطع المعالجة تحتوي على ضوضاء خلفية محيطة أقل بكثير تطغى على مكبرات الصوت.

إليكم مقطع المزارع من القرن الثامن عشر من قبل:


و بعد:

يرى Seipel أن تقنية AI-coustics تُستخدم في الوقت الفعلي بالإضافة إلى تحسين الكلام المسجل، وربما يتم تضمينها في أجهزة مثل مكبرات الصوت والهواتف الذكية وسماعات الرأس لتعزيز وضوح الصوت تلقائيًا. حالياً، تقدم AI-coustics تطبيق ويب وواجهة برمجة التطبيقات (API) لتسجيلات الصوت والفيديو في مرحلة ما بعد المعالجة، ومجموعة SDK التي تجلب منصة AI-coustics إلى مسارات العمل والتطبيقات والأجهزة الحالية.

يقول سيبل إن شركة AI-coustics – التي تجني الأموال من خلال مزيج من الاشتراكات والتسعير حسب الطلب والترخيص – لديها خمسة عملاء من المؤسسات و20 ألف مستخدم (وإن لم يكن جميعهم يدفعون) في الوقت الحاضر. تتضمن خريطة الطريق للأشهر القليلة المقبلة توسيع فريق الشركة المكون من أربعة أشخاص وتحسين نموذج تحسين الكلام الأساسي.

قال سيبل: “قبل استثمارنا الأولي، كانت شركة AI-coustics تدير عملية بسيطة إلى حد ما مع معدل حرق منخفض من أجل التغلب على الصعوبات التي يواجهها سوق استثمار رأس المال الاستثماري”. “تمتلك شركة AI-coustics الآن شبكة كبيرة من المستثمرين والموجهين في ألمانيا والمملكة المتحدة للحصول على المشورة. إن القاعدة التكنولوجية القوية والقدرة على التعامل مع الأسواق المختلفة باستخدام نفس قاعدة البيانات والتكنولوجيا الأساسية تمنح الشركة المرونة والقدرة على إنشاء محاور أصغر.

عند سؤاله عما إذا كانت تقنية إتقان الصوت مثل الذكاء الاصطناعي الصوتي قد تسرق الوظائف كما يخشى بعض النقاد، أشار سيبل إلى قدرة الذكاء الاصطناعي الصوتي على تسريع المهام التي تستغرق وقتًا طويلاً والتي تقع حاليًا على عاتق مهندسي الصوت البشريين.

وقال: “يمكن لاستوديو إنشاء المحتوى أو مدير البث توفير الوقت والمال من خلال أتمتة أجزاء من عملية الإنتاج الصوتي باستخدام صوتيات الذكاء الاصطناعي مع الحفاظ على أعلى جودة للكلام”. “لا تزال جودة الكلام ووضوحه تمثل مشكلة مزعجة لدى كل مستهلك أو جهاز مؤيد تقريبًا وكذلك في إنتاج المحتوى أو استهلاكه. من المحتمل أن يستفيد كل تطبيق يتم فيه تسجيل الكلام أو معالجته أو نقله من تقنيتنا.

اتخذ التمويل شكل شريحة من الأسهم والديون من Connect Ventures وInovia Capital وFOV Ventures وAbleton CFO Jan Bohl.

[ad_2]

إرسال التعليق

You May Have Missed