جدول المحتويات[يخفي][يعرض]
هل أردت يومًا أن تسمع شخصيتك المفضلة تتحدث معك؟ أصبح تحويل النص إلى كلام طبيعيًا حقيقة واقعة بمساعدة التعلم الآلي.
على سبيل المثال ، يتم استخدام نموذج NAT TTS من Google لتشغيل الجديد صوت مخصص خدمة. تستخدم هذه الخدمة الشبكات العصبية لتوليد صوت مدرب من التسجيلات. تطبيقات الويب مثل أوبيرداك توفير مئات الأصوات لتختار من بينها لإنشاء نصك المركب.
في هذه المقالة ، سنلقي نظرة على نموذج الذكاء الاصطناعي المثير للإعجاب والغموض بنفس القدر والمعروف باسم 15.ai. تم إنشاؤها بواسطة مطور مجهول ، قد تكون واحدة من أكثر البرامج فاعلية وانفعالية نماذج تحويل النص إلى كلام حتى الآن.
ما هو 15.ai؟
15.ai هو تطبيق ويب يعمل بالذكاء الاصطناعي قادر على توليد أصوات عاطفية عالية الدقة لتحويل النص إلى كلام. يمكن للمستخدمين الاختيار من بين مجموعة متنوعة من الأصوات من Spongebob Squarepants إلى HAL 9000 من 2001: A Space Odyssey.
تم تطوير البرنامج من قبل باحث سابق مجهول في معهد ماساتشوستس للتكنولوجيا يعمل تحت اسم 15. صرح المطور أن المشروع قد تم تصميمه في البداية كجزء من برنامج فرص البحث الجامعي بالجامعة.
يتم تدريب العديد من الأصوات المتوفرة في 15.ai على مجموعات بيانات عامة لشخصيات من My Little Pony: Friendship is Magic. لقد شكل المعجبون المتحمسون للعرض جهدًا تعاونيًا لجمع ونسخ ومعالجة ساعات من الحوار بهدف إنشاء مولدات دقيقة لتحويل النص إلى كلام لشخصياتهم المفضلة.
ماذا يمكن أن تفعله 15.ai؟
يعمل تطبيق الويب 15.ai عن طريق اختيار واحد من عشرات الشخصيات الخيالية التي تم تدريب النموذج عليها وإرسال نص الإدخال. بعد النقر على "إنشاء" ، يجب أن يتلقى المستخدم ثلاثة مقاطع صوتية للشخصية الخيالية تتحدث الأسطر المحددة.
منذ التعلم العميق النموذج المستخدم غير محدد ، 15.ai يخرج خطابًا مختلفًا قليلاً في كل مرة. على غرار الطريقة التي قد يتطلب بها الممثل لقطات متعددة للحصول على التسليم الصحيح ، ينشئ 15.ai أنماط تسليم مختلفة في كل مرة حتى يجد المستخدم الإخراج الذي يحبه.
يتضمن المشروع ميزة فريدة تسمح للمستخدمين بتغيير عاطفة الخط الذي تم إنشاؤه يدويًا باستخدام السياقات العاطفية. هذه المعلمات قادرة على استنتاج مشاعر الرموز التعبيرية لإدخال المستخدم باستخدام MIT DeepMoji نموذج.
وفقًا للمطور ، فإن ما يميز 15.ai عن برامج تحويل النص إلى كلام أخرى مماثلة هو أن النموذج يعتمد على القليل جدًا من البيانات لاستنساخ الأصوات بدقة مع "الحفاظ على العواطف والطبيعية سليمة".
كيف يعمل 15.ai؟
دعونا نلقي نظرة على التكنولوجيا وراء 15.ai.
أولاً ، يقول المطور الرئيسي لبرنامج 15.ai أن البرنامج يستخدم نموذجًا مخصصًا لتوليد أصوات ذات حالات مختلفة من المشاعر. نظرًا لأن المؤلف لم ينشر بعد ورقة مفصلة عن المشروع ، يمكننا فقط وضع افتراضات واسعة لما يحدث وراء الكواليس.
استرجاع الصوتيات
أولاً ، دعنا نلقي نظرة على كيفية قيام البرنامج بتحليل نص الإدخال. قبل أن يتمكن البرنامج من توليد الكلام ، يجب عليه تحويل كل كلمة على حدة إلى مجموعتها الخاصة من الصوتيات. على سبيل المثال ، تتكون كلمة "كلب" من ثلاثة أصوات: / d / و / ɒ / و / /.
ولكن كيف تعرف 15.ai أي الصوتيات يجب استخدامها لكل كلمة؟
وفقًا لصفحة "حول" الخاصة بـ 15.ai ، يستخدم البرنامج جدول بحث في القاموس. يستخدم الجدول Oxford Dictionaries API و Wiktionary و CMU Pronouncing Dictionary كمصادر. 15.ai يستخدم مواقع الويب الأخرى مثل Reddit و Urban Dictionary كمصادر للمصطلحات والعبارات المصاغة حديثًا.
في حالة عدم وجود أي كلمة في القاموس ، يتم استنتاج نطقها باستخدام القواعد الصوتية التي تعلمها النموذج من LibriTTS مجموعة البيانات. مجموعة البيانات هذه عبارة عن مجموعة - مجموعة بيانات من الكلمات المكتوبة أو المنطوقة بلغة أو لهجة أصلية - لما يقرب من 585 ساعة من الأشخاص الذين يتحدثون الإنجليزية.
تضمين المشاعر
وفقًا للمطور ، يحاول النموذج تخمين المشاعر المتصورة لنص الإدخال. ينجز النموذج هذه المهمة من خلال DeepMoji تحليل المشاعر نموذج. تم تدريب هذا النموذج الخاص على بلايين التغريدات باستخدام الرموز التعبيرية بهدف فهم كيفية استخدام اللغة للتعبير عن المشاعر. يتم تضمين نتيجة النموذج في نموذج TTS لمعالجة الإخراج نحو العاطفة المرغوبة.
بمجرد استخراج الصوتيات والمشاعر من نص الإدخال ، حان الوقت الآن لتركيب الكلام.
استنساخ الصوت والتوليف
تُعرف نماذج تحويل النص إلى كلام مثل 15.ai بالنماذج متعددة السماعات. تم تصميم هذه النماذج لتكون قادرة على تعلم كيفية التحدث بأصوات مختلفة. من أجل تدريب نموذجنا بشكل صحيح ، يجب أن نجد طريقة لاستخراج الميزات الصوتية الفريدة وتمثيلها بطريقة يستطيع الكمبيوتر فهمها. تُعرف هذه العملية باسم تضمين المتحدث.
تستخدم نماذج تحويل النص إلى كلام الحالية الشبكات العصبية لإنشاء إخراج الصوت الفعلي. تتكون الشبكة العصبية عادةً من جزأين رئيسيين: مشفر وجهاز فك ترميز.
يحاول المشفر إنشاء متجه ملخص واحد بناءً على متجهات الإدخال المختلفة. يتم وضع معلومات حول الصوتيات والجوانب العاطفية وميزات الصوت في المشفر لإنشاء تمثيل لما يجب أن يكون عليه الإخراج. ثم تقوم وحدة فك التشفير بتحويل هذا التمثيل إلى صوت وإخراج درجة ثقة.
ثم يعرض تطبيق الويب 15.ai النتائج الثلاثة الأولى بأفضل درجة ثقة.
قضايا
مع ظهور المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي مثل deepfakes، تطوير ذكاء اصطناعي متقدم يمكنه تقليد أناس حقيقيين يمكن أن يكون مشكلة أخلاقية خطيرة.
حاليًا ، الأصوات التي يمكنك اختيارها من تطبيق الويب 15.ai كلها شخصيات خيالية. ومع ذلك ، فإن ذلك لم يمنع التطبيق من إثارة بعض الجدل عبر الإنترنت.
تراجع عدد قليل من الممثلين الصوتيين عن استخدام تقنية استنساخ الصوت. تشمل مخاوفهم انتحال الهوية ، واستخدام صوتهم في محتوى صريح ، واحتمال أن تجعل التكنولوجيا دور الممثل الصوتي عفا عليه الزمن.
حدث جدل آخر في وقت سابق في عام 2022 عندما تم اكتشاف أن شركة تسمى Voiceverse NFT تستخدم 15.ai لإنشاء محتوى لحملتها التسويقية.
وفي الختام
إن تحويل النص إلى كلام منتشر بالفعل في الحياة اليومية. المساعدين الصوتيين ، ملاحي GPS. والمكالمات الهاتفية الآلية أصبحت بالفعل مكانًا شائعًا. ومع ذلك ، من الواضح أن هذه التطبيقات ليست بشرية بدرجة كافية بحيث يمكننا أن نقول إنها كلام مصنوع آليًا.
قد تفتح تقنية تحويل النص إلى كلام ذات الصوت الطبيعي والعاطفي الباب أمام تطبيقات جديدة. ومع ذلك ، فإن أخلاقيات استنساخ الصوت لا تزال موضع شك في أحسن الأحوال. من المنطقي بالتأكيد سبب تردد الكثير من هؤلاء الباحثين في مشاركة الخوارزمية مع الجمهور.
اترك تعليق