15.ai – تبدیل متن به گفتار طبیعی و احساسی با استفاده از شبکه های عصبی

فهرست مندرجات[پنهان شدن][نمایش]

15.ai چیست؟+-
- 15.ai چه کاری می تواند انجام دهد؟
15.ai چگونه کار می کند؟+-
مسائل مربوط به
نتیجه

آیا تا به حال خواسته اید که شخصیت مورد علاقه خود را بشنوید که با شما صحبت می کند؟ تبدیل متن به گفتار با صدای طبیعی با کمک یادگیری ماشینی کم کم به واقعیت تبدیل می شود.

به عنوان مثال، مدل NAT TTS گوگل برای تامین انرژی جدید آنها استفاده می شود صدای سفارشی سرویس. این سرویس از شبکه های عصبی برای تولید صدای آموزش دیده از ضبط استفاده می کند. برنامه های وب مانند اوبرداک صدها صدا را برای شما فراهم می کند تا از بین آنها متن ترکیب شده خود را ایجاد کنید.

در این مقاله، مدل چشمگیر و به همان اندازه مرموز هوش مصنوعی معروف به 15.ai را بررسی خواهیم کرد. ایجاد شده توسط یک توسعه دهنده ناشناس، ممکن است یکی از کارآمدترین و احساسی ترین باشد مدل های تبدیل متن به گفتار تا کنون.

15.ai چیست؟

15.ai یک برنامه وب هوش مصنوعی است که قادر به تولید صداهای احساسی تبدیل متن به گفتار با کیفیت بالا است. کاربران می‌توانند صداهای مختلفی را از باب اسفنجی تا HAL 9000 از 2001: A Space Odyssey انتخاب کنند.

این برنامه توسط یک محقق سابق ناشناس MIT که با نام 15 کار می کرد، توسعه داده شد. توسعه دهنده بیان کرده است که این پروژه در ابتدا به عنوان بخشی از برنامه فرصت های تحقیقاتی در مقطع کارشناسی دانشگاه طراحی شده است.

بسیاری از صداهای موجود در 15.ai بر روی مجموعه داده های عمومی شخصیت های My Little Pony: Friendship is Magic آموزش داده شده اند. طرفداران مشتاق نمایش تلاش مشترکی برای جمع آوری، رونویسی و پردازش ساعت ها گفتگو با هدف ایجاد مولدهای متن به گفتار دقیق شخصیت های مورد علاقه خود تشکیل داده اند.

15.ai چه کاری می تواند انجام دهد؟

برنامه وب 15.ai با انتخاب یکی از ده ها شخصیت داستانی که مدل بر روی آنها آموزش دیده است و ارسال متن ورودی کار می کند. پس از کلیک بر روی Generate، کاربر باید سه کلیپ صوتی از شخصیت داستانی که خطوط داده شده را بیان می کند، دریافت کند.

برنامه اصلی وب 15.ai

از آنجا که یادگیری عمیق مدل مورد استفاده غیر قطعی است، 15.ai هر بار یک گفتار کمی متفاوت را خروجی می دهد. مشابه آنچه که یک بازیگر ممکن است برای دریافت تحویل مناسب نیاز به چندین عکس داشته باشد، 15.ai هر بار سبک های تحویل متفاوتی را تولید می کند تا زمانی که کاربر خروجی مورد علاقه خود را پیدا کند.

این پروژه شامل یک ویژگی منحصر به فرد است که به کاربران اجازه می دهد تا به صورت دستی احساسات خط تولید شده را با استفاده از زمینه سازهای احساسی تغییر دهند. این پارامترها می توانند احساسات ایموجی های ورودی کاربر را با استفاده از MIT استنباط کنند DeepMoji مدل.

به گفته توسعه‌دهنده، چیزی که 15.ai را از سایر برنامه‌های TTS مشابه متمایز می‌کند این است که این مدل به داده‌های بسیار کمی برای شبیه‌سازی دقیق صداها و در عین حال "حفظ احساسات و طبیعی بودن دست نخورده" متکی است.

15.ai چگونه کار می کند؟

بیایید به فناوری پشت 15.ai نگاه کنیم.

ابتدا، توسعه‌دهنده اصلی 15.ai می‌گوید که این برنامه از یک مدل سفارشی برای تولید صداهایی با حالت‌های مختلف احساسات استفاده می‌کند. از آنجایی که نویسنده هنوز مقاله مفصلی در مورد این پروژه منتشر نکرده است، ما فقط می توانیم فرضیات گسترده ای از آنچه در پشت صحنه اتفاق می افتد ایجاد کنیم.

بازیابی واژگان

ابتدا بیایید ببینیم برنامه چگونه متن ورودی را تجزیه می کند. قبل از اینکه برنامه بتواند گفتار تولید کند، باید هر کلمه را به مجموعه واج مربوطه خود تبدیل کند. به عنوان مثال، کلمه سگ از سه واج تشکیل شده است: /d/، /ɒ/ و /ɡ/.

اما چگونه 15.ai می داند که از چه واج هایی برای هر کلمه استفاده کند؟

با توجه به صفحه درباره 15.ai، این برنامه از جدول جستجوی فرهنگ لغت استفاده می کند. جدول از API فرهنگ لغت آکسفورد، ویکی‌واژه، و فرهنگ لغت تلفظ CMU به عنوان منبع استفاده می‌کند. 15.ai از وب سایت های دیگری مانند Reddit و Urban Dictionary به عنوان منابعی برای اصطلاحات و عبارات جدید استفاده می کند.

اگر هر کلمه ای در فرهنگ لغت وجود نداشته باشد، تلفظ آن با استفاده از قواعد واج شناختی استنباط می شود که مدل از آن یاد گرفته است. LibriTTS مجموعه داده این مجموعه داده مجموعه‌ای از مجموعه‌ای از کلمات نوشتاری یا گفتاری در یک زبان یا گویش مادری است که تقریباً ۵۸۵ ساعت از مردم انگلیسی صحبت می‌کنند.

تعبیه احساسات

مدل 15.ai احساسات درک شده از متن را استخراج می کند

به گفته توسعه‌دهنده، مدل سعی می‌کند احساس درک شده متن ورودی را حدس بزند. مدل این کار را از طریق DeepMoji انجام می دهد تجزیه و تحلیل احساسات مدل. این مدل خاص بر روی میلیاردها توییت با ایموجی ها با هدف درک نحوه استفاده از زبان برای بیان احساسات آموزش داده شد. نتیجه مدل در مدل TTS تعبیه شده است تا خروجی را به سمت احساسات مورد نظر دستکاری کند.

هنگامی که واج ها و احساسات از متن ورودی استخراج شدند، اکنون نوبت به ترکیب گفتار رسیده است.

شبیه سازی و سنتز صدا

مدل های تبدیل متن به گفتار مانند 15.ai به مدل های چند بلندگو معروف هستند. این مدل ها به گونه ای ساخته شده اند که می توانند یاد بگیرند که چگونه با صداهای مختلف صحبت کنند. برای اینکه مدل خود را به درستی آموزش دهیم، باید راهی برای استخراج ویژگی های صوتی منحصر به فرد پیدا کنیم و آن را به گونه ای نمایش دهیم که یک کامپیوتر بتواند آن را درک کند. این فرآیند به عنوان جاسازی بلندگو شناخته می شود.

استفاده از مدل های تبدیل متن به گفتار فعلی شبکه های عصبی برای ایجاد خروجی صوتی واقعی شبکه عصبی معمولاً از دو بخش اصلی تشکیل شده است: رمزگذار و رمزگشا.

نمونه سیستم چند بلندگو

رمزگذار سعی می کند یک بردار خلاصه واحد را بر اساس بردارهای ورودی مختلف بسازد. اطلاعات مربوط به واج‌ها، جنبه‌های احساسی و ویژگی‌های صوتی در رمزگذار قرار می‌گیرد تا نمایشی از آنچه خروجی باید باشد ایجاد کند. سپس رمزگشا این نمایش را به صدا تبدیل می کند و یک امتیاز اطمینان را خروجی می کند.

سپس برنامه وب 15.ai سه نتیجه برتر را با بهترین امتیاز اطمینان برمی گرداند.

خروجی های صوتی و امتیازات اطمینان مربوط به آنها

مسائل مربوط به

با افزایش محتوای تولید شده توسط هوش مصنوعی مانند deepfakes، توسعه هوش مصنوعی پیشرفته که می تواند از افراد واقعی تقلید کند می تواند یک مسئله اخلاقی جدی باشد.

در حال حاضر، صداهایی که می توانید از برنامه وب 15.ai انتخاب کنید، همگی شخصیت های خیالی هستند. با این حال، این امر مانع از ایجاد برخی بحث‌های آنلاین در برنامه نشد.

تعدادی از صداپیشگان استفاده از فناوری شبیه سازی صدا را کنار گذاشته اند. نگرانی های آنها شامل جعل هویت، استفاده از صدای آنها در محتوای صریح، و احتمال اینکه این فناوری ممکن است نقش صداپیشه را منسوخ کند، است.

بحث دیگری در اوایل سال 2022 رخ داد، زمانی که شرکتی به نام Voiceverse NFT کشف شد که از 15.ai برای تولید محتوا برای کمپین بازاریابی خود استفاده می کند.

نتیجه

تبدیل متن به گفتار در زندگی روزمره بسیار رایج است. دستیارهای صوتی، ناوبری GPS. و تماس های تلفنی خودکار قبلاً رایج شده است. با این حال، این برنامه‌ها به قدری غیرانسانی هستند که می‌توانیم بگوییم که گفتار ماشینی هستند.

فناوری TTS با صدای طبیعی و احساسی ممکن است در را برای کاربردهای جدید باز کند. با این حال، اخلاق شبیه سازی صدا هنوز در بهترین حالت مورد سوال است. مطمئناً منطقی است که چرا بسیاری از این محققان تمایلی به اشتراک گذاری الگوریتم با مردم ندارند.

15.ai – تبدیل متن به گفتار طبیعی و احساسی با استفاده از شبکه های عصبی