فهرست مندرجات[پنهان شدن][نمایش]
آیا تا به حال خواسته اید که شخصیت مورد علاقه خود را بشنوید که با شما صحبت می کند؟ تبدیل متن به گفتار با صدای طبیعی با کمک یادگیری ماشینی کم کم به واقعیت تبدیل می شود.
به عنوان مثال، مدل NAT TTS گوگل برای تامین انرژی جدید آنها استفاده می شود صدای سفارشی سرویس. این سرویس از شبکه های عصبی برای تولید صدای آموزش دیده از ضبط استفاده می کند. برنامه های وب مانند اوبرداک صدها صدا را برای شما فراهم می کند تا از بین آنها متن ترکیب شده خود را ایجاد کنید.
در این مقاله، مدل چشمگیر و به همان اندازه مرموز هوش مصنوعی معروف به 15.ai را بررسی خواهیم کرد. ایجاد شده توسط یک توسعه دهنده ناشناس، ممکن است یکی از کارآمدترین و احساسی ترین باشد مدل های تبدیل متن به گفتار تا کنون.
15.ai چیست؟
15.ai یک برنامه وب هوش مصنوعی است که قادر به تولید صداهای احساسی تبدیل متن به گفتار با کیفیت بالا است. کاربران میتوانند صداهای مختلفی را از باب اسفنجی تا HAL 9000 از 2001: A Space Odyssey انتخاب کنند.
این برنامه توسط یک محقق سابق ناشناس MIT که با نام 15 کار می کرد، توسعه داده شد. توسعه دهنده بیان کرده است که این پروژه در ابتدا به عنوان بخشی از برنامه فرصت های تحقیقاتی در مقطع کارشناسی دانشگاه طراحی شده است.
بسیاری از صداهای موجود در 15.ai بر روی مجموعه داده های عمومی شخصیت های My Little Pony: Friendship is Magic آموزش داده شده اند. طرفداران مشتاق نمایش تلاش مشترکی برای جمع آوری، رونویسی و پردازش ساعت ها گفتگو با هدف ایجاد مولدهای متن به گفتار دقیق شخصیت های مورد علاقه خود تشکیل داده اند.
15.ai چه کاری می تواند انجام دهد؟
برنامه وب 15.ai با انتخاب یکی از ده ها شخصیت داستانی که مدل بر روی آنها آموزش دیده است و ارسال متن ورودی کار می کند. پس از کلیک بر روی Generate، کاربر باید سه کلیپ صوتی از شخصیت داستانی که خطوط داده شده را بیان می کند، دریافت کند.
از آنجا که یادگیری عمیق مدل مورد استفاده غیر قطعی است، 15.ai هر بار یک گفتار کمی متفاوت را خروجی می دهد. مشابه آنچه که یک بازیگر ممکن است برای دریافت تحویل مناسب نیاز به چندین عکس داشته باشد، 15.ai هر بار سبک های تحویل متفاوتی را تولید می کند تا زمانی که کاربر خروجی مورد علاقه خود را پیدا کند.
این پروژه شامل یک ویژگی منحصر به فرد است که به کاربران اجازه می دهد تا به صورت دستی احساسات خط تولید شده را با استفاده از زمینه سازهای احساسی تغییر دهند. این پارامترها می توانند احساسات ایموجی های ورودی کاربر را با استفاده از MIT استنباط کنند DeepMoji مدل.
به گفته توسعهدهنده، چیزی که 15.ai را از سایر برنامههای TTS مشابه متمایز میکند این است که این مدل به دادههای بسیار کمی برای شبیهسازی دقیق صداها و در عین حال "حفظ احساسات و طبیعی بودن دست نخورده" متکی است.
15.ai چگونه کار می کند؟
بیایید به فناوری پشت 15.ai نگاه کنیم.
ابتدا، توسعهدهنده اصلی 15.ai میگوید که این برنامه از یک مدل سفارشی برای تولید صداهایی با حالتهای مختلف احساسات استفاده میکند. از آنجایی که نویسنده هنوز مقاله مفصلی در مورد این پروژه منتشر نکرده است، ما فقط می توانیم فرضیات گسترده ای از آنچه در پشت صحنه اتفاق می افتد ایجاد کنیم.
بازیابی واژگان
ابتدا بیایید ببینیم برنامه چگونه متن ورودی را تجزیه می کند. قبل از اینکه برنامه بتواند گفتار تولید کند، باید هر کلمه را به مجموعه واج مربوطه خود تبدیل کند. به عنوان مثال، کلمه سگ از سه واج تشکیل شده است: /d/، /ɒ/ و /ɡ/.
اما چگونه 15.ai می داند که از چه واج هایی برای هر کلمه استفاده کند؟
با توجه به صفحه درباره 15.ai، این برنامه از جدول جستجوی فرهنگ لغت استفاده می کند. جدول از API فرهنگ لغت آکسفورد، ویکیواژه، و فرهنگ لغت تلفظ CMU به عنوان منبع استفاده میکند. 15.ai از وب سایت های دیگری مانند Reddit و Urban Dictionary به عنوان منابعی برای اصطلاحات و عبارات جدید استفاده می کند.
اگر هر کلمه ای در فرهنگ لغت وجود نداشته باشد، تلفظ آن با استفاده از قواعد واج شناختی استنباط می شود که مدل از آن یاد گرفته است. LibriTTS مجموعه داده این مجموعه داده مجموعهای از مجموعهای از کلمات نوشتاری یا گفتاری در یک زبان یا گویش مادری است که تقریباً ۵۸۵ ساعت از مردم انگلیسی صحبت میکنند.
تعبیه احساسات
به گفته توسعهدهنده، مدل سعی میکند احساس درک شده متن ورودی را حدس بزند. مدل این کار را از طریق DeepMoji انجام می دهد تجزیه و تحلیل احساسات مدل. این مدل خاص بر روی میلیاردها توییت با ایموجی ها با هدف درک نحوه استفاده از زبان برای بیان احساسات آموزش داده شد. نتیجه مدل در مدل TTS تعبیه شده است تا خروجی را به سمت احساسات مورد نظر دستکاری کند.
هنگامی که واج ها و احساسات از متن ورودی استخراج شدند، اکنون نوبت به ترکیب گفتار رسیده است.
شبیه سازی و سنتز صدا
مدل های تبدیل متن به گفتار مانند 15.ai به مدل های چند بلندگو معروف هستند. این مدل ها به گونه ای ساخته شده اند که می توانند یاد بگیرند که چگونه با صداهای مختلف صحبت کنند. برای اینکه مدل خود را به درستی آموزش دهیم، باید راهی برای استخراج ویژگی های صوتی منحصر به فرد پیدا کنیم و آن را به گونه ای نمایش دهیم که یک کامپیوتر بتواند آن را درک کند. این فرآیند به عنوان جاسازی بلندگو شناخته می شود.
استفاده از مدل های تبدیل متن به گفتار فعلی شبکه های عصبی برای ایجاد خروجی صوتی واقعی شبکه عصبی معمولاً از دو بخش اصلی تشکیل شده است: رمزگذار و رمزگشا.
رمزگذار سعی می کند یک بردار خلاصه واحد را بر اساس بردارهای ورودی مختلف بسازد. اطلاعات مربوط به واجها، جنبههای احساسی و ویژگیهای صوتی در رمزگذار قرار میگیرد تا نمایشی از آنچه خروجی باید باشد ایجاد کند. سپس رمزگشا این نمایش را به صدا تبدیل می کند و یک امتیاز اطمینان را خروجی می کند.
سپس برنامه وب 15.ai سه نتیجه برتر را با بهترین امتیاز اطمینان برمی گرداند.
مسائل مربوط به
با افزایش محتوای تولید شده توسط هوش مصنوعی مانند deepfakes، توسعه هوش مصنوعی پیشرفته که می تواند از افراد واقعی تقلید کند می تواند یک مسئله اخلاقی جدی باشد.
در حال حاضر، صداهایی که می توانید از برنامه وب 15.ai انتخاب کنید، همگی شخصیت های خیالی هستند. با این حال، این امر مانع از ایجاد برخی بحثهای آنلاین در برنامه نشد.
تعدادی از صداپیشگان استفاده از فناوری شبیه سازی صدا را کنار گذاشته اند. نگرانی های آنها شامل جعل هویت، استفاده از صدای آنها در محتوای صریح، و احتمال اینکه این فناوری ممکن است نقش صداپیشه را منسوخ کند، است.
بحث دیگری در اوایل سال 2022 رخ داد، زمانی که شرکتی به نام Voiceverse NFT کشف شد که از 15.ai برای تولید محتوا برای کمپین بازاریابی خود استفاده می کند.
نتیجه
تبدیل متن به گفتار در زندگی روزمره بسیار رایج است. دستیارهای صوتی، ناوبری GPS. و تماس های تلفنی خودکار قبلاً رایج شده است. با این حال، این برنامهها به قدری غیرانسانی هستند که میتوانیم بگوییم که گفتار ماشینی هستند.
فناوری TTS با صدای طبیعی و احساسی ممکن است در را برای کاربردهای جدید باز کند. با این حال، اخلاق شبیه سازی صدا هنوز در بهترین حالت مورد سوال است. مطمئناً منطقی است که چرا بسیاری از این محققان تمایلی به اشتراک گذاری الگوریتم با مردم ندارند.
پاسخ دهید