Преглед садржаја[Сакрити][Прикажи]
Да ли сте икада желели да чујете како ваш омиљени лик разговара са вама? Претварање текста у говор природног звучања полако постаје стварност уз помоћ машинског учења.
На пример, Гоогле-ов НАТ ТТС модел се користи за напајање њиховог новог Цустом Воице услуга. Ова услуга користи неуронске мреже за генерисање гласа обученог из снимака. Веб апликације као што су Убердуцк обезбедите стотине гласова које можете изабрати да бисте креирали сопствени синтетизовани текст.
У овом чланку ћемо се осврнути на импресиван и једнако загонетан АИ модел познат као 15.аи. Направљен од стране анонимног програмера, може бити један од најефикаснијих и најемотивнијих модели претварања текста у говор до сада.
Шта је 15.аи?
15.аи је АИ веб апликација која је способна да генерише емотивне гласове високе верности за претварање текста у говор. Корисници могу да бирају између разних гласова од Сунђер Боба Квадратних хлача до ХАЛ 9000 из 2001: Одисеја у свемиру.
Програм је развио анонимни бивши истраживач МИТ-а који је радио под именом 15. Програмер је изјавио да је пројекат првобитно замишљен као део универзитетског Програма могућности додипломских истраживања.
Многи гласови доступни у 15.аи су обучени на јавним скуповима података ликова из Ми Литтле Пони: Фриендсхип ис Магиц. Страствени обожаваоци емисије су заједничким снагама прикупили, транскрибовали и обрадили сате дијалога са циљем стварања тачних генератора претварања текста у говор својих омиљених ликова.
Шта може 15.аи?
Веб апликација 15.аи ради тако што бира једног од десетина измишљених ликова за које је модел обучен и шаље унос текста. Након што кликне на Генериши, корисник треба да добије три аудио клипа измишљеног лика који говори дате редове.
Пошто дубоко учење модел који се користи је недетерминистички, 15.аи сваки пут даје нешто другачији говор. Слично томе како глумцу може бити потребно вишеструко снимање да би добио праву испоруку, 15.аи генерише различите стилове испоруке сваки пут док корисник не пронађе резултат који му се свиђа.
Пројекат укључује јединствену функцију која омогућава корисницима да ручно мењају емоцију генерисане линије користећи емоционалне контекстуализаторе. Ови параметри су у стању да закључују осећај емоџија које уносе корисник користећи МИТ-ове ДеепМоји модел.
Према речима програмера, оно што 15.аи издваја од других сличних ТТС програма је то што се модел ослања на врло мало података да би прецизно клонирао гласове, док „чува емоције и природност нетакнутим“.
Како функционише 15.аи?
Хајде да погледамо технологију иза 15.аи.
Прво, главни програмер 15.аи каже да програм користи прилагођени модел за генерисање гласова са различитим стањима емоција. Пошто аутор тек треба да објави детаљан рад о пројекту, можемо само да износимо широке претпоставке о томе шта се дешава иза кулиса.
Преузимање фонема
Прво, погледајмо како програм анализира улазни текст. Пре него што програм може да генерише говор, мора да конвертује сваку појединачну реч у одговарајућу колекцију фонема. На пример, реч „пас“ се састоји од три фонема: /д/, /ɒ/ и /ɡ/.
Али како 15.аи зна које фонеме да користи за сваку реч?
Према страници Абоут 15.аи, програм користи табелу за претраживање речника. Табела користи АПИ Оксфордских речника, Викиречник и ЦМУ речник изговора као изворе. 15.аи користи друге веб странице као што су Реддит и Урбан Дицтионари као изворе за новостворене термине и фразе.
Ако било која дата реч не постоји у речнику, њен изговор се закључује помоћу фонолошких правила која је модел научио из ЛибриТТС скуп података. Овај скуп података је корпус – скуп података писаних или изговорених речи на матерњем језику или дијалекту – од отприлике 585 сати људи који говоре енглески.
Ембеддинг Емотионс
Према речима програмера, модел покушава да погоди перципирану емоцију унесеног текста. Модел остварује овај задатак преко ДеепМојија анализа сентимента модел. Овај модел је обучен на милијардама твитова са емоџијима са циљем да се разуме како се језик користи за изражавање емоција. Резултат модела је уграђен у ТТС модел да манипулише излазом према жељеној емоцији.
Када су фонеми и сентименти извучени из улазног текста, сада је време да се синтетише говор.
Клонирање и синтеза гласа
Модели претварања текста у говор као што је 15.аи су познати као модели са више звучника. Ови модели су направљени да науче како да говоре различитим гласовима. Да бисмо правилно обучили наш модел, морамо пронаћи начин да издвојимо јединствене гласовне карактеристике и представимо их на начин који рачунар може да разуме. Овај процес је познат као уграђивање звучника.
Користе се тренутни модели претварања текста у говор неуронске мреже да бисте креирали стварни аудио излаз. Неуронска мрежа се обично састоји од два главна дела: енкодера и декодера.
Кодер покушава да направи један сумарни вектор на основу различитих улазних вектора. Информације о фонемима, емотивним аспектима и гласовним карактеристикама стављају се у кодер да би се створила репрезентација онога што би требало да буде на излазу. Декодер затим претвара ову репрезентацију у аудио и даје резултат поузданости.
15.аи веб апликација затим враћа прва три резултата са најбољим резултатом самопоуздања.
Питања
Са порастом садржаја генерисаног вештачком интелигенцијом као што су деепфакес, развој напредне вештачке интелигенције која може да опонаша стварне људе може бити озбиљно етичко питање.
Тренутно су сви гласови које можете изабрати из веб апликације 15.аи измишљени ликови. Међутим, то није спречило апликацију да изазове контроверзу на мрежи.
Неколико гласовних глумаца одустало је од употребе технологије клонирања гласа. Забринутост њих укључује лажно представљање, употребу њиховог гласа у експлицитном садржају и могућност да би технологија могла учинити улогу глумца застарелом.
Још једна контроверза догодила се раније 2022. године када је откривено да компанија под називом Воицеверсе НФТ користи 15.аи за генерисање садржаја за своју маркетиншку кампању.
Zakljucak
Претварање текста у говор је већ прилично распрострањено у свакодневном животу. Гласовни асистенти, ГПС навигатори. а аутоматизовани телефонски позиви су већ постали уобичајено место. Међутим, ове апликације су изразито нељудске довољно да можемо рећи да су то машински направљен говор.
Природна и емотивна ТТС технологија могла би отворити врата за нове апликације. Међутим, етика клонирања гласа је у најбољем случају још увек упитна. Свакако има смисла зашто многи од ових истраживача нерадо поделе алгоритам са јавношћу.
Ostavite komentar