Дали некогаш сте посакале да го слушнете вашиот омилен лик како разговара со вас? Текст во говор со природен звук полека станува реалност со помош на машинско учење.
На пример, моделот NAT TTS на Google се користи за напојување на нивниот нов Прилагоден глас Сервис. Оваа услуга користи невронски мрежи за да генерира глас обучен од снимки. Веб апликации како што се Убердук обезбедете стотици гласови од кои можете да изберете за да креирате сопствен синтетизиран текст.
Во оваа статија, ќе го разгледаме импресивниот и подеднакво енигматичен модел на вештачка интелигенција познат како 15.ai. Создаден од анонимен програмер, можеби е еден од најефективните и најемотивните модели на текст во говор досега.
Што е 15.ai?
15.аи е веб-апликација за вештачка интелигенција која е способна да генерира емотивни гласови од текст во говор со висока верност. Корисниците можат да избираат од различни гласови од SpongeBob SquarePants до HAL 9000 од 2001: A Space Odyssey.
Програмата е развиена од анонимен поранешен истражувач на МИТ кој работи под името 15. Инвеститорот изјави дека проектот првично бил замислен како дел од Програмата за можности за истражување на додипломски студии на универзитетот.
Многу од гласовите достапни во 15.ai се обучени на јавни збирки на податоци на ликови од Моето мало Пони: Пријателството е магија. Страствените обожаватели на серијата формираа заеднички напори за собирање, транскрипција и процесирање на повеќечасовен дијалог со цел да создадат точни генератори на текст во говор на нивните омилени ликови.
Што може да направи 15.ai?
Веб-апликацијата 15.ai работи со избирање на еден од десетиците измислени ликови за кои е обучен моделот и испраќање на влезен текст. Откако ќе кликнете на Генерирање, корисникот треба да добие три аудио клипови од измислениот лик кој ги зборува дадените линии.
Од длабоко учење Користениот модел е недетерминистички, 15.ai излегува малку поинаков говор секој пат. Слично на тоа како актерот може да бара повеќекратни преземања за да ја добие вистинската испорака, 15.ai генерира различни стилови на испорака секој пат додека корисникот не најде излез што му се допаѓа.
Проектот вклучува уникатна карактеристика која им овозможува на корисниците рачно да ги менуваат емоциите на генерираната линија користејќи емоционални контекстуализатори. Овие параметри се способни да го заклучат чувството на емотиконите што ги внесува корисникот користејќи MIT's DeepMoji модел.
Според инвеститорот, она што го издвојува 15.ai од другите слични TTS програми е тоа што моделот се потпира на многу малку податоци за прецизно да ги клонира гласовите додека „ги одржува емоциите и природноста непроменети“.
Како работи 15.ai?
Ајде да погледнеме во технологијата зад 15.ai.
Прво, главниот развивач на 15.ai вели дека програмата користи сопствен модел за да генерира гласови со различни состојби на емоции. Бидејќи авторот допрва треба да објави детален труд за проектот, можеме само да направиме широки претпоставки за тоа што се случува зад сцената.
Враќање на фонемите
Прво, да погледнеме како програмата го анализира влезниот текст. Пред да може програмата да генерира говор, таа мора да го претвори секој поединечен збор во соодветната збирка фонеми. На пример, зборот „куче“ е составен од три фонеми: /d/, /ɒ/ и /ɡ/.
Но, како 15.ai знае кои фонеми да ги користи за секој збор?
Според страницата За на 15.ai, програмата користи табела за пребарување на речник. Табелата ги користи Oxford Dictionaries API, Wiktionary и CMU Pronouncing Dictionary како извори. 15.ai користи други веб-локации како што се Reddit и Urban Dictionary како извори за новосоздадените термини и фрази.
Ако некој даден збор не постои во речникот, неговиот изговор се изведува со помош на фонолошки правила кои моделот ги научил од LibriTTS база на податоци. Оваа база на податоци е корпус – збирка на пишани или изговорени зборови на мајчин јазик или дијалект – од околу 585 часа луѓе кои зборуваат англиски.
Вградување на емоции
Според инвеститорот, моделот се обидува да ја погоди воочената емоција на влезниот текст. Моделот ја постигнува оваа задача преку DeepMoji анализа на чувства модел. Овој конкретен модел беше обучен на милијарди твитови со емотикони со цел да разбере како јазикот се користи за изразување емоции. Резултатот од моделот е вграден во моделот TTS за да се манипулира со излезот кон саканата емоција.
Откако ќе се извлечат фонемите и чувствата од влезниот текст, сега е време да се синтетизира говорот.
Гласовно клонирање и синтеза
Моделите за текст во говор како што е 15.ai се познати како модели со повеќе звучници. Овие модели се направени за да можат да научат како да зборуваат со различни гласови. Со цел правилно да го обучиме нашиот модел, мора да најдеме начин да ги извлечеме уникатните гласовни карактеристики и да го претставиме на начин што компјутерот може да го разбере. Овој процес е познат како вградување звучници.
Користат тековните модели на текст во говор нервните мрежи за да го креирате вистинскиот аудио излез. Невронската мрежа обично се состои од два главни дела: енкодер и декодер.
Кодерот се обидува да изгради единствен вектор за резиме врз основа на различни влезни вектори. Информациите за фонемите, емотивните аспекти и гласовните карактеристики се ставаат во енкодерот за да се создаде претстава за тоа каков треба да биде излезот. Декодерот потоа ја претвора оваа претстава во аудио и дава резултат на доверба.
Веб-апликацијата 15.ai потоа ги враќа првите три резултати со најдобар резултат за доверба.
Прашања
Со порастот на содржината генерирана од вештачка интелигенција како што се deepfakes, развојот на напредна вештачка интелигенција што може да имитира вистински луѓе може да биде сериозно етичко прашање.
Во моментов, гласовите што можете да ги изберете од веб-апликацијата 15.ai се сите измислени ликови. Сепак, тоа не ја спречи апликацијата да собере некои контроверзии на интернет.
Неколку гласовни актери се откажаа од употребата на технологијата за клонирање глас. Загриженоста од нив вклучува имитирање, употреба на нивниот глас во експлицитна содржина и можноста технологијата да ја застари улогата на гласовниот актер.
Друга контроверзност се случи претходно во 2022 година, кога беше откриено дека компанијата наречена Voiceverse NFT користи 15.ai за да генерира содржина за нивната маркетинг кампања.
Заклучок
Текст во говор веќе е доста распространета во секојдневниот живот. Гласовни асистенти, GPS навигатори. а автоматизираните телефонски повици веќе станаа вообичаени. Сепак, овие апликации се јасно доволно нечовечки за да можеме да кажеме дека се говор направен од машина.
Технологијата TTS со природен звук и емотивна може да ја отвори вратата за нови апликации. Сепак, етиката на гласовното клонирање во најдобар случај сè уште е сомнителна. Секако има смисла зошто многу од овие истражувачи не сакаат да го споделат алгоритмот со јавноста.
Оставете Одговор