Chceli ste niekedy počuť, ako sa s vami rozpráva vaša obľúbená postava? Prirodzene znejúci prevod textu na reč sa s pomocou strojového učenia pomaly stáva realitou.
Napríklad model NAT TTS od spoločnosti Google sa používa na napájanie ich nového Vlastný hlas služby. Táto služba využíva neurónové siete na generovanie hlasu natrénovaného z nahrávok. Webové aplikácie ako napr Uberduck poskytujú stovky hlasov, z ktorých si môžete vybrať na vytvorenie vlastného syntetizovaného textu.
V tomto článku sa pozrieme na pôsobivý a rovnako záhadný model AI známy ako 15.ai. Vytvorené anonymným vývojárom, môže byť jedným z najefektívnejších a najemotívnejších modely prevodu textu na reč tak ďaleko.
Čo je 15.ai?
15.ai je webová aplikácia AI, ktorá je schopná generovať emotívne vysoko verné hlasy prevodu textu na reč. Používatelia si môžu vybrať z rôznych hlasov od Spongebob Squarepants po HAL 9000 z roku 2001: Vesmírna odysea.
Program vyvinul anonymný bývalý výskumník MIT pracujúci pod menom 15. Vývojár uviedol, že projekt bol pôvodne koncipovaný ako súčasť univerzitného programu vysokoškolských výskumných príležitostí.
Mnohé z hlasov dostupných v 15.ai sú trénované na verejných datasetoch postáv z My Little Pony: Friendship is Magic. Zanietení fanúšikovia seriálu vytvorili spoločné úsilie zhromaždiť, prepísať a spracovať hodiny dialógov s cieľom vytvoriť presné generátory prevodu textu na reč ich obľúbených postáv.
Čo dokáže 15.ai?
Webová aplikácia 15.ai funguje tak, že vyberie jednu z desiatok fiktívnych postáv, na ktorých bol model trénovaný, a odošle vstupný text. Po kliknutí na Generovať by mal používateľ dostať tri zvukové klipy fiktívnej postavy, ktorá hovorí dané riadky.
Vzhľadom k tomu, hlboké vzdelávanie použitý model je nedeterministický, 15.ai vydáva zakaždým trochu inú reč. Podobne ako to, ako môže herec vyžadovať viacnásobné odoberanie, aby získal správne doručenie, 15.ai generuje zakaždým rôzne štýly doručenia, kým používateľ nenájde výstup, ktorý sa mu páči.
Projekt obsahuje jedinečnú funkciu, ktorá umožňuje používateľom manuálne meniť emócie vygenerovanej línie pomocou emocionálnych kontextualizátorov. Tieto parametre sú schopné odvodiť sentiment emotikonov zadaných používateľom pomocou MIT DeepMoji model.
Podľa vývojára sa 15.ai odlišuje od iných podobných programov TTS tým, že model sa spolieha na veľmi málo údajov na presné klonovanie hlasov, pričom „zachová emócie a prirodzenosť nedotknuté“.
Ako funguje 15.ai?
Pozrime sa na technológiu za 15.ai.
Po prvé, hlavný vývojár 15.ai hovorí, že program používa vlastný model na generovanie hlasov s rôznymi stavmi emócií. Keďže autor ešte nepublikoval podrobný článok o projekte, môžeme robiť len všeobecné predpoklady o tom, čo sa deje v zákulisí.
Získavanie foném
Najprv sa pozrime, ako program analyzuje vstupný text. Predtým, ako môže program generovať reč, musí konvertovať každé jednotlivé slovo do príslušnej zbierky foném. Napríklad slovo „pes“ sa skladá z troch foném: /d/, /ɒ/ a /ɡ/.
Ale ako 15.ai vie, ktoré fonémy použiť pre každé slovo?
Podľa stránky O 15.ai program používa slovníkovú vyhľadávaciu tabuľku. Tabuľka používa ako zdroje Oxford Dictionaries API, Wikislovník a CMU Pronouncing Dictionary. 15.ai používa iné webové stránky, ako napríklad Reddit a Urban Dictionary, ako zdroje pre novovytvorené výrazy a frázy.
Ak nejaké dané slovo v slovníku neexistuje, jeho výslovnosť sa odvodí pomocou fonologických pravidiel, ktoré sa model naučil zo LibriTTS súbor údajov. Tento súbor údajov je korpus – súbor údajov písaných alebo hovorených slov v rodnom jazyku alebo dialekte – približne 585 hodín ľudí hovoriacich anglicky.
Vkladanie emócií
Podľa vývojára sa model snaží uhádnuť vnímanú emóciu vstupného textu. Model plní túto úlohu prostredníctvom DeepMoji analýza sentimentu Model. Tento konkrétny model bol trénovaný na miliardách tweetov s emojis s cieľom pochopiť, ako sa jazyk používa na vyjadrenie emócií. Výsledok modelu je vložený do modelu TTS, aby sa výstup upravil smerom k požadovanej emócii.
Akonáhle boli fonémy a sentiment extrahované zo vstupného textu, je teraz čas syntetizovať reč.
Klonovanie a syntéza hlasu
Modely prevodu textu na reč, ako napríklad 15.ai, sú známe ako modely s viacerými reproduktormi. Tieto modely sú vytvorené tak, aby sa naučili hovoriť rôznymi hlasmi. Aby sme správne trénovali náš model, musíme nájsť spôsob, ako extrahovať jedinečné hlasové funkcie a reprezentovať ich spôsobom, ktorému počítač rozumie. Tento proces je známy ako vkladanie reproduktorov.
Používajú sa súčasné modely prevodu textu na reč neurálne siete na vytvorenie skutočného zvukového výstupu. Neurónová sieť sa zvyčajne skladá z dvoch hlavných častí: kodéra a dekodéra.
Kódovač sa snaží vytvoriť jeden súhrnný vektor založený na rôznych vstupných vektoroch. Informácie o fonémach, emotívnych aspektoch a hlasových vlastnostiach sú umiestnené do kodéra, aby sa vytvorila reprezentácia toho, aký by mal byť výstup. Dekodér potom prevedie túto reprezentáciu na zvuk a vydá skóre spoľahlivosti.
Webová aplikácia 15.ai potom vráti tri najlepšie výsledky s najlepším skóre spoľahlivosti.
Problémy
S rozmachom obsahu generovaného AI ako napr deepfakes, vývoj pokročilej AI, ktorá dokáže napodobňovať skutočných ľudí, môže byť vážnym etickým problémom.
V súčasnosti sú všetky hlasy, ktoré si môžete vybrať z webovej aplikácie 15.ai, fiktívne postavy. To však nezabránilo aplikácii v tom, aby vyvolala určité kontroverzie online.
Niekoľko hlasových hercov zatlačilo späť na používanie technológie klonovania hlasu. Obavy z nich zahŕňajú odcudzenie identity, použitie ich hlasu v explicitnom obsahu a možnosť, že technológia môže spôsobiť, že rola hlasového herca bude zastaraná.
K ďalšej kontroverzii došlo začiatkom roku 2022, keď sa zistilo, že spoločnosť s názvom Voiceverse NFT používa 15.ai na generovanie obsahu pre svoju marketingovú kampaň.
záver
Prevod textu na reč je už pomerne rozšírený v každodennom živote. Hlasoví asistenti, GPS navigácie. a automatizované telefónne hovory sa už stali samozrejmosťou. Tieto aplikácie však nie sú dostatočne ľudské, takže môžeme povedať, že ide o strojovo vytvorenú reč.
Prirodzene znejúca a emotívna technológia TTS môže otvoriť dvere novým aplikáciám. Etika klonovania hlasu je však prinajlepšom stále otázna. Určite dáva zmysel, prečo sa mnohí z týchto výskumníkov zdráhajú zdieľať tento algoritmus s verejnosťou.
Nechaj odpoveď