Chtěli jste někdy slyšet svou oblíbenou postavu, aby k vám mluvila? Přirozeně znějící převod textu na řeč se s pomocí strojového učení pomalu stává realitou.
Například model NAT TTS společnosti Google se používá k napájení jejich nového Vlastní hlas servis. Tato služba využívá neuronové sítě ke generování hlasu natrénovaného z nahrávek. Webové aplikace jako např Uberduck poskytují stovky hlasů, ze kterých si můžete vybrat a vytvořit si vlastní syntetizovaný text.
V tomto článku se podíváme na působivý a stejně záhadný model umělé inteligence známý jako 15.ai. Vytvořeno anonymním vývojářem, může být jedním z nejúčinnějších a nejemotivnějších modely převodu textu na řeč tak daleko.
Co je 15.ai?
15.ai je webová aplikace AI, která je schopna generovat emotivní vysoce věrné hlasy převodu textu na řeč. Uživatelé si mohou vybrat z různých hlasů od Spongebob Squarepants po HAL 9000 z roku 2001: Vesmírná odysea.
Program byl vyvinut anonymním bývalým výzkumníkem MIT pracujícím pod jménem 15. Vývojář uvedl, že projekt byl původně koncipován jako součást univerzitního programu vysokoškolských výzkumných příležitostí.
Mnoho hlasů dostupných v 15.ai je trénováno na veřejných datasetech postav z My Little Pony: Friendship is Magic. Zapálení fanoušci seriálu vytvořili společné úsilí shromáždit, přepsat a zpracovat hodiny dialogů s cílem vytvořit přesné generátory převodu textu na řeč jejich oblíbených postav.
Co umí 15.ai?
Webová aplikace 15.ai funguje tak, že vybere jednu z desítek fiktivních postav, na kterých byl model trénován, a odešle vstupní text. Po kliknutí na Generate by měl uživatel obdržet tři zvukové klipy fiktivní postavy hovořící danými řádky.
Vzhledem k tomu, hluboké učení použitý model je nedeterministický, 15.ai vydává pokaždé trochu jinou řeč. Podobně jako může herec vyžadovat více záběrů, aby dosáhl správného podání, 15.ai pokaždé generuje různé styly podání, dokud uživatel nenajde výstup, který se mu líbí.
Projekt obsahuje unikátní funkci, která uživatelům umožňuje ručně měnit emoce generované linie pomocí emočních kontextových nástrojů. Tyto parametry jsou schopny odvodit sentiment emotikonů zadaných uživatelem pomocí MIT DeepMoji model.
Podle vývojáře se 15.ai odlišuje od jiných podobných programů TTS v tom, že model spoléhá na velmi málo dat k přesnému klonování hlasů, přičemž „zachovává emoce a přirozenost nedotčené“.
Jak funguje 15.ai?
Podívejme se na technologii za 15.ai.
Za prvé, hlavní vývojář 15.ai říká, že program používá vlastní model ke generování hlasů s různými stavy emocí. Vzhledem k tomu, že autor dosud nezveřejnil podrobný článek o projektu, můžeme pouze široce předpokládat, co se děje v zákulisí.
Načítání fonémů
Nejprve se podívejme, jak program analyzuje vstupní text. Než může program generovat řeč, musí převést každé jednotlivé slovo do příslušné sbírky fonémů. Například slovo „pes“ se skládá ze tří fonémů: /d/, /ɒ/ a /ɡ/.
Ale jak 15.ai ví, které fonémy použít pro každé slovo?
Podle stránky O 15.ai používá program vyhledávací tabulku slovníku. Tabulka používá jako zdroje Oxford Dictionaries API, Wikislovník a CMU Pronouncing Dictionary. 15.ai používá další webové stránky, jako je Reddit a Urban Dictionary, jako zdroje pro nově vytvořené termíny a fráze.
Pokud nějaké dané slovo ve slovníku neexistuje, jeho výslovnost se odvodí pomocí fonologických pravidel, která se model naučil ze slovníku. LibriTTS datový soubor. Tato datová sada je korpus – datová sada psaných nebo mluvených slov v rodném jazyce nebo dialektu – zhruba 585 hodin lidí mluvících anglicky.
Vkládání emocí
Podle vývojáře se model snaží uhodnout vnímanou emoci vstupního textu. Model plní tento úkol prostřednictvím DeepMoji analýza sentimentu Modelka. Tento konkrétní model byl trénován na miliardách tweetů s emotikony s cílem pochopit, jak se jazyk používá k vyjádření emocí. Výsledek modelu je vložen do modelu TTS, aby manipuloval výstup směrem k požadované emoci.
Jakmile byly ze vstupního textu vyjmuty fonémy a sentiment, je nyní čas syntetizovat řeč.
Klonování a syntéza hlasu
Modely převodu textu na řeč, jako je 15.ai, jsou známé jako modely s více reproduktory. Tyto modely jsou vytvořeny tak, aby se dokázaly naučit mluvit různými hlasy. Abychom mohli správně trénovat náš model, musíme najít způsob, jak extrahovat jedinečné hlasové funkce a reprezentovat je způsobem, kterému počítač rozumí. Tento proces je známý jako vkládání reproduktorů.
Používají se současné modely převodu textu na řeč neuronové sítě pro vytvoření skutečného zvukového výstupu. Neuronová síť se obvykle skládá ze dvou hlavních částí: kodéru a dekodéru.
Kodér se snaží vytvořit jeden souhrnný vektor založený na různých vstupních vektorech. Informace o fonémech, emotivních aspektech a hlasových vlastnostech jsou umístěny do kodéru, aby se vytvořila reprezentace toho, jaký by měl být výstup. Dekodér pak tuto reprezentaci převede na zvuk a vydá skóre spolehlivosti.
Webová aplikace 15.ai pak vrátí tři nejlepší výsledky s nejlepším skóre spolehlivosti.
Problémy
S nárůstem obsahu generovaného AI jako např hluboké zápasy, vývoj pokročilé umělé inteligence, která dokáže napodobit skutečné lidi, může být vážným etickým problémem.
V současné době jsou všechny hlasy, které si můžete vybrat z webové aplikace 15.ai, smyšlené postavy. To však aplikaci nezabránilo v tom, aby na internetu vyvolala určité kontroverze.
Několik hlasových herců zatlačilo zpět na používání technologie klonování hlasu. Obavy z nich zahrnují předstírání identity, použití jejich hlasu v explicitním obsahu a možnost, že by díky technologii mohla být role hlasového herce zastaralá.
K další kontroverzi došlo dříve v roce 2022, kdy bylo zjištěno, že společnost s názvem Voiceverse NFT používá 15.ai k vytváření obsahu pro svou marketingovou kampaň.
Proč investovat do čističky vzduchu?
Převod textu na řeč je již poměrně rozšířený v každodenním životě. Hlasoví asistenti, GPS navigace. a automatizované telefonní hovory se již staly běžnou záležitostí. Tyto aplikace jsou však dostatečně nehumánní, takže můžeme říci, že jde o strojově vytvořenou řeč.
Přirozeně znějící a emotivní technologie TTS může otevřít dveře novým aplikacím. Etika klonování hlasu je však stále přinejlepším sporná. Určitě dává smysl, proč se mnoho těchto výzkumníků zdráhalo sdílet tento algoritmus s veřejností.
Napsat komentář