Tartalomjegyzék[Elrejt][Előadás]
Szeretted volna már hallani, hogy kedvenc karaktered beszél veled? A természetes hangzású szövegfelolvasó lassan valósággá válik a gépi tanulás segítségével.
Például a Google NAT TTS modelljét használják az újjuk meghajtására Egyedi hang szolgáltatás. Ez a szolgáltatás neurális hálózatokat használ a felvételekből betanított hang létrehozásához. Webes alkalmazások, mint pl Uberduck több száz hang közül választhat, hogy létrehozza saját szintetizált szövegét.
Ebben a cikkben áttekintjük a lenyűgöző és ugyanolyan rejtélyes AI-modellt, amely 15.ai néven ismert. Egy névtelen fejlesztő készítette, ez lehet az egyik leghatékonyabb és legérzelmesebb szövegfelolvasó modellek eddig.
Mi az a 15.ai?
15.ai egy mesterséges intelligencia webalkalmazás, amely képes érzelmes, nagy hűségű szövegfelolvasó hangok generálására. A felhasználók többféle hang közül választhatnak a Spongebob Squarepants-tól a HAL 9000-ig 2001: A Space Odyssey.
A programot egy névtelen, egykori MIT-kutató dolgozta ki, aki 15 néven dolgozott. A fejlesztő kijelentette, hogy a projektet eredetileg az egyetem Egyetemi Kutatási Lehetőségek Programjának részeként tervezték.
A 15.ai-ban elérhető hangok közül sok a My Little Pony: A barátság varázslat című film szereplőinek nyilvános adathalmazain van kiképezve. A műsor lelkes rajongói közös erőfeszítéseket tettek több órányi párbeszéd összegyűjtésére, átírására és feldolgozására azzal a céllal, hogy kedvenc karaktereik pontos szövegfelolvasó generátorait hozzanak létre.
Mit tehet a 15.ai?
A 15.ai webalkalmazás úgy működik, hogy kiválaszt egyet a több tucat kitalált karakter közül, akikre a modellt betanították, és beküldi a bemeneti szöveget. A Generálás gombra kattintás után a felhasználónak három hangfelvételt kell kapnia az adott sorokat beszélő kitalált karakterről.
Mivel a mély tanulás A használt modell nem determinisztikus, a 15.ai minden alkalommal kissé eltérő beszédet ad ki. Hasonlóan ahhoz, ahogy egy színésznek több felvételre van szüksége a megfelelő megjelenítéshez, a 15.ai minden alkalommal különböző megjelenítési stílusokat generál, amíg a felhasználó meg nem találja a neki tetsző kimenetet.
A projekt tartalmaz egy egyedülálló funkciót, amely lehetővé teszi a felhasználók számára, hogy manuálisan módosítsák a generált vonal érzelmeit érzelmi kontextualizálók segítségével. Ezek a paraméterek képesek következtetni a felhasználó által bevitt hangulatjelek hangulatára az MIT segítségével DeepMoji modell.
A fejlesztő szerint az különbözteti meg a 15.ai-t a többi hasonló TTS-programtól, hogy a modell nagyon kevés adatra támaszkodik a hangok pontos klónozásához, miközben „sértetlenül megőrzi az érzelmeket és a természetességet”.
Hogyan működik a 15.ai?
Nézzük meg a 15.ai mögött meghúzódó technológiát.
Először is, a 15.ai fő fejlesztője azt mondja, hogy a program egyéni modellt használ a különböző érzelmi állapotú hangok generálására. Mivel a szerzőnek még nem publikált részletes cikket a projektről, csak általános feltételezéseket tudunk tenni a színfalak mögött zajló eseményekről.
Fonémák lekérése
Először nézzük meg, hogyan elemzi a program a bemeneti szöveget. Mielőtt a program beszédet generálhatna, minden egyes szót a megfelelő fonémagyűjteménybe kell alakítania. Például a „kutya” szó három fonémából áll: /d/, /ɒ/ és /ɡ/.
De honnan tudja a 15.ai, hogy melyik fonémát használja az egyes szavakhoz?
A 15.ai Névjegy oldala szerint a program egy szótári keresőtáblát használ. A táblázat az Oxford Dictionaries API-t, a Wikiszótárt és a CMU Pronouncing Dictionaryt használja forrásként. A 15.ai más webhelyeket, például a Reddit és az Urban Dictionary forrásait használja az újonnan kidolgozott kifejezésekhez és kifejezésekhez.
Ha egy adott szó nem létezik a szótárban, akkor a kiejtését a modell a szótárból tanult fonológiai szabályok segítségével állapítja meg. LibriTTS adatkészlet. Ez az adatkészlet nagyjából 585 órányi angolul beszélő ember korpuszja – anyanyelven vagy dialektusban írott vagy beszélt szavak adatkészlete.
Érzelmek beágyazása
A fejlesztő szerint a modell megpróbálja kitalálni a bemeneti szöveg érzékelt érzelmét. A modell ezt a feladatot a DeepMoji segítségével valósítja meg hangulat elemzés modell. Ezt a modellt több milliárd emojis tweetre képezték ki azzal a céllal, hogy megértsék, hogyan használják a nyelvet az érzelmek kifejezésére. A modell eredménye beágyazódik a TTS modellbe, hogy a kimenetet a kívánt érzelem felé manipulálja.
Miután a fonémákat és a hangulatot kinyertük a beviteli szövegből, itt az ideje a beszéd szintetizálásának.
Hang klónozás és szintézis
A szövegfelolvasó modellek, például a 15.ai többhangszórós modellekként ismertek. Ezek a modellek úgy készültek, hogy megtanuljanak különböző hangokon beszélni. Ahhoz, hogy modellünket megfelelően betaníthassuk, meg kell találnunk a módot az egyedi hangjellemzők kinyerésére és számítógép által érthető módon történő megjelenítésére. Ezt a folyamatot hangszóró beágyazásnak nevezik.
A jelenlegi szövegfelolvasó modellek használata neurális hálózatok a tényleges hangkimenet létrehozásához. A neurális hálózat jellemzően két fő részből áll: egy kódolóból és egy dekódolóból.
A kódoló megpróbál egyetlen összegző vektort felépíteni különböző bemeneti vektorok alapján. A fonémákra, érzelmi vonatkozásokra és hangjellemzőkre vonatkozó információk a kódolóba kerülnek, hogy megjelenítsék azt, hogy mi legyen a kimenet. A dekóder ezután ezt a reprezentációt hanggá alakítja, és megbízhatósági pontszámot ad ki.
A 15.ai webalkalmazás ezután az első három eredményt adja vissza a legjobb megbízhatósági pontszámmal.
Problémák
Az AI által generált tartalmak térnyerésével, mint pl deepfakes, a valódi embereket utánozni képes fejlett mesterséges intelligencia fejlesztése komoly etikai probléma lehet.
Jelenleg a 15.ai webalkalmazásból választható hangok mind kitalált karakterek. Ez azonban nem akadályozta meg az alkalmazást abban, hogy némi vitát generáljon az interneten.
Néhány szinkronszínész visszaszorította a hangklónozási technológia használatát. Aggodalmaik között szerepel a megszemélyesítés, a hangjuk használata explicit tartalmakban, valamint az a lehetőség, hogy a technológia elavulttá teheti a szinkronszínész szerepét.
Egy másik vita korábban 2022-ben alakult ki, amikor a Voiceverse NFT nevű cégről kiderült, hogy a 15.ai-t használja marketingkampányuk tartalmának előállításához.
Következtetés
A szövegfelolvasás már meglehetősen elterjedt a mindennapi életben. Hangasszisztensek, GPS-navigátorok. és az automatizált telefonálás már általánossá vált. Ezek az alkalmazások azonban kifejezetten nem emberiek ahhoz, hogy elmondhassuk, gépi beszédről van szó.
A természetes hangzású és érzelmes TTS technológia új alkalmazások előtt nyithatja meg az ajtót. A hangklónozás etikája azonban a legjobb esetben is megkérdőjelezhető. Minden bizonnyal logikus, hogy a kutatók közül sokan miért nem hajlandók megosztani a nyilvánossággal az algoritmust.
Hagy egy Válaszol