15.ai – loomulik ja emotsionaalne tekst kõneks, kasutades närvivõrke

Sisukord[Peida][Näita]

Mis on 15.ai?+-
- Mida saab 15.ai teha?
Kuidas 15.ai töötab?+-
Küsimused
Järeldus

Kas olete kunagi tahtnud kuulda oma lemmiktegelast teiega rääkimas? Loomuliku kõlaga tekst kõneks on masinõppe abil aeglaselt reaalsuseks saamas.

Näiteks Google'i NAT TTS-i mudelit kasutatakse nende uue toiteks Kohandatud hääl teenus. See teenus kasutab salvestustest treenitud hääle genereerimiseks närvivõrke. Veebirakendused nagu Uberduck pakkuda sadu hääli, mille hulgast saate valida oma sünteesitud teksti loomiseks.

Selles artiklis vaatleme muljetavaldavat ja sama mõistatuslikku tehisintellekti mudelit, mida tuntakse 15.ai nime all. Anonüümse arendaja loodud see võib olla üks tõhusamaid ja emotsionaalsemaid teksti kõneks muutmise mudelid siiani.

Mis on 15.ai?

15.ai on tehisintellekti veebirakendus, mis on võimeline genereerima emotsionaalseid kõrge täpsusega teksti kõneks muutmise hääli. Kasutajad saavad valida erinevate häälte hulgast, alates Spongebob Squarepantsist kuni HAL 9000ni 2001: Kosmoseodüsseia.

Programmi töötas välja anonüümne endine MIT-i teadlane, kes töötas nime all 15. Arendaja on väitnud, et projekt loodi algselt ülikooli bakalaureuseõppe uurimisvõimaluste programmi osana.

Paljud saidil 15.ai saadaolevad hääled on koolitatud My Little Pony: Friendship is Magic tegelaste avalike andmekogumite põhjal. Saate innukad fännid on teinud ühiseid jõupingutusi tundidepikkuse dialoogi kogumiseks, transkribeerimiseks ja töötlemiseks eesmärgiga luua oma lemmiktegelaste täpsed tekstist kõneks generaatorid.

Mida saab 15.ai teha?

Veebirakendus 15.ai valib kümnete väljamõeldud tegelaskujude hulgast ühe, mille kohta modell on koolitatud, ja esitab sisendteksti. Pärast nupul Genereeri klõpsamist peaks kasutaja saama kolm heliklippi väljamõeldud tegelasest, kes kõneleb antud ridu.

15.ai peamine veebirakendus

Kuna sügav õpe kasutatav mudel on mittedeterministlik, 15.ai väljastab iga kord veidi erineva kõne. Sarnaselt sellele, kuidas näitleja võib õige edastuse saamiseks vajada mitut võtet, genereerib 15.ai iga kord erinevaid edastamisstiile, kuni kasutaja leiab talle meeldiva väljundi.

Projekt sisaldab ainulaadset funktsiooni, mis võimaldab kasutajatel emotsionaalsete kontekstualiseerijate abil loodud rea emotsioone käsitsi muuta. Need parameetrid suudavad MIT-i abil tuletada kasutaja sisestatud emotikonide tundeid DeepMoji mudel.

Arendaja sõnul eristab 15.ai teistest sarnastest TTS-programmidest see, et mudel tugineb häälte täpseks kloonimiseks väga vähestele andmetele, säilitades samal ajal emotsioonid ja loomulikkuse.

Kuidas 15.ai töötab?

Vaatame 15.ai taga olevat tehnoloogiat.

Esiteks ütleb 15.ai peamine arendaja, et programm kasutab kohandatud mudelit erinevate emotsiooniseisunditega häälte genereerimiseks. Kuna autor ei ole veel avaldanud projekti kohta üksikasjalikku artiklit, saame teha vaid laiaulatuslikke oletusi kulisside taga toimuva kohta.

Foneemide otsimine

Kõigepealt vaatame, kuidas programm sisendteksti parsib. Enne kui programm saab kõne luua, peab see iga üksiku sõna teisendama vastavaks foneemide kogumiks. Näiteks sõna "koer" koosneb kolmest foneemist: /d/, /ɒ/ ja /ɡ/.

Aga kuidas 15.ai teab, milliseid foneeme iga sõna jaoks kasutada?

Vastavalt 15.ai lehele Teave kasutab programm sõnastiku otsingutabelit. Tabel kasutab allikatena Oxford Dictionaries API-t, Vikisõnastikku ja CMU Pronouncing Dictionaryt. 15.ai kasutab äsja loodud terminite ja fraaside allikatena teisi veebisaite, nagu Reddit ja Urban Dictionary.

Kui mõnda antud sõna sõnastikus ei ole, tuletatakse selle hääldus fonoloogiliste reeglite abil, mille mudel on õppinud LibriTTS andmestik. See andmestik on korpus – emakeeles või murretes kirjutatud või kõneldud sõnade andmekogum, mis koosneb ligikaudu 585 tundi inglise keelt kõnelevatest inimestest.

Emotsioonide kinnistamine

15.ai mudel võtab tekstist välja tajutud emotsiooni

Arendaja sõnul püüab mudel aimata sisendteksti tajutavat emotsiooni. Mudel täidab seda ülesannet DeepMoji kaudu sentiment analüüs mudel. Seda konkreetset mudelit treeniti miljardite emotikonidega säutsude jaoks, eesmärgiga mõista, kuidas keelt emotsioonide väljendamiseks kasutatakse. Mudeli tulemus on manustatud TTS-mudelisse, et manipuleerida väljundit soovitud emotsiooni suunas.

Kui foneemid ja sentiment on sisendtekstist eraldatud, on nüüd aeg kõne sünteesida.

Hääle kloonimine ja süntees

Kõnesünteesi mudelid, nagu 15.ai, on tuntud kui mitme kõlariga mudelid. Need mudelid on loodud erinevate häältega rääkimise õppimiseks. Oma mudeli õigeks koolitamiseks peame leidma viisi unikaalsete häälefunktsioonide eraldamiseks ja esitamiseks arvutile arusaadaval viisil. Seda protsessi nimetatakse kõlarite manustamiseks.

Praegu kasutatavad kõneks muutmise mudelid närvivõrgud tegeliku heliväljundi loomiseks. Närvivõrk koosneb tavaliselt kahest põhiosast: kodeerijast ja dekoodrist.

mitme kõlari süsteemi näidis

Kodeerija püüab erinevatel sisendvektoritel põhineda ühe kokkuvõtliku vektori. Teave foneemide, emotsionaalsete aspektide ja häälefunktsioonide kohta paigutatakse kodeerijasse, et luua esitus sellest, milline väljund peaks olema. Seejärel teisendab dekooder selle esituse heliks ja väljastab usaldusskoori.

Seejärel tagastab veebirakendus 15.ai parima usaldusskooriga kolm parimat tulemust.

heliväljundid ja nende vastavad usaldusskoorid

Küsimused

Seoses tehisintellekti loodud sisu, nagu näiteks deepfakesTõsine eetiline probleem võib olla täiustatud tehisintellekti arendamine, mis suudab jäljendada päris inimesi.

Praegu on hääled, mida saate veebirakenduse 15.ai hulgast valida, kõik väljamõeldud tegelased. See aga ei takistanud rakendusel võrgus poleemikat tekitamast.

Mõned häälnäitlejad on hääle kloonimise tehnoloogia kasutamist tagasi lükanud. Nende mured hõlmavad kellegi teisena esinemist, nende hääle kasutamist selgesõnalises sisus ja võimalust, et tehnoloogia võib muuta häälnäitleja rolli aegunuks.

Veel üks vaidlus tekkis 2022. aasta alguses, kui avastati, et ettevõte nimega Voiceverse NFT kasutab oma turunduskampaania jaoks sisu loomiseks 15.ai-d.

Järeldus

Tekst kõneks on igapäevaelus juba üsna levinud. Hääleabilised, GPS-navigaatorid. ja automaatsed telefonikõned on juba tavapäraseks muutunud. Need rakendused on aga selgelt piisavalt mitteinimlikud, et saaksime öelda, et need on masintehtud kõne.

Loomulik ja emotsionaalne TTS-tehnoloogia võib avada ukse uutele rakendustele. Häälkloonimise eetika on siiski parimal juhul küsitav. Kindlasti on loogiline, miks paljud neist teadlastest ei ole tahtnud seda algoritmi avalikkusega jagada.

15.ai – loomulik ja emotsionaalne tekst kõneks muutmine närvivõrke kasutades