Sisällysluettelo[Piilottaa][Näytä]
Oletko koskaan halunnut kuulla suosikkihahmosi puhuvan sinulle? Luonnolliselta kuulostavasta tekstistä puheeksi on tulossa hitaasti todellisuutta koneoppimisen avulla.
Esimerkiksi Googlen NAT TTS -mallia käytetään uuden voimanlähteenä Mukautettu ääni palvelua. Tämä palvelu käyttää hermoverkkoja tallennuksista koulutetun äänen luomiseen. Verkkosovellukset, kuten Uberduck tarjoavat satoja ääniä, joista voit valita oman syntetisoidun tekstin luomiseksi.
Tässä artikkelissa tarkastellaan vaikuttavaa ja yhtä arvoituksellista tekoälymallia, joka tunnetaan nimellä 15.ai. Anonyymin kehittäjän luoma se saattaa olla yksi tehokkaimmista ja tunteita herättävistä tekstistä puheeksi -mallit tähän mennessä.
Mikä on 15.ai?
15.ai on AI-verkkosovellus, joka pystyy tuottamaan tunteita herättäviä korkealaatuisia tekstistä puheeksi -ääniä. Käyttäjät voivat valita useista eri äänistä Spongebob Squarepantsista HAL 9000:een vuodesta 2001: A Space Odyssey.
Ohjelman on kehittänyt anonyymi entinen MIT-tutkija, joka työskentelee nimellä 15. Kehittäjä on todennut, että hanke suunniteltiin alun perin osaksi yliopiston perustutkinto-opintoihin liittyvää tutkimusmahdollisuuksien ohjelmaa.
Monet 15.ai:ssa saatavilla olevista äänistä on koulutettu My Little Pony: Friendship is Magic -elokuvan hahmojen julkisiin tietosarjoihin. Ohjelman innokkaat fanit ovat tehneet yhteistyötä kerätäkseen, litteroidakseen ja prosessoidakseen tuntikausia keskustelua tavoitteenaan luoda tarkkoja tekstistä puheeksi generaattoreita suosikkihahmoistaan.
Mitä 15.ai voi tehdä?
15.ai-verkkosovellus toimii valitsemalla yhden kymmenistä kuvitteellisista hahmoista, joihin malli on koulutettu, ja lähettämällä syöttötekstiä. Napsautettuaan Luo, käyttäjän pitäisi saada kolme äänileikettä kuvitteellisesta hahmosta, joka puhuu annetut rivit.
Koska syvä oppiminen Käytetty malli on epädeterministinen, 15.ai tuottaa joka kerta hieman erilaisen puheen. Samalla tavalla kuin näyttelijä saattaa vaatia useita otoksia oikean toimituksen saamiseksi, 15.ai luo erilaisia toimitustyylejä joka kerta, kunnes käyttäjä löytää haluamansa tuotoksen.
Projekti sisältää ainutlaatuisen ominaisuuden, jonka avulla käyttäjät voivat manuaalisesti muuttaa luodun rivin tunteita käyttämällä emotionaalisia kontekstualisoijia. Nämä parametrit pystyvät päättelemään käyttäjän syöttämien emojien tunteen MIT:n avulla DeepMoji malli.
Kehittäjän mukaan se, mikä erottaa 15.ai:n muista vastaavista TTS-ohjelmista, on se, että malli luottaa hyvin vähän dataan äänten tarkkaan kloonaamiseen pitäen samalla tunteet ja luonnollisuus ennallaan.
Miten 15.ai toimii?
Katsotaanpa 15.ai:n taustalla olevaa tekniikkaa.
Ensinnäkin 15.ai:n pääkehittäjä sanoo, että ohjelma käyttää mukautettua mallia äänien luomiseen vaihtelevilla tunnetiloilla. Koska kirjoittaja ei ole vielä julkaissut yksityiskohtaista paperia projektista, voimme tehdä vain laajoja oletuksia siitä, mitä kulissien takana tapahtuu.
Foneemien hakeminen
Katsotaanpa ensin, kuinka ohjelma jäsentää syötetyn tekstin. Ennen kuin ohjelma voi luoda puhetta, sen on muutettava jokainen yksittäinen sana vastaavaksi foneemien kokoelmaksi. Esimerkiksi sana "koira" koostuu kolmesta foneemista: /d/, /ɒ/ ja /ɡ/.
Mutta mistä 15.ai tietää, mitä foneemeja tulee käyttää jokaisessa sanassa?
15.ai:n Tietoja-sivun mukaan ohjelma käyttää sanakirjan hakutaulukkoa. Taulukko käyttää lähteinä Oxford Dictionaries API:ta, Wikisanakirjaa ja CMU Pronouncing Dictionary -sanakirjaa. 15.ai käyttää muita verkkosivustoja, kuten Reddit ja Urban Dictionary, uusien termien ja ilmausten lähteinä.
Jos jotakin sanaa ei ole sanakirjassa, sen ääntäminen päätellään käyttämällä fonologisia sääntöjä, jotka malli on oppinut sanakirjasta. LibriTTS tietojoukko. Tämä tietojoukko on aineisto, joka sisältää kirjoitettuja tai puhuttuja sanoja äidinkielellä tai murteella, joka sisältää noin 585 tuntia englantia puhuvia ihmisiä.
Tunteiden upottaminen
Kehittäjän mukaan malli yrittää arvata syötetyn tekstin kokeman tunteen. Malli suorittaa tämän tehtävän DeepMojin kautta tunteiden analyysi malli. Tämä malli on koulutettu miljardeihin emoji-tviitteihin tavoitteenaan ymmärtää, kuinka kieltä käytetään tunteiden ilmaisemiseen. Mallin tulos upotetaan TTS-malliin tulosteen manipuloimiseksi kohti haluttua tunnetta.
Kun foneemit ja tunteet on poimittu syöttötekstistä, on nyt aika syntetisoida puhe.
Äänen kloonaus ja synteesi
Tekstistä puheeksi -mallit, kuten 15.ai, tunnetaan monikaiutinmalleina. Nämä mallit on rakennettu siten, että ne voivat oppia puhumaan eri äänillä. Jotta voimme kouluttaa malliamme kunnolla, meidän on löydettävä tapa poimia ainutlaatuiset ääniominaisuudet ja esittää se tavalla, jonka tietokone voi ymmärtää. Tätä prosessia kutsutaan kaiuttimien upottamiseksi.
Nykyiset tekstistä puheeksi -mallit käytössä hermoverkkoihin luodaksesi todellisen äänilähdön. Neuraaliverkko koostuu tyypillisesti kahdesta pääosasta: kooderista ja dekooderista.
Kooderi yrittää rakentaa yhden yhteenvetovektorin useiden tulovektoreiden perusteella. Tietoa foneemista, tunne-näkökohdista ja ääniominaisuuksista sijoitetaan kooderiin, jotta voidaan luoda esitys siitä, mitä lähdön tulisi olla. Sitten dekooderi muuntaa tämän esityksen ääneksi ja tulostaa luottamuspisteen.
15.ai-verkkosovellus palauttaa sitten kolme parasta tulosta parhaalla luottamuspisteellä.
Kysymykset
Tekoälyn luoman sisällön, kuten esim deepfakes, kehittyneen tekoälyn kehittäminen, joka voi jäljitellä oikeita ihmisiä, voi olla vakava eettinen ongelma.
Tällä hetkellä äänet, jotka voit valita 15.ai-verkkosovelluksesta, ovat kaikki kuvitteellisia hahmoja. Se ei kuitenkaan estänyt sovellusta keräämästä kiistaa verkossa.
Muutamat ääninäyttelijät ovat hylänneet äänen kloonaustekniikan käytön. Heitä aiheuttavat huolenaiheet muun muassa toisena henkilönä esiintyminen, heidän äänensä käyttö eksplisiittisessä sisällössä ja mahdollisuus, että tekniikka saattaa tehdä ääninäyttelijän roolin vanhentuneeksi.
Toinen kiista tapahtui aiemmin vuonna 2022, kun Voiceverse NFT -niminen yritys havaittiin käyttävän 15.ai:ta sisällön tuottamiseen markkinointikampanjaansa.
Yhteenveto
Tekstistä puheeksi -tekniikka on jo melko yleistä jokapäiväisessä elämässä. Ääniavustajat, GPS-navigaattorit. ja automaattisista puheluista on tullut jo arkipäivää. Nämä sovellukset ovat kuitenkin selvästi tarpeeksi ei-inhimillisiä, jotta voimme sanoa, että ne ovat koneellisesti valmistettua puhetta.
Luonnollisen kuuloinen ja tunteita herättävä TTS-tekniikka saattaa avata oven uusille sovelluksille. Äänen kloonauksen etiikka on kuitenkin parhaimmillaankin kyseenalainen. On varmasti järkevää, miksi monet näistä tutkijoista ovat olleet haluttomia jakamaan algoritmia yleisön kanssa.
Jätä vastaus