Indholdsfortegnelse[Skjule][At vise]
Har du nogensinde ønsket at høre din yndlingsfigur tale til dig? Naturligt klingende tekst-til-tale bliver langsomt en realitet ved hjælp af maskinlæring.
For eksempel bliver Googles NAT TTS-model brugt til at drive deres nye Brugerdefineret stemme service. Denne tjeneste bruger neurale netværk til at generere en stemme, der er trænet fra optagelser. Web-apps som f.eks Uberduck give hundredvis af stemmer, som du kan vælge imellem for at skabe din egen syntetiserede tekst.
I denne artikel vil vi se på den imponerende og lige så gådefulde AI-model kendt som 15.ai. Skabt af en anonym udvikler, kan det være en af de mest effektive og følelsesladede tekst-til-tale modeller hidtil.
Hvad er 15.ai?
15.ai er en AI-webapplikation, der er i stand til at generere følelsesladede high-fidelity tekst-til-tale-stemmer. Brugere kan vælge mellem en række forskellige stemmer fra SpongeBob Firkant til HAL 9000 fra 2001: A Space Odyssey.
Programmet er udviklet af en anonym tidligere MIT-forsker, der arbejder under navnet 15. Udvikleren har udtalt, at projektet oprindeligt blev udtænkt som en del af universitetets Undergraduate Research Opportunities Program.
Mange af stemmerne, der er tilgængelige i 15.ai, er trænet på offentlige datasæt af karakterer fra My Little Pony: Friendship is Magic. Ivrige fans af showet har dannet et samarbejde om at indsamle, transskribere og behandle timers dialog med det mål at skabe nøjagtige tekst-til-tale-generatorer af deres yndlingsfigurer.
Hvad kan 15.ai?
15.ai-webapplikationen fungerer ved at vælge en af snesevis af fiktive karakterer, som modellen er blevet trænet i, og indsende inputtekst. Efter at have klikket på Generer, skal brugeren modtage tre lydklip af den fiktive karakter, der taler de givne linjer.
Eftersom dyb læring Den anvendte model er ikke-deterministisk, 15.ai udsender en lidt anderledes tale hver gang. I lighed med hvordan en skuespiller kan kræve flere opgaver for at få den rigtige levering, genererer 15.ai forskellige leveringsstile hver gang, indtil brugeren finder et output, de kan lide.
Projektet indeholder en unik funktion, der giver brugerne mulighed for manuelt at ændre følelserne i den genererede linje ved hjælp af følelsesmæssige kontekstualiserere. Disse parametre er i stand til at udlede følelsen af brugerinputtemojis ved hjælp af MIT'er DeepMoji model.
Ifølge udvikleren er det, der adskiller 15.ai fra andre lignende TTS-programmer, at modellen er afhængig af meget lidt data til nøjagtigt at klone stemmer, mens den "bevarer følelser og naturlighed intakt".
Hvordan virker 15.ai?
Lad os se på teknologien bag 15.ai.
For det første siger hovedudvikleren af 15.ai, at programmet bruger en tilpasset model til at generere stemmer med varierende følelsestilstande. Da forfatteren endnu ikke har udgivet et detaljeret papir om projektet, kan vi kun gøre brede antagelser om, hvad der sker bag kulisserne.
Hentning af fonemer
Lad os først se på, hvordan programmet analyserer inputteksten. Før programmet kan generere tale, skal det konvertere hvert enkelt ord til dets respektive samling af fonemer. For eksempel er ordet "hund" sammensat af tre fonemer: /d/, /ɒ/ og /ɡ/.
Men hvordan ved 15.ai, hvilke fonemer der skal bruges til hvert ord?
Ifølge 15.ai's About-side bruger programmet en ordbogsopslagstabel. Tabellen bruger Oxford Dictionaries API, Wiktionary og CMU Pronouncing Dictionary som kilder. 15.ai bruger andre websteder såsom Reddit og Urban Dictionary som kilder til nyopfundne termer og sætninger.
Hvis et givet ord ikke findes i ordbogen, udledes dets udtale ved hjælp af fonologiske regler, som modellen har lært af LibriTTS datasæt. Dette datasæt er et korpus – et datasæt af skrevne eller talte ord på et modersmål eller dialekt – på omkring 585 timer af mennesker, der taler engelsk.
Indlejring af følelser
Ifølge udvikleren forsøger modellen at gætte den opfattede følelse af inputteksten. Modellen udfører denne opgave gennem DeepMoji følelser analyse model. Denne særlige model blev trænet på milliarder af tweets med emojis med det formål at forstå, hvordan sprog bruges til at udtrykke følelser. Resultatet af modellen er indlejret i TTS-modellen for at manipulere outputtet mod den ønskede følelse.
Når fonemer og følelser er blevet udtrukket fra inputteksten, er det nu tid til at syntetisere tale.
Stemmekloning og -syntese
Tekst-til-tale-modeller såsom 15.ai er kendt som multi-speaker-modeller. Disse modeller er bygget til at kunne lære at tale med forskellige stemmer. For at kunne træne vores model ordentligt, skal vi finde en måde at udtrække de unikke stemmefunktioner og repræsentere det på en måde, som en computer kan forstå. Denne proces er kendt som højttalerindlejring.
Nuværende tekst-til-tale-modeller bruger neurale netværk for at skabe det faktiske lydoutput. Det neurale netværk består typisk af to hoveddele: en koder og en dekoder.
Indkoderen forsøger at bygge en enkelt oversigtsvektor baseret på forskellige inputvektorer. Information om fonemer, emotionelle aspekter og stemmefunktioner placeres i indkoderen for at skabe en repræsentation af, hvad outputtet skal være. Dekoderen konverterer derefter denne repræsentation til lyd og udsender en konfidensscore.
Webapplikationen 15.ai returnerer derefter de tre bedste resultater med den bedste konfidensscore.
Issues
Med fremkomsten af AI-genereret indhold som f.eks deepfakes, at udvikle avanceret kunstig intelligens, der kan efterligne rigtige mennesker, kan være et alvorligt etisk problem.
I øjeblikket er de stemmer, du kan vælge fra webapplikationen 15.ai, alle fiktive karakterer. Det forhindrede dog ikke appen i at få nogle kontroverser online.
Nogle få stemmeskuespillere har skubbet tilbage på brugen af stemmekloningsteknologi. Bekymringer fra dem omfatter efterligning, brugen af deres stemme i eksplicit indhold og muligheden for, at teknologien kan gøre stemmeskuespillerens rolle forældet.
En anden kontrovers opstod tidligere i 2022, da en virksomhed kaldet Voiceverse NFT blev opdaget at bruge 15.ai til at generere indhold til deres marketingkampagne.
Konklusion
Tekst-til-tale er allerede ret udbredt i dagligdagen. Stemmeassistenter, GPS-navigatorer. og automatiske telefonopkald er allerede blevet almindeligt. Disse applikationer er dog tydeligt ikke-menneskelige nok til, at vi kan se, at de er maskinfremstillet tale.
Naturlig klingende og følelsesladet TTS-teknologi kan åbne døren for nye applikationer. Etikken omkring stemmekloning er dog i bedste fald stadig tvivlsom. Det giver bestemt mening, hvorfor mange af disse forskere har været tilbageholdende med at dele algoritmen med offentligheden.
Giv en kommentar