Innholdsfortegnelse[Gjemme seg][Forestilling]
Har du noen gang ønsket å høre favorittkarakteren din snakke med deg? Naturlig klingende tekst-til-tale blir sakte en realitet ved hjelp av maskinlæring.
For eksempel blir Googles NAT TTS-modell brukt til å drive deres nye Tilpasset stemme service. Denne tjenesten bruker nevrale nettverk for å generere en stemme trent fra opptak. Nettapper som f.eks Uberduck gi hundrevis av stemmer du kan velge mellom for å lage din egen syntetiserte tekst.
I denne artikkelen skal vi se over den imponerende og like gåtefulle AI-modellen kjent som 15.ai. Laget av en anonym utvikler, kan det være en av de mest effektive og emosjonelle tekst-til-tale-modeller så langt.
Hva er 15.ai?
15.ai er en AI-nettapplikasjon som er i stand til å generere emosjonelle high-fidelity tekst-til-tale-stemmer. Brukere kan velge mellom en rekke stemmer fra SpongeBob Squarepants til HAL 9000 fra 2001: A Space Odyssey.
Programmet ble utviklet av en anonym tidligere MIT-forsker som arbeider under navnet 15. Utvikleren har uttalt at prosjektet opprinnelig ble unnfanget som en del av universitetets Undergraduate Research Opportunities Program.
Mange av stemmene som er tilgjengelige i 15.ai er trent på offentlige datasett med karakterer fra My Little Pony: Friendship is Magic. Ivrige fans av showet har dannet et samarbeid for å samle inn, transkribere og behandle timer med dialog med målet om å lage nøyaktige tekst-til-tale-generatorer av favorittkarakterene deres.
Hva kan 15.ai gjøre?
15.ai-nettapplikasjonen fungerer ved å velge en av dusinvis av fiktive karakterer som modellen har blitt trent på og sende inn tekst. Etter å ha klikket på Generer, skal brukeren motta tre lydklipp av den fiktive karakteren som snakker de gitte linjene.
Siden dyp læring modellen som brukes er ikke-deterministisk, 15.ai gir en litt annen tale hver gang. I likhet med hvordan en aktør kan kreve flere opptak for å få riktig levering, genererer 15.ai forskjellige leveringsstiler hver gang til brukeren finner en utgang de liker.
Prosjektet inkluderer en unik funksjon som lar brukere manuelt endre følelsene til den genererte linjen ved å bruke emosjonelle kontekstualiserere. Disse parameterne er i stand til å utlede følelsen av brukerinputte emojier ved å bruke MIT-er DeepMoji modell.
I følge utvikleren er det som skiller 15.ai fra andre lignende TTS-programmer at modellen er avhengig av svært lite data for å nøyaktig klone stemmer mens "beholder følelser og naturlighet intakt".
Hvordan fungerer 15.ai?
La oss se nærmere på teknologien bak 15.ai.
For det første sier hovedutvikleren av 15.ai at programmet bruker en tilpasset modell for å generere stemmer med varierende følelsestilstander. Siden forfatteren ennå ikke har publisert en detaljert artikkel om prosjektet, kan vi bare gjøre brede antakelser om hva som skjer bak kulissene.
Henter fonemene
La oss først se på hvordan programmet analyserer inndatateksten. Før programmet kan generere tale, må det konvertere hvert enkelt ord til sin respektive samling av fonemer. For eksempel er ordet "hund" sammensatt av tre fonemer: /d/, /ɒ/ og /ɡ/.
Men hvordan vet 15.ai hvilke fonemer som skal brukes for hvert ord?
I følge 15.ai sin About-side bruker programmet en oppslagstabell for ordbok. Tabellen bruker Oxford Dictionaries API, Wiktionary og CMU Pronouncing Dictionary som kilder. 15.ai bruker andre nettsteder som Reddit og Urban Dictionary som kilder for nylig oppfunne termer og uttrykk.
Hvis et gitt ord ikke finnes i ordboken, utledes dets uttale ved å bruke fonologiske regler modellen har lært fra LibriTTS datasett. Dette datasettet er et korpus – et datasett med skrevne eller talte ord på et morsmål eller dialekt – på omtrent 585 timer med personer som snakker engelsk.
Innbygging av følelser
Ifølge utvikleren prøver modellen å gjette den oppfattede følelsen til inndatateksten. Modellen utfører denne oppgaven gjennom DeepMoji sentiment analyse modell. Denne spesielle modellen ble trent på milliarder av tweets med emojier med mål om å forstå hvordan språk brukes til å uttrykke følelser. Resultatet av modellen er innebygd i TTS-modellen for å manipulere utdataene mot ønsket følelse.
Når fonemene og følelsene er hentet ut fra inndatateksten, er det nå på tide å syntetisere tale.
Stemmekloning og -syntese
Tekst-til-tale-modeller som 15.ai er kjent som multi-høyttaler-modeller. Disse modellene er bygget for å kunne lære å snakke med forskjellige stemmer. For å kunne trene modellen vår på riktig måte, må vi finne en måte å trekke ut de unike stemmefunksjonene og representere den på en måte som en datamaskin kan forstå. Denne prosessen er kjent som høyttalerinnbygging.
Nåværende tekst-til-tale-modeller bruker nevrale nettverk for å lage selve lydutgangen. Det nevrale nettverket består typisk av to hoveddeler: en koder og en dekoder.
Koderen prøver å bygge en enkelt sammendragsvektor basert på forskjellige inngangsvektorer. Informasjon om fonemer, emosjonelle aspekter og stemmefunksjoner er plassert i koderen for å lage en representasjon av hva utgangen skal være. Dekoderen konverterer deretter denne representasjonen til lyd og sender ut en konfidensscore.
Nettapplikasjonen 15.ai returnerer deretter de tre beste resultatene med den beste konfidenspoengsummen.
Problemer
Med fremveksten av AI-generert innhold som f.eks deepfakes, å utvikle avansert AI som kan etterligne ekte mennesker kan være et alvorlig etisk problem.
For øyeblikket er stemmene du kan velge fra nettapplikasjonen 15.ai alle fiktive karakterer. Det hindret imidlertid ikke appen i å få noen kontroverser på nettet.
Noen få stemmeskuespillere har presset tilbake på bruken av stemmekloningsteknologi. Bekymringer fra dem inkluderer etterligning, bruk av stemmen deres i eksplisitt innhold, og muligheten for at teknologien kan gjøre rollen til stemmeskuespilleren foreldet.
En annen kontrovers oppsto tidligere i 2022 da et selskap kalt Voiceverse NFT ble oppdaget å bruke 15.ai for å generere innhold til markedsføringskampanjen deres.
konklusjonen
Tekst-til-tale er allerede ganske utbredt i dagliglivet. Taleassistenter, GPS-navigatorer. og automatiserte telefonsamtaler har allerede blitt vanlig. Imidlertid er disse applikasjonene utpreget ikke-menneskelige nok til at vi kan se at de er maskinlaget tale.
Naturlig klingende og følelsesladet TTS-teknologi kan åpne døren for nye applikasjoner. Etikken rundt stemmekloning er imidlertid fortsatt tvilsom i beste fall. Det er absolutt fornuftig hvorfor mange av disse forskerne har vært motvillige til å dele algoritmen med publikum.
Legg igjen en kommentar