Innehållsförteckning[Dölj][Visa]
Har du någonsin velat höra din favoritkaraktär prata med dig? Naturligt klingande text-till-tal blir sakta verklighet med hjälp av maskininlärning.
Till exempel används Googles NAT TTS-modell för att driva deras nya Anpassad röst service. Den här tjänsten använder neurala nätverk för att generera en röst som tränas från inspelningar. Webbappar som t.ex Uberduck tillhandahålla hundratals röster som du kan välja mellan för att skapa din egen syntetiserade text.
I den här artikeln kommer vi att se över den imponerande och lika gåtfulla AI-modellen känd som 15.ai. Skapat av en anonym utvecklare, kan det vara en av de mest effektiva och känslomässiga text-till-tal-modeller så här långt.
Vad är 15.ai?
15.ai är en AI-webbapplikation som kan generera känslomässiga högtrogna text-till-tal-röster. Användare kan välja mellan en mängd olika röster från Svampbob Fyrkant till HAL 9000 från 2001: A Space Odyssey.
Programmet utvecklades av en anonym före detta MIT-forskare som arbetar under namnet 15. Utvecklaren har uppgett att projektet ursprungligen var tänkt som en del av universitetets Undergraduate Research Opportunities Program.
Många av rösterna som finns tillgängliga i 15.ai är tränade på offentliga datauppsättningar av karaktärer från My Little Pony: Friendship is Magic. Ivriga fans av showen har gjort ett samarbete för att samla in, transkribera och bearbeta timmar av dialog med målet att skapa korrekta text-till-tal-generatorer för deras favoritkaraktärer.
Vad kan 15.ai göra?
Webbapplikationen 15.ai fungerar genom att välja en av dussintals fiktiva karaktärer som modellen har tränats på och skicka in inmatad text. Efter att ha klickat på Generera ska användaren få tre ljudklipp av den fiktiva karaktären som talar de givna raderna.
Eftersom den djupt lärande modellen som används är icke-deterministisk, 15.ai matar ut ett något annorlunda tal varje gång. I likhet med hur en aktör kan kräva flera tagningar för att få rätt leverans, genererar 15.ai olika leveransstilar varje gång tills användaren hittar en utgång de gillar.
Projektet innehåller en unik funktion som tillåter användare att manuellt ändra känslan i den genererade linjen med hjälp av känslomässiga kontextualiserare. Dessa parametrar kan härleda känslan av användarinmatade emojis med hjälp av MIT:s DeepMoji modell.
Enligt utvecklaren är det som skiljer 15.ai från andra liknande TTS-program att modellen förlitar sig på väldigt lite data för att korrekt klona röster samtidigt som känslor och naturlighet behålls intakta.
Hur fungerar 15.ai?
Låt oss titta på tekniken bakom 15.ai.
För det första säger huvudutvecklaren av 15.ai att programmet använder en anpassad modell för att generera röster med olika tillstånd av känslor. Eftersom författaren ännu inte har publicerat en detaljerad artikel om projektet, kan vi bara göra breda antaganden om vad som händer bakom kulisserna.
Hämta fonemen
Låt oss först titta på hur programmet analyserar inmatningstexten. Innan programmet kan generera tal måste det konvertera varje enskilt ord till sin respektive samling av fonem. Till exempel är ordet "hund" sammansatt av tre fonem: /d/, /ɒ/ och /ɡ/.
Men hur vet 15.ai vilka fonem som ska användas för varje ord?
Enligt 15.ai's About-sida använder programmet en ordboksuppslagstabell. Tabellen använder Oxford Dictionaries API, Wiktionary och CMU Pronouncing Dictionary som källor. 15.ai använder andra webbplatser som Reddit och Urban Dictionary som källor för nyligen myntade termer och fraser.
Om något givet ord inte finns i ordboken, härleds dess uttal med hjälp av fonologiska regler som modellen har lärt sig från LibriTTS dataset. Denna datauppsättning är en korpus – en datauppsättning av skrivna eller talade ord på ett modersmål eller dialekt – på ungefär 585 timmar av människor som talar engelska.
Bädda in känslor
Enligt utvecklaren försöker modellen gissa den upplevda känslan av inmatningstexten. Modellen utför denna uppgift genom DeepMoji känsla analys modell. Just den här modellen tränades på miljarder tweets med emojis med målet att förstå hur språk används för att uttrycka känslor. Resultatet av modellen är inbäddat i TTS-modellen för att manipulera resultatet mot önskad känsla.
När fonemen och sentimentet har extraherats från inmatningstexten är det nu dags att syntetisera tal.
Röstkloning och -syntes
Text-till-tal-modeller som 15.ai är kända som multi-högtalare modeller. Dessa modeller är byggda för att kunna lära sig att tala med olika röster. För att träna vår modell ordentligt måste vi hitta ett sätt att extrahera de unika röstfunktionerna och representera dem på ett sätt som en dator kan förstå. Denna process kallas högtalarinbäddning.
Aktuella text-till-tal-modeller använder neurala nätverk för att skapa den faktiska ljudutgången. Det neurala nätverket består vanligtvis av två huvuddelar: en kodare och en avkodare.
Kodaren försöker bygga en enda sammanfattningsvektor baserat på olika indatavektorer. Information om fonem, känslomässiga aspekter och röstfunktioner placeras i kodaren för att skapa en representation av vad utmatningen ska vara. Avkodaren omvandlar sedan denna representation till ljud och matar ut en konfidenspoäng.
Webbapplikationen 15.ai returnerar sedan de tre bästa resultaten med bäst konfidenspoäng.
Frågor
Med framväxten av AI-genererat innehåll som t.ex deepfakes, att utveckla avancerad AI som kan efterlikna riktiga människor kan vara en allvarlig etisk fråga.
För närvarande är rösterna du kan välja från webbapplikationen 15.ai alla fiktiva karaktärer. Det hindrade dock inte appen från att få en del kontroverser online.
Ett fåtal röstskådespelare har tryckt tillbaka på användningen av röstkloningsteknik. Bekymmer från dem inkluderar personifiering, användningen av deras röst i explicit innehåll och möjligheten att tekniken kan göra röstskådespelarens roll föråldrad.
En annan kontrovers inträffade tidigare 2022 när ett företag som heter Voiceverse NFT upptäcktes använda 15.ai för att skapa innehåll för sin marknadsföringskampanj.
Slutsats
Text-till-tal är redan ganska utbredd i det dagliga livet. Röstassistenter, GPS-navigatorer. och automatiserade telefonsamtal har redan blivit vanligt. Men dessa applikationer är tydligt icke-mänskliga nog att vi kan se att de är maskingjort tal.
Naturligt klingande och känslomässig TTS-teknik kan öppna dörren för nya tillämpningar. Etiken kring röstkloning är dock i bästa fall fortfarande ifrågasatt. Det är verkligen vettigt varför många av dessa forskare har varit ovilliga att dela algoritmen med allmänheten.
Kommentera uppropet