15.ai - Natuurlijke en emotionele tekst-naar-spraak met behulp van neurale netwerken

Inhoudsopgave[Zich verstoppen][Laten zien]

Wat is 15.ai?+-
- Wat kan 15.ai doen?
Hoe werkt 15.ai?+-
Problemen
Conclusie

Heb je ooit je favoriete personage met je willen horen praten? Natuurlijk klinkende tekst-naar-spraak wordt langzaam realiteit met behulp van machine learning.

Het NAT TTS-model van Google wordt bijvoorbeeld gebruikt om hun nieuwe Aangepaste stem onderhoud. Deze service maakt gebruik van neurale netwerken om een stem te genereren die is getraind op basis van opnames. Web-apps zoals Ubereend bieden honderden stemmen waaruit u kunt kiezen om uw eigen gesynthetiseerde tekst te maken.

In dit artikel bekijken we het indrukwekkende en even raadselachtige AI-model dat bekend staat als 15.ai. Gemaakt door een anonieme ontwikkelaar, het is misschien wel een van de meest efficiënte en emotionele tekst-naar-spraak-modellen dusver.

Wat is 15.ai?

15.ai is een AI-webtoepassing die in staat is om emotionele high-fidelity tekst-naar-spraak-stemmen te genereren. Gebruikers kunnen kiezen uit verschillende stemmen, van Spongebob Squarepants tot HAL 9000 uit 2001: A Space Odyssey.

Het programma is ontwikkeld door een anonieme voormalige MIT-onderzoeker die werkt onder de naam 15. De ontwikkelaar heeft verklaard dat het project oorspronkelijk was bedacht als onderdeel van het Undergraduate Research Opportunities Program van de universiteit.

Veel van de stemmen die beschikbaar zijn in 15.ai zijn getraind op openbare datasets van personages uit My Little Pony: Friendship is Magic. Enthousiaste fans van de show hebben een gezamenlijke inspanning geleverd om urenlange dialogen te verzamelen, te transcriberen en te verwerken met als doel nauwkeurige tekst-naar-spraakgeneratoren van hun favoriete personages te creëren.

Wat kan 15.ai doen?

De 15.ai-webtoepassing werkt door een van de tientallen fictieve personages te selecteren waarop het model is getraind en invoertekst in te dienen. Nadat hij op Genereren heeft geklikt, zou de gebruiker drie audioclips moeten ontvangen van het fictieve personage dat de gegeven regels uitspreekt.

hoofdwebapplicatie van 15.ai

Aangezien de diepgaand leren Het gebruikte model is niet-deterministisch, 15.ai voert elke keer een iets andere spraak uit. Net zoals een acteur meerdere takes nodig heeft om de juiste aflevering te krijgen, genereert 15.ai elke keer verschillende afleveringsstijlen totdat de gebruiker een uitvoer vindt die hij leuk vindt.

Het project bevat een unieke functie waarmee gebruikers de emotie van de gegenereerde regel handmatig kunnen wijzigen met behulp van emotionele contextualizers. Deze parameters kunnen het sentiment van emoji's voor gebruikersinvoer afleiden met behulp van MIT's DiepMoji model.

Wat 15.ai volgens de ontwikkelaar onderscheidt van andere vergelijkbare TTS-programma's, is dat het model op heel weinig gegevens vertrouwt om stemmen nauwkeurig te klonen terwijl "emoties en natuurlijkheid intact blijven".

Hoe werkt 15.ai?

Laten we eens kijken naar de technologie achter 15.ai.

Ten eerste zegt de hoofdontwikkelaar van 15.ai dat het programma een aangepast model gebruikt om stemmen met verschillende emoties te genereren. Aangezien de auteur nog geen gedetailleerd artikel over het project heeft gepubliceerd, kunnen we alleen algemene veronderstellingen maken over wat er achter de schermen gebeurt.

De fonemen ophalen

Laten we eerst eens kijken hoe het programma de invoertekst ontleedt. Voordat het programma spraak kan genereren, moet het elk afzonderlijk woord omzetten in zijn respectievelijke verzameling fonemen. Het woord "hond" bestaat bijvoorbeeld uit drie fonemen: /d/, /ɒ/ en /ɡ/.

Maar hoe weet 15.ai welke fonemen voor elk woord moeten worden gebruikt?

Volgens de About-pagina van 15.ai gebruikt het programma een opzoektabel voor woordenboeken. De tabel gebruikt de Oxford Dictionaries API, Wiktionary en de CMU Pronouncing Dictionary als bronnen. 15.ai gebruikt andere websites zoals Reddit en Urban Dictionary als bronnen voor nieuw bedachte termen en zinnen.

Als een bepaald woord niet in het woordenboek voorkomt, wordt de uitspraak afgeleid met behulp van fonologische regels die het model heeft geleerd van de LibriTTS gegevensset. Deze dataset is een corpus – een dataset van geschreven of gesproken woorden in een moedertaal of dialect – van ongeveer 585 uur Engels sprekende mensen.

Emoties insluiten

15.ai-model extraheert waargenomen emotie van tekst

Volgens de ontwikkelaar probeert het model de waargenomen emotie van de invoertekst te raden. Het model volbrengt deze taak via de DeepMoji sentiment analyse model. Dit specifieke model is getraind op miljarden tweets met emoji's met als doel te begrijpen hoe taal wordt gebruikt om emoties te uiten. Het resultaat van het model is ingebed in het TTS-model om de output naar de gewenste emotie te manipuleren.

Nadat de fonemen en het sentiment uit de invoertekst zijn geëxtraheerd, is het nu tijd om spraak te synthetiseren.

Stemklonen en synthese

Tekst-naar-spraak-modellen zoals 15.ai staan bekend als modellen met meerdere luidsprekers. Deze modellen zijn gebouwd om met verschillende stemmen te kunnen leren spreken. Om ons model goed te kunnen trainen, moeten we een manier vinden om de unieke stemkenmerken te extraheren en deze weer te geven op een manier die een computer kan begrijpen. Dit proces staat bekend als luidsprekerinbedding.

Huidige tekst-naar-spraak-modellen gebruiken neurale netwerken om de daadwerkelijke audio-uitvoer te creëren. Het neurale netwerk bestaat doorgaans uit twee hoofdonderdelen: een encoder en een decoder.

voorbeeld systeem met meerdere luidsprekers

De encoder probeert een enkele samenvattingsvector te bouwen op basis van verschillende invoervectoren. Informatie over de fonemen, emotionele aspecten en stemkenmerken worden in de encoder geplaatst om een weergave te maken van wat de uitvoer zou moeten zijn. De decoder zet deze representatie vervolgens om in audio en geeft een betrouwbaarheidsscore af.

De 15.ai-webtoepassing retourneert vervolgens de top drie resultaten met de beste betrouwbaarheidsscore.

audio-uitgangen en hun respectieve betrouwbaarheidsscores

Problemen

Met de opkomst van door AI gegenereerde inhoud zoals: deepfakes, kan het ontwikkelen van geavanceerde AI die echte mensen kan nabootsen een serieuze ethische kwestie zijn.

Momenteel zijn de stemmen die u kunt kiezen uit de 15.ai-webtoepassing allemaal fictieve personages. Dat weerhield de app er echter niet van om online controverse te krijgen.

Een paar stemacteurs hebben het gebruik van spraakkloontechnologie teruggedrongen. Zorgen van hen zijn onder meer imitatie, het gebruik van hun stem in expliciete inhoud en de mogelijkheid dat de technologie de rol van de stemacteur overbodig maakt.

Een andere controverse deed zich eerder in 2022 voor toen een bedrijf genaamd Voiceverse NFT werd ontdekt dat het 15.ai gebruikte om inhoud voor hun marketingcampagne te genereren.

Conclusie

Text-to-speech is al vrij gangbaar in het dagelijks leven. Spraakassistenten, GPS-navigators. en geautomatiseerde telefoongesprekken zijn al gemeengoed geworden. Deze toepassingen zijn echter duidelijk niet-menselijk genoeg om te kunnen zien dat het machinale spraak is.

Natuurlijk klinkende en emotionele TTS-technologie kan de deur openen voor nieuwe toepassingen. De ethiek van het klonen van stemmen is echter op zijn best nog twijfelachtig. Het is zeker logisch waarom veel van deze onderzoekers terughoudend waren om het algoritme met het publiek te delen.

15.ai – Natuurlijke en emotionele tekst-naar-spraak met behulp van neurale netwerken