15.ai - Text a veu natural i emocional mitjançant xarxes neuronals

Taula de continguts[Amaga][Espectacle]

Què és 15.ai?+-
- Què pot fer 15.ai?
Com funciona 15.ai?+-
Qüestions
Conclusió

Alguna vegada has volgut escoltar el teu personatge preferit parlar amb tu? El text a veu amb so natural s'està convertint lentament en una realitat amb l'ajuda de l'aprenentatge automàtic.

Per exemple, el model NAT TTS de Google s'està utilitzant per alimentar el seu nou Veu personalitzada servei. Aquest servei utilitza xarxes neuronals per generar una veu entrenada a partir d'enregistraments. Aplicacions web com ara Uberduck proporcionar centenars de veus perquè escolliu per crear el vostre propi text sintetitzat.

En aquest article, veurem l'impressionant i igualment enigmàtic model d'IA conegut com 15.ai. Creat per un desenvolupador anònim, pot ser un dels més eficients i emotius models de text a veu fins ara.

Què és 15.ai?

15.ai és una aplicació web d'IA capaç de generar veus emotives de text a veu d'alta fidelitat. Els usuaris poden triar entre una varietat de veus, des de Bob Esponja Pantalons Quadrats fins a HAL 9000 de 2001: A Space Odyssey.

El programa va ser desenvolupat per un antic investigador anònim del MIT que treballava amb el nom 15. El desenvolupador ha afirmat que el projecte es va concebre inicialment com a part del Programa d'Oportunitats de Recerca de Pregrau de la universitat.

Moltes de les veus disponibles a 15.ai estan formades en conjunts de dades públiques de personatges de My Little Pony: Friendship is Magic. Els àvids fans del programa han fet un esforç col·laboratiu per recollir, transcriure i processar hores de diàleg amb l'objectiu de crear generadors de text a veu precisos dels seus personatges preferits.

Què pot fer 15.ai?

L'aplicació web 15.ai funciona seleccionant un dels desenes de personatges de ficció en què s'ha entrenat el model i enviant text d'entrada. Després de fer clic a Genera, l'usuari hauria de rebre tres clips d'àudio del personatge de ficció que parla les línies donades.

aplicació web principal de 15.ai

Ja que el aprenentatge profund El model utilitzat no és determinista, 15.ai emet un discurs lleugerament diferent cada vegada. De la mateixa manera que un actor pot requerir diverses preses per obtenir la publicació correcta, 15.ai genera diferents estils de lliurament cada vegada fins que l'usuari troba una sortida que li agrada.

El projecte inclou una característica única que permet als usuaris alterar manualment l'emoció de la línia generada mitjançant contextualitzadors emocionals. Aquests paràmetres són capaços de deduir el sentiment dels emojis introduïts per l'usuari mitjançant els MIT DeepMoji model.

Segons el desenvolupador, el que diferencia 15.ai d'altres programes TTS similars és que el model es basa en molt poques dades per clonar veus amb precisió mentre "manté les emocions i la naturalitat intactes".

Com funciona 15.ai?

Vegem la tecnologia darrere de 15.ai.

En primer lloc, el desenvolupador principal de 15.ai diu que el programa utilitza un model personalitzat per generar veus amb diferents estats d'emoció. Com que l'autor encara no ha publicat un article detallat sobre el projecte, només podem fer grans suposicions sobre el que passa darrere de les escenes.

Recuperació dels fonemes

Primer, mirem com el programa analitza el text d'entrada. Abans que el programa pugui generar veu, ha de convertir cada paraula individual en la seva respectiva col·lecció de fonemes. Per exemple, la paraula "gos" es compon de tres fonemes: /d/, /ɒ/ i /ɡ/.

Però, com sap 15.ai quins fonemes utilitzar per a cada paraula?

Segons la pàgina Quant a 15.ai, el programa utilitza una taula de cerca de diccionari. La taula utilitza l'API de diccionaris d'Oxford, el viccionari i el diccionari de pronunciació CMU com a fonts. 15.ai utilitza altres llocs web com Reddit i Urban Dictionary com a fonts per a termes i frases recents.

Si alguna paraula donada no existeix al diccionari, la seva pronunciació es dedueix mitjançant regles fonològiques que el model ha après del LibriTTS conjunt de dades. Aquest conjunt de dades és un corpus (un conjunt de dades de paraules escrites o parlades en una llengua o dialecte nadiu) d'aproximadament 585 hores de persones que parlen anglès.

Incrustar les emocions

El model 15.ai extreu l'emoció percebuda del text

Segons el desenvolupador, el model intenta endevinar l'emoció percebuda del text d'entrada. El model realitza aquesta tasca mitjançant el DeepMoji anàlisi del sentiment model. Aquest model en particular es va entrenar en milers de milions de tuits amb emojis amb l'objectiu d'entendre com s'utilitza el llenguatge per expressar emocions. El resultat del model s'incrusta al model TTS per manipular la sortida cap a l'emoció desitjada.

Un cop extrets els fonemes i el sentiment del text d'entrada, ara és el moment de sintetitzar la parla.

Clonació i síntesi de veu

Els models de text a veu com ara 15.ai es coneixen com a models de diversos altaveus. Aquests models estan construïts per poder aprendre a parlar amb diferents veus. Per tal d'entrenar correctament el nostre model, hem de trobar una manera d'extreure les característiques de veu úniques i representar-la d'una manera que un ordinador pugui entendre. Aquest procés es coneix com a incorporació d'altaveus.

S'utilitzen els models actuals de text a veu xarxes neuronals per crear la sortida d'àudio real. La xarxa neuronal normalment consta de dues parts principals: un codificador i un descodificador.

mostra de sistema de múltiples altaveus

El codificador intenta construir un únic vector resum basat en diversos vectors d'entrada. La informació sobre els fonemes, els aspectes emotius i les característiques de la veu es col·loca al codificador per crear una representació del que hauria de ser la sortida. Aleshores, el descodificador converteix aquesta representació en àudio i emet una puntuació de confiança.

L'aplicació web 15.ai retorna els tres primers resultats amb la millor puntuació de confiança.

sortides d'àudio i les seves respectives puntuacions de confiança

Qüestions

Amb l'augment del contingut generat per IA, com ara fons profunds, desenvolupar una IA avançada que pugui imitar persones reals pot ser un problema ètic seriós.

Actualment, les veus que pots triar de l'aplicació web 15.ai són tots personatges de ficció. No obstant això, això no va impedir que l'aplicació generi certa controvèrsia en línia.

Alguns actors de veu han rebutjat l'ús de la tecnologia de clonació de veu. Les preocupacions d'ells inclouen la suplantació d'identitat, l'ús de la seva veu en contingut explícit i la possibilitat que la tecnologia pugui fer obsolet el paper de l'actor de veu.

Una altra controvèrsia es va produir a principis de 2022 quan es va descobrir que una empresa anomenada Voiceverse NFT utilitzava 15.ai per generar contingut per a la seva campanya de màrqueting.

Conclusió

El text a veu ja és força freqüent a la vida quotidiana. Assistents de veu, navegadors GPS. i les trucades telefòniques automatitzades ja s'han convertit en un lloc habitual. Tanmateix, aquestes aplicacions són prou no humanes com per poder dir que són un discurs fet a màquina.

La tecnologia TTS de so natural i emotiva podria obrir la porta a noves aplicacions. Tanmateix, l'ètica de la clonació de veu encara és qüestionable en el millor dels casos. Sens dubte, té sentit per què molts d'aquests investigadors s'han mostrat reticents a compartir l'algoritme amb el públic.

15.ai – Text a veu natural i emocional mitjançant xarxes neuronals