15.ai - Synthèse vocale naturelle et émotionnelle à l'aide de réseaux de neurones

Table des matières[Cacher][Montrer]

Qu'est-ce que 15.ai ?+-
- Que peut faire 15.ai ?
Comment fonctionne 15.ai ?+-
Questions
Conclusion

Avez-vous déjà voulu entendre votre personnage préféré vous parler ? La synthèse vocale au son naturel devient lentement une réalité grâce à l'apprentissage automatique.

Par exemple, le modèle NAT TTS de Google est utilisé pour alimenter leur nouveau Voix personnalisée service. Ce service utilise des réseaux de neurones pour générer une voix formée à partir d'enregistrements. Des applications Web telles que Ubercanard fournir des centaines de voix parmi lesquelles choisir pour créer votre propre texte synthétisé.

Dans cet article, nous examinerons l'impressionnant et tout aussi énigmatique modèle d'IA connu sous le nom de 15.ai. Créé par un développeur anonyme, c'est peut-être l'un des plus efficaces et des plus émotifs modèles de synthèse vocale à ce jour.

Qu'est-ce que 15.ai ?

15.ai est une application Web d'IA capable de générer des voix émotives de synthèse vocale haute fidélité. Les utilisateurs peuvent choisir parmi une variété de voix allant de Spongebob Squarepants à HAL 9000 à partir de 2001 : A Space Odyssey.

Le programme a été développé par un ancien chercheur anonyme du MIT travaillant sous le nom de 15. Le développeur a déclaré que le projet avait été initialement conçu dans le cadre du programme d'opportunités de recherche de premier cycle de l'université.

De nombreuses voix disponibles dans 15.ai sont formées sur des ensembles de données publics de personnages de My Little Pony : Friendship is Magic. Les fans avides de la série ont formé un effort collaboratif pour collecter, transcrire et traiter des heures de dialogue dans le but de créer des générateurs de synthèse vocale précis de leurs personnages préférés.

Que peut faire 15.ai ?

L'application Web 15.ai fonctionne en sélectionnant l'un des dizaines de personnages fictifs sur lesquels le modèle a été formé et en soumettant le texte d'entrée. Après avoir cliqué sur Générer, l'utilisateur devrait recevoir trois clips audio du personnage fictif prononçant les lignes données.

application web principale de 15.ai

Depuis l' l'apprentissage en profondeur modèle utilisé est non déterministe, 15.ai produit un discours légèrement différent à chaque fois. Semblable à la façon dont un acteur peut avoir besoin de plusieurs prises pour obtenir la bonne livraison, 15.ai génère différents styles de livraison à chaque fois jusqu'à ce que l'utilisateur trouve une sortie qu'il aime.

Le projet comprend une fonctionnalité unique qui permet aux utilisateurs de modifier manuellement l'émotion de la ligne générée à l'aide de contextualiseurs émotionnels. Ces paramètres sont capables de déduire le sentiment des emojis saisis par l'utilisateur à l'aide des MIT DeepMoji .

Selon le développeur, ce qui distingue 15.ai des autres programmes TTS similaires, c'est que le modèle s'appuie sur très peu de données pour cloner avec précision les voix tout en "gardant les émotions et le naturel intacts".

Comment fonctionne 15.ai ?

Examinons la technologie derrière 15.ai.

Tout d'abord, le développeur principal de 15.ai dit que le programme utilise un modèle personnalisé pour générer des voix avec différents états d'émotion. Étant donné que l'auteur n'a pas encore publié d'article détaillé sur le projet, nous ne pouvons que faire des hypothèses générales sur ce qui se passe dans les coulisses.

Récupération des phonèmes

Voyons d'abord comment le programme analyse le texte d'entrée. Avant que le programme puisse générer de la parole, il doit convertir chaque mot individuel dans sa collection respective de phonèmes. Par exemple, le mot « chien » est composé de trois phonèmes : /d/, /ɒ/ et /ɡ/.

Mais comment 15.ai sait-il quels phonèmes utiliser pour chaque mot ?

Selon la page À propos de 15.ai, le programme utilise une table de recherche de dictionnaire. Le tableau utilise l'API Oxford Dictionaries, Wiktionary et le CMU Pronouncing Dictionary comme sources. 15.ai utilise d'autres sites Web tels que Reddit et Urban Dictionary comme sources pour les termes et expressions nouvellement inventés.

Si un mot donné n'existe pas dans le dictionnaire, sa prononciation est déduite à l'aide des règles phonologiques que le modèle a apprises de la LibriTTS base de données. Cet ensemble de données est un corpus - un ensemble de données de mots écrits ou parlés dans une langue maternelle ou un dialecte - d'environ 585 heures de personnes parlant anglais.

Intégrer les émotions

Le modèle 15.ai extrait l'émotion perçue du texte

Selon le développeur, le modèle essaie de deviner l'émotion perçue du texte saisi. Le modèle accomplit cette tâche via le DeepMoji l'analyse des sentiments maquette. Ce modèle particulier a été formé sur des milliards de tweets avec des emojis dans le but de comprendre comment le langage est utilisé pour exprimer des émotions. Le résultat du modèle est intégré dans le modèle TTS pour manipuler la sortie vers l'émotion souhaitée.

Une fois que les phonèmes et le sentiment ont été extraits du texte d'entrée, il est maintenant temps de synthétiser la parole.

Clonage et synthèse de la voix

Les modèles de synthèse vocale tels que 15.ai sont appelés modèles multi-locuteurs. Ces modèles sont construits pour pouvoir apprendre à parler de différentes voix. Afin de former correctement notre modèle, nous devons trouver un moyen d'extraire les caractéristiques vocales uniques et de les représenter d'une manière compréhensible par un ordinateur. Ce processus est connu sous le nom d'intégration du haut-parleur.

Les modèles actuels de synthèse vocale utilisent les réseaux de neurones pour créer la sortie audio réelle. Le réseau neuronal se compose généralement de deux parties principales : un encodeur et un décodeur.

exemple de système multi-haut-parleurs

L'encodeur essaie de construire un seul vecteur de résumé basé sur divers vecteurs d'entrée. Des informations sur les phonèmes, les aspects émotifs et les caractéristiques vocales sont placées dans l'encodeur pour créer une représentation de ce que devrait être la sortie. Le décodeur convertit ensuite cette représentation en audio et produit un score de confiance.

L'application Web 15.ai renvoie ensuite les trois premiers résultats avec le meilleur score de confiance.

sorties audio et leurs scores de confiance respectifs

Questions

Avec l'essor du contenu généré par l'IA, tel que deepfakes, développer une IA avancée qui peut imiter de vraies personnes peut être un grave problème éthique.

Actuellement, les voix que vous pouvez choisir dans l'application Web 15.ai sont toutes des personnages fictifs. Cependant, cela n'a pas empêché l'application de susciter une controverse en ligne.

Quelques acteurs de la voix ont repoussé l'utilisation de la technologie de clonage de la voix. Leurs préoccupations incluent l'usurpation d'identité, l'utilisation de leur voix dans un contenu explicite et la possibilité que la technologie rende obsolète le rôle de l'acteur vocal.

Une autre controverse s'est produite plus tôt en 2022 lorsqu'il a été découvert qu'une société appelée Voiceverse NFT utilisait 15.ai pour générer du contenu pour sa campagne marketing.

Conclusion

La synthèse vocale est déjà assez répandue dans la vie quotidienne. Assistants vocaux, navigateurs GPS. et les appels téléphoniques automatisés sont déjà devenus monnaie courante. Cependant, ces applications sont suffisamment non humaines pour que nous puissions dire qu'il s'agit de discours fabriqués par la machine.

La technologie TTS au son naturel et émotif pourrait ouvrir la porte à de nouvelles applications. Cependant, l'éthique du clonage de la voix est encore au mieux discutable. Il est certainement logique que beaucoup de ces chercheurs aient hésité à partager l'algorithme avec le public.

15.ai - Synthèse vocale naturelle et émotionnelle à l'aide de réseaux de neurones