Índice del Contenido[Esconder][Espectáculo]
¿Alguna vez has querido escuchar a tu personaje favorito hablar contigo? La conversión de texto a voz con sonido natural se está convirtiendo lentamente en una realidad con la ayuda del aprendizaje automático.
Por ejemplo, el modelo NAT TTS de Google se está utilizando para impulsar su nuevo Voz personalizada Servicio. Este servicio utiliza redes neuronales para generar una voz entrenada a partir de grabaciones. Aplicaciones web como uberpato proporciona cientos de voces entre las que puede elegir para crear su propio texto sintetizado.
En este artículo, repasaremos el impresionante e igualmente enigmático modelo de IA conocido como 15.ai. Creado por un desarrollador anónimo, puede ser uno de los más eficientes y emotivos. modelos de texto a voz hasta ahora.
¿Qué es 15.ai?
15.ai es una aplicación web de IA que es capaz de generar voces emotivas de texto a voz de alta fidelidad. Los usuarios pueden elegir entre una variedad de voces desde Spongebob Squarepants hasta HAL 9000 de 2001: A Space Odyssey.
El programa fue desarrollado por un ex investigador anónimo del MIT que trabajaba con el nombre de 15. El desarrollador ha declarado que el proyecto se concibió inicialmente como parte del Programa de Oportunidades de Investigación de Pregrado de la universidad.
Muchas de las voces disponibles en 15.ai están entrenadas en conjuntos de datos públicos de personajes de My Little Pony: La magia de la amistad. Los fanáticos ávidos del programa han formado un esfuerzo de colaboración para recopilar, transcribir y procesar horas de diálogo con el objetivo de crear generadores precisos de texto a voz de sus personajes favoritos.
¿Qué puede hacer 15.ai?
La aplicación web 15.ai funciona seleccionando uno de las docenas de personajes ficticios en los que el modelo ha sido entrenado y enviando texto de entrada. Después de hacer clic en Generar, el usuario debería recibir tres clips de audio del personaje ficticio hablando las líneas dadas.
Puesto que el deep learning El modelo utilizado no es determinista, 15.ai genera un discurso ligeramente diferente cada vez. De manera similar a cómo un actor puede requerir múltiples tomas para obtener la entrega correcta, 15.ai genera diferentes estilos de entrega cada vez hasta que el usuario encuentra una salida que le gusta.
El proyecto incluye una característica única que permite a los usuarios modificar manualmente la emoción de la línea generada utilizando contextualizadores emocionales. Estos parámetros pueden deducir el sentimiento de los emojis ingresados por el usuario utilizando MIT ProfundoMoji modelo.
Según el desarrollador, lo que diferencia a 15.ai de otros programas TTS similares es que el modelo se basa en muy pocos datos para clonar voces con precisión mientras "mantiene intactas las emociones y la naturalidad".
¿Cómo funciona 15.ai?
Veamos la tecnología detrás de 15.ai.
Primero, el desarrollador principal de 15.ai dice que el programa usa un modelo personalizado para generar voces con diferentes estados de emoción. Dado que el autor aún no ha publicado un artículo detallado sobre el proyecto, solo podemos hacer suposiciones generales de lo que sucede detrás de escena.
Recuperando los fonemas
Primero, veamos cómo el programa analiza el texto de entrada. Antes de que el programa pueda generar voz, debe convertir cada palabra individual en su respectiva colección de fonemas. Por ejemplo, la palabra “perro” se compone de tres fonemas: /d/, /ɒ/ y /ɡ/.
Pero, ¿cómo sabe 15.ai qué fonemas usar para cada palabra?
De acuerdo con la página Acerca de de 15.ai, el programa utiliza una tabla de búsqueda de diccionario. La tabla utiliza la API de Oxford Dictionaries, Wiktionary y el diccionario de pronunciación CMU como fuentes. 15.ai utiliza otros sitios web como Reddit y Urban Dictionary como fuentes de términos y frases recién acuñados.
Si alguna palabra dada no existe en el diccionario, su pronunciación se deduce usando reglas fonológicas que el modelo ha aprendido del LibriTTS conjunto de datos Este conjunto de datos es un corpus, un conjunto de datos de palabras escritas o habladas en un idioma nativo o dialecto, de aproximadamente 585 horas de personas que hablan inglés.
Incrustando emociones
Según el desarrollador, el modelo intenta adivinar la emoción percibida del texto de entrada. El modelo logra esta tarea a través de DeepMoji. análisis de los sentimientos modelo. Este modelo en particular se entrenó en miles de millones de tweets con emojis con el objetivo de comprender cómo se usa el lenguaje para expresar emociones. El resultado del modelo se integra en el modelo TTS para manipular la salida hacia la emoción deseada.
Una vez que se han extraído los fonemas y el sentimiento del texto de entrada, ahora es el momento de sintetizar el habla.
Clonación y Síntesis de Voz
Los modelos de texto a voz como 15.ai se conocen como modelos de múltiples altavoces. Estos modelos están construidos para poder aprender a hablar en diferentes voces. Para entrenar adecuadamente nuestro modelo, debemos encontrar una manera de extraer las características de voz únicas y representarlas de una manera que una computadora pueda entender. Este proceso se conoce como incrustación de altavoces.
Los modelos actuales de conversión de texto a voz utilizan redes neuronales para crear la salida de audio real. La red neuronal normalmente consta de dos partes principales: un codificador y un decodificador.
El codificador intenta construir un solo vector de resumen basado en varios vectores de entrada. La información sobre los fonemas, los aspectos emotivos y las características de la voz se colocan en el codificador para crear una representación de lo que debería ser la salida. Luego, el decodificador convierte esta representación en audio y genera una puntuación de confianza.
La aplicación web 15.ai luego devuelve los tres mejores resultados con la mejor puntuación de confianza.
Temas
Con el auge del contenido generado por IA, como deepfakes, desarrollar IA avanzada que pueda imitar a personas reales puede ser un problema ético grave.
Actualmente, las voces que puede elegir en la aplicación web 15.ai son todas de personajes ficticios. Sin embargo, eso no impidió que la aplicación generara cierta controversia en línea.
Algunos actores de voz han rechazado el uso de la tecnología de clonación de voz. Las preocupaciones de ellos incluyen la suplantación de identidad, el uso de su voz en contenido explícito y la posibilidad de que la tecnología pueda dejar obsoleto el papel del actor de voz.
Otra controversia ocurrió a principios de 2022 cuando se descubrió que una empresa llamada Voiceverse NFT estaba usando 15.ai para generar contenido para su campaña de marketing.
Conclusión
La conversión de texto a voz ya es bastante frecuente en la vida diaria. Asistentes de voz, navegadores GPS. y las llamadas telefónicas automatizadas ya se han convertido en un lugar común. Sin embargo, estas aplicaciones son claramente lo suficientemente no humanas como para que podamos decir que son voz hecha por una máquina.
La tecnología TTS de sonido natural y emotiva podría abrir la puerta a nuevas aplicaciones. Sin embargo, la ética de la clonación de voz sigue siendo, en el mejor de los casos, cuestionable. Ciertamente tiene sentido por qué muchos de estos investigadores se han mostrado reacios a compartir el algoritmo con el público.
Deje un comentario