Índice analítico[Ocultar][Mostrar]
Algunha vez quixeches escoitar o teu personaxe favorito falar contigo? O texto a voz con sons naturais estase facendo realidade pouco a pouco coa axuda da aprendizaxe automática.
Por exemplo, o modelo NAT TTS de Google está a ser usado para alimentar o seu novo Voz personalizada servizo. Este servizo utiliza redes neuronais para xerar unha voz adestrada a partir de gravacións. Aplicacións web como Uberduck proporciona centos de voces para que elixas para crear o teu propio texto sintetizado.
Neste artigo, analizaremos o impresionante e igualmente enigmático modelo de IA coñecido como 15.ai. Creado por un programador anónimo, pode ser un dos máis eficientes e emotivos modelos de texto a voz ata agora.
Que é 15.ai?
15.ai é unha aplicación web de intelixencia artificial que é capaz de xerar voces emotivas de texto a voz de alta fidelidade. Os usuarios poden escoller entre unha variedade de voces desde Bob Esponja Pantalón Cuadrado ata HAL 9000 de 2001: A Odisea do Espazo.
O programa foi desenvolvido por un antigo investigador do MIT anónimo que traballaba co nome 15. O desenvolvedor afirmou que o proxecto foi concibido inicialmente como parte do Programa de Oportunidades de Investigación de Graduados da universidade.
Moitas das voces dispoñibles en 15.ai están adestradas en conxuntos de datos públicos de personaxes de My Little Pony: Friendship is Magic. Os fanáticos ávidos do programa realizaron un esforzo de colaboración para recoller, transcribir e procesar horas de diálogo co obxectivo de crear xeradores de texto a voz precisos dos seus personaxes favoritos.
Que pode facer 15.ai?
A aplicación web 15.ai funciona seleccionando un dos decenas de personaxes de ficción nos que se adestrou o modelo e enviando texto de entrada. Despois de facer clic en Xerar, o usuario debe recibir tres clips de audio do personaxe de ficción que fala as liñas indicadas.
Unha vez que o aprendizaxe profunda O modelo utilizado non é determinista, 15.ai saca un discurso lixeiramente diferente cada vez. Do mesmo xeito que un actor pode requirir varias tomas para obter a entrega correcta, 15.ai xera diferentes estilos de entrega cada vez ata que o usuario atopa a saída que lle gusta.
O proxecto inclúe unha característica única que permite aos usuarios modificar manualmente a emoción da liña xerada mediante contextualizadores emocionais. Estes parámetros poden deducir o sentimento dos emojis introducidos polo usuario usando os MIT DeepMoji modelo.
Segundo o programador, o que diferencia a 15.ai doutros programas TTS similares é que o modelo depende de moi poucos datos para clonar con precisión as voces mentres "mantén as emocións e a naturalidade intactas".
Como funciona 15.ai?
Vexamos a tecnoloxía detrás de 15.ai.
En primeiro lugar, o desenvolvedor principal de 15.ai di que o programa usa un modelo personalizado para xerar voces con diferentes estados de emoción. Dado que o autor aínda non publicou un artigo detallado sobre o proxecto, só podemos facer grandes suposicións do que está a suceder entre bastidores.
Recuperación dos fonemas
En primeiro lugar, vexamos como o programa analiza o texto de entrada. Antes de que o programa poida xerar fala, debe converter cada palabra individual na súa respectiva colección de fonemas. Por exemplo, a palabra "can" está composta por tres fonemas: /d/, /ɒ/ e /ɡ/.
Pero como sabe 15.ai que fonemas usar para cada palabra?
Segundo a páxina Acerca de 15.ai, o programa usa unha táboa de busca de dicionarios. A táboa usa a API de Oxford Dictionaries, o Wiktionary e o CMU Pronouncing Dictionary como fontes. 15.ai usa outros sitios web como Reddit e Urban Dictionary como fontes de termos e frases de nova creación.
Se algunha palabra dada non existe no dicionario, a súa pronuncia dedúcese mediante regras fonolóxicas que o modelo aprendeu do LibriTTS conxunto de datos. Este conxunto de datos é un corpus (un conxunto de datos de palabras escritas ou faladas nunha lingua ou dialecto nativo) de aproximadamente 585 horas de persoas que falan inglés.
Incorporación de emocións
Segundo o programador, o modelo tenta adiviñar a emoción percibida do texto de entrada. O modelo realiza esta tarefa a través do DeepMoji análise de sentimentos modelo. Este modelo en particular foi adestrado en miles de millóns de chíos con emojis co obxectivo de comprender como se usa a linguaxe para expresar emocións. O resultado do modelo incorpórase ao modelo TTS para manipular a saída cara á emoción desexada.
Unha vez que se extraeron os fonemas e o sentimento do texto de entrada, agora é o momento de sintetizar o discurso.
Clonación e síntese de voz
Os modelos de texto a voz, como 15.ai, coñécense como modelos de varios altofalantes. Estes modelos están construídos para poder aprender a falar con diferentes voces. Para adestrar correctamente o noso modelo, debemos atopar unha forma de extraer as características únicas de voz e representalas dun xeito que un ordenador poida entender. Este proceso coñécese como incorporación de altofalantes.
Os modelos actuais de conversión de texto a voz utilizan redes neuronales para crear a saída de audio real. A rede neuronal normalmente consta de dúas partes principais: un codificador e un decodificador.
O codificador tenta construír un único vector resumo baseado en varios vectores de entrada. A información sobre os fonemas, os aspectos emotivos e as características da voz colócase no codificador para crear unha representación do que debería ser a saída. A continuación, o decodificador converte esta representación en audio e emite unha puntuación de confianza.
A aplicación web 15.ai devolve os tres primeiros resultados coa mellor puntuación de confianza.
Cuestións
Co aumento do contido xerado pola IA, como deepfakes, desenvolver unha IA avanzada que poida imitar a persoas reais pode ser un problema ético serio.
Actualmente, as voces que podes escoller desde a aplicación web 15.ai son todos personaxes de ficción. Non obstante, iso non impediu que a aplicación xerase certa controversia en liña.
Algúns actores de voz rexeitaron o uso da tecnoloxía de clonación de voz. As preocupacións deles inclúen a suplantación de identidade, o uso da súa voz en contido explícito e a posibilidade de que a tecnoloxía poida facer obsoleto o papel do actor de voz.
Outra polémica produciuse a principios de 2022 cando se descubriu que unha empresa chamada Voiceverse NFT usaba 15.ai para xerar contido para a súa campaña de mercadotecnia.
Conclusión
O texto a voz xa é bastante frecuente na vida diaria. Asistentes de voz, navegadores GPS. e as chamadas telefónicas automatizadas xa se converteron nun lugar común. Non obstante, estas aplicacións son o suficientemente non humanas como para que poidamos dicir que son discursos feitos por máquinas.
A tecnoloxía TTS de soa natural e emotiva pode abrir a porta a novas aplicacións. Non obstante, a ética da clonación de voz aínda é cuestionable no mellor dos casos. Sen dúbida ten sentido por que moitos destes investigadores se mostraron reacios a compartir o algoritmo co público.
Deixe unha resposta