Alguma vez você já quis ouvir seu personagem favorito falar com você? A conversão de texto em fala com som natural está lentamente se tornando uma realidade com a ajuda do aprendizado de máquina.
Por exemplo, o modelo NAT TTS do Google está sendo usado para alimentar seus novos Voz personalizada serviço. Este serviço utiliza redes neurais para gerar uma voz treinada a partir de gravações. Aplicativos da Web, como Uberpato fornece centenas de vozes para você escolher para criar seu próprio texto sintetizado.
Neste artigo, veremos o impressionante e igualmente enigmático modelo de IA conhecido como 15.ai. Criado por um desenvolvedor anônimo, pode ser um dos mais eficientes e emotivos modelos de conversão de texto em fala até agora.
O que é 15.ai?
15.ai é um aplicativo da web de IA capaz de gerar vozes emotivas de conversão de texto em fala de alta fidelidade. Os usuários podem escolher entre uma variedade de vozes de Bob Esponja Calça Quadrada a HAL 9000 de 2001: Uma Odisseia no Espaço.
O programa foi desenvolvido por um ex-pesquisador anônimo do MIT trabalhando sob o nome 15. O desenvolvedor afirmou que o projeto foi inicialmente concebido como parte do Programa de Oportunidades de Pesquisa de Graduação da universidade.
Muitas das vozes disponíveis no 15.ai são treinadas em conjuntos de dados públicos de personagens de My Little Pony: Friendship is Magic. Fãs ávidos do programa formaram um esforço colaborativo para coletar, transcrever e processar horas de diálogo com o objetivo de criar geradores precisos de conversão de texto em fala de seus personagens favoritos.
O que o 15.ai pode fazer?
O aplicativo da web 15.ai funciona selecionando um entre dezenas de personagens fictícios nos quais o modelo foi treinado e enviando o texto de entrada. Após clicar em Gerar, o usuário deverá receber três clipes de áudio do personagem fictício falando as falas indicadas.
Uma vez que o deep learning O modelo usado é não determinístico, o 15.ai produz um discurso ligeiramente diferente a cada vez. Semelhante a como um ator pode exigir várias tomadas para obter a entrega certa, o 15.ai gera diferentes estilos de entrega toda vez até que o usuário encontre uma saída de que goste.
O projeto inclui um recurso exclusivo que permite aos usuários alterar manualmente a emoção da linha gerada usando contextualizadores emocionais. Esses parâmetros são capazes de deduzir o sentimento de emojis de entrada do usuário usando o MIT DeepMoji modelo.
De acordo com o desenvolvedor, o que diferencia o 15.ai de outros programas TTS semelhantes é que o modelo depende de muito poucos dados para clonar vozes com precisão enquanto “mantém as emoções e a naturalidade intactas”.
Como o 15.ai funciona?
Vamos analisar a tecnologia por trás do 15.ai.
Primeiro, o principal desenvolvedor do 15.ai diz que o programa usa um modelo personalizado para gerar vozes com diferentes estados de emoção. Como o autor ainda não publicou um artigo detalhado sobre o projeto, podemos apenas fazer suposições amplas sobre o que está acontecendo nos bastidores.
Recuperando os fonemas
Primeiro, vamos ver como o programa analisa o texto de entrada. Antes que o programa possa gerar a fala, ele deve converter cada palavra individual em sua respectiva coleção de fonemas. Por exemplo, a palavra “cachorro” é composta por três fonemas: /d/, /ɒ/ e /ɡ/.
Mas como o 15.ai sabe quais fonemas usar para cada palavra?
De acordo com a página Sobre do 15.ai, o programa usa uma tabela de consulta de dicionário. A tabela usa o Oxford Dictionaries API, o Wikcionário e o CMU Pronuncing Dictionary como fontes. O 15.ai usa outros sites, como Reddit e Urban Dictionary, como fontes para termos e frases recém-criados.
Se alguma palavra não existir no dicionário, sua pronúncia é deduzida usando regras fonológicas que o modelo aprendeu com o LibriTTS conjunto de dados. Esse conjunto de dados é um corpus – um conjunto de dados de palavras escritas ou faladas em um idioma nativo ou dialeto – de aproximadamente 585 horas de pessoas falando inglês.
Incorporando Emoções
De acordo com o desenvolvedor, o modelo tenta adivinhar a emoção percebida do texto de entrada. O modelo realiza essa tarefa por meio do DeepMoji análise de sentimentos modelo. Esse modelo em particular foi treinado em bilhões de tweets com emojis com o objetivo de entender como a linguagem é usada para expressar emoções. O resultado do modelo é incorporado ao modelo TTS para manipular a saída em direção à emoção desejada.
Uma vez que os fonemas e o sentimento foram extraídos do texto de entrada, agora é hora de sintetizar a fala.
Clonagem e síntese de voz
Modelos de conversão de texto em fala, como 15.ai, são conhecidos como modelos de vários alto-falantes. Esses modelos são construídos para aprender a falar em diferentes vozes. Para treinar adequadamente nosso modelo, devemos encontrar uma maneira de extrair os recursos de voz exclusivos e representá-los de uma maneira que um computador possa entender. Esse processo é conhecido como incorporação de alto-falante.
Os modelos atuais de conversão de texto em fala usam redes neurais para criar a saída de áudio real. A rede neural normalmente consiste em duas partes principais: um codificador e um decodificador.
O codificador tenta construir um único vetor de resumo baseado em vários vetores de entrada. Informações sobre os fonemas, aspectos emotivos e recursos de voz são colocados no codificador para criar uma representação de qual deve ser a saída. O decodificador então converte essa representação em áudio e gera uma pontuação de confiança.
O aplicativo da Web 15.ai retorna os três principais resultados com a melhor pontuação de confiança.
Questões
Com o surgimento de conteúdo gerado por IA, como deepfakes, desenvolver IA avançada que possa imitar pessoas reais pode ser um sério problema ético.
Atualmente, as vozes que você pode escolher no aplicativo da web 15.ai são todas personagens fictícias. No entanto, isso não impediu que o aplicativo gerasse alguma controvérsia online.
Alguns dubladores rejeitaram o uso da tecnologia de clonagem de voz. As preocupações deles incluem a representação, o uso de sua voz em conteúdo explícito e a possibilidade de que a tecnologia possa tornar o papel do dublador obsoleto.
Outra controvérsia ocorreu no início de 2022, quando uma empresa chamada Voiceverse NFT foi descoberta usando o 15.ai para gerar conteúdo para sua campanha de marketing.
Conclusão
A conversão de texto em fala já é bastante prevalente na vida cotidiana. Assistentes de voz, navegadores GPS. e chamadas telefônicas automatizadas já se tornaram comuns. No entanto, esses aplicativos são distintamente não humanos o suficiente para que possamos dizer que são falas feitas por máquina.
A tecnologia TTS de som natural e emotiva pode abrir as portas para novas aplicações. No entanto, a ética da clonagem de voz ainda é questionável na melhor das hipóteses. Certamente faz sentido por que muitos desses pesquisadores relutam em compartilhar o algoritmo com o público.
Deixe um comentário