15.ai – Sintesi vocale naturale ed emotiva utilizzando le reti neurali

Sommario[Nascondere][Spettacolo]

Che cos'è 15.ai?+-
- Cosa può fare 15.ai?
Come funziona 15.ai?+-
Problema
Conclusione

Hai mai desiderato sentire il tuo personaggio preferito parlare con te? La sintesi vocale dal suono naturale sta lentamente diventando una realtà con l'aiuto dell'apprendimento automatico.

Ad esempio, il modello NAT TTS di Google viene utilizzato per alimentare il loro nuovo Voce personalizzata servizio. Questo servizio utilizza le reti neurali per generare una voce addestrata dalle registrazioni. App Web come Uberduck fornisci centinaia di voci tra cui scegliere per creare il tuo testo sintetizzato.

In questo articolo esamineremo l'impressionante e altrettanto enigmatico modello di intelligenza artificiale noto come 15.ai. Creato da uno sviluppatore anonimo, potrebbe essere uno dei più efficienti ed emozionanti modelli di sintesi vocale finora.

Che cos'è 15.ai?

15.ai è un'applicazione Web di intelligenza artificiale in grado di generare voci emotive di sintesi vocale ad alta fedeltà. Gli utenti possono scegliere tra una varietà di voci da Spongebob Squarepants a HAL 9000 di 2001: Odissea nello spazio.

Il programma è stato sviluppato da un anonimo ex ricercatore del MIT che lavora con il nome 15. Lo sviluppatore ha affermato che il progetto è stato inizialmente concepito come parte del programma di opportunità di ricerca universitaria.

Molte delle voci disponibili in 15.ai sono addestrate su set di dati pubblici di personaggi di My Little Pony: L'amicizia è magica. I fan accaniti dello spettacolo hanno formato uno sforzo collaborativo per raccogliere, trascrivere ed elaborare ore di dialogo con l'obiettivo di creare accurati generatori di sintesi vocale dei loro personaggi preferiti.

Cosa può fare 15.ai?

L'applicazione web 15.ai funziona selezionando uno delle dozzine di personaggi immaginari su cui il modello è stato addestrato e inviando il testo di input. Dopo aver fatto clic su Genera, l'utente dovrebbe ricevere tre clip audio del personaggio immaginario che pronuncia le righe indicate.

applicazione web principale di 15.ai

Poiché apprendimento profondo il modello utilizzato non è deterministico, 15.ai restituisce ogni volta un discorso leggermente diverso. Simile al modo in cui un attore può richiedere più riprese per ottenere la consegna corretta, 15.ai genera stili di consegna diversi ogni volta fino a quando l'utente non trova un output che gli piace.

Il progetto include una caratteristica unica che consente agli utenti di modificare manualmente l'emozione della linea generata utilizzando contestualizzatori emotivi. Questi parametri sono in grado di dedurre il sentimento degli emoji inseriti dall'utente utilizzando i MIT DeepMoji modello.

Secondo lo sviluppatore, ciò che distingue 15.ai da altri programmi TTS simili è che il modello si basa su pochissimi dati per clonare accuratamente le voci "mantenendo intatte le emozioni e la naturalezza".

Come funziona 15.ai?

Diamo un'occhiata alla tecnologia alla base di 15.ai.

Innanzitutto, lo sviluppatore principale di 15.ai afferma che il programma utilizza un modello personalizzato per generare voci con stati emotivi variabili. Dal momento che l'autore deve ancora pubblicare un documento dettagliato sul progetto, possiamo solo fare supposizioni generali su ciò che sta accadendo dietro le quinte.

Recupero dei fonemi

Per prima cosa, diamo un'occhiata a come il programma analizza il testo di input. Prima che il programma possa generare il parlato, deve convertire ogni singola parola nella rispettiva raccolta di fonemi. Ad esempio, la parola "cane" è composta da tre fonemi: /d/, /ɒ/ e /ɡ/.

Ma come fa 15.ai a sapere quali fonemi usare per ogni parola?

Secondo la pagina Informazioni di 15.ai, il programma utilizza una tabella di ricerca del dizionario. La tabella utilizza l'Oxford Dictionaries API, il Wikizionario e il CMU Pronouncing Dictionary come fonti. 15.ai utilizza altri siti Web come Reddit e Urban Dictionary come fonti per termini e frasi di nuova concezione.

Se una determinata parola non esiste nel dizionario, la sua pronuncia viene dedotta utilizzando le regole fonologiche che il modello ha appreso dal LibriTTS set di dati. Questo set di dati è un corpus, un set di dati di parole scritte o parlate in una lingua madre o in un dialetto, di circa 585 ore di persone che parlano inglese.

Incorporare le emozioni

Il modello 15.ai estrae l'emozione percepita dal testo

Secondo lo sviluppatore, il modello cerca di indovinare l'emozione percepita del testo di input. Il modello svolge questo compito attraverso DeepMoji sentiment analysis modello. Questo particolare modello è stato addestrato su miliardi di tweet con emoji con l'obiettivo di capire come viene usato il linguaggio per esprimere le emozioni. Il risultato del modello è incorporato nel modello TTS per manipolare l'output verso l'emozione desiderata.

Una volta estratti i fonemi e il sentimento dal testo di input, è giunto il momento di sintetizzare il parlato.

Clonazione e sintesi vocale

I modelli di sintesi vocale come 15.ai sono noti come modelli multi-altoparlante. Questi modelli sono costruiti per essere in grado di imparare a parlare con voci diverse. Per addestrare adeguatamente il nostro modello, dobbiamo trovare un modo per estrarre le caratteristiche uniche della voce e rappresentarlo in un modo che un computer possa capire. Questo processo è noto come incorporamento degli altoparlanti.

Vengono utilizzati gli attuali modelli di sintesi vocale reti neurali per creare l'uscita audio effettiva. La rete neurale è tipicamente composta da due parti principali: un codificatore e un decodificatore.

campione di sistema multi-altoparlante

Il codificatore tenta di creare un unico vettore di riepilogo basato su vari vettori di input. Le informazioni sui fonemi, gli aspetti emotivi e le caratteristiche vocali vengono inserite nel codificatore per creare una rappresentazione di come dovrebbe essere l'output. Il decoder converte quindi questa rappresentazione in audio ed emette un punteggio di affidabilità.

L'applicazione web 15.ai restituisce quindi i primi tre risultati con il miglior punteggio di affidabilità.

uscite audio e i rispettivi punteggi di affidabilità

Problema

Con l'aumento dei contenuti generati dall'intelligenza artificiale come deepfakes, lo sviluppo di un'IA avanzata in grado di imitare persone reali può essere un serio problema etico.

Attualmente, le voci che puoi scegliere dall'applicazione web 15.ai sono tutti personaggi di fantasia. Tuttavia, ciò non ha impedito all'app di raccogliere alcune polemiche online.

Alcuni doppiatori hanno respinto l'uso della tecnologia di clonazione vocale. Le preoccupazioni che ne derivano includono la rappresentazione, l'uso della loro voce in contenuti espliciti e la possibilità che la tecnologia possa rendere obsoleto il ruolo del doppiatore.

Un'altra controversia si è verificata all'inizio del 2022, quando si è scoperto che una società chiamata Voiceverse NFT utilizzava 15.ai per generare contenuti per la propria campagna di marketing.

Conclusione

La sintesi vocale è già abbastanza diffusa nella vita quotidiana. Assistenti vocali, navigatori GPS. e le telefonate automatizzate sono già diventate un luogo comune. Tuttavia, queste applicazioni sono abbastanza non umane da poter dire che sono parole fatte da macchine.

La tecnologia TTS dal suono naturale ed emotiva potrebbe aprire la porta a nuove applicazioni. Tuttavia, l'etica della clonazione vocale è ancora discutibile nella migliore delle ipotesi. Ha certamente senso il motivo per cui molti di questi ricercatori sono stati riluttanti a condividere l'algoritmo con il pubblico.

15.ai – Sintesi vocale naturale ed emotiva utilizzando le reti neurali