Puoi usare l'IA per creare un nuovo record dal tuo artista preferito?
I recenti progressi nell'apprendimento automatico hanno dimostrato che i modelli sono ora in grado di comprendere dati complessi come testo e immagini. Jukebox di OpenAI dimostra che anche la musica può essere modellata con precisione da una rete neurale.
La musica è un oggetto complesso da modellare. Devi prendere in considerazione sia caratteristiche semplici come tempo, volume e altezza sia caratteristiche più complesse come testi, strumenti e struttura musicale.
Utilizzando advanced machine learning tecniche, OpenAI ha trovato un modo per convertire l'audio grezzo in una rappresentazione che può essere utilizzata da altri modelli.
Questo articolo spiegherà cosa può fare Jukebox, come funziona e gli attuali limiti della tecnologia.
Cos'è Jukebox AI?
juke-box è un modello di rete neurale di OpenAI in grado di generare musica con il canto. Il modello può produrre musica in una varietà di generi e stili di artisti.
Ad esempio, Jukebox può produrre una canzone rock nello stile di Elvis Presley o una melodia hip hop nello stile di Kanye West. Puoi visitare questo sito web per esplorare l'efficacia del modello nel catturare il suono dei tuoi artisti e generi musicali preferiti.
Il modello richiede un genere, un artista e i testi come input. Questo input guida un modello addestrato su milioni di artisti e dati sui testi.
Come funziona Jukebox?
Diamo un'occhiata a come Jukebox riesce a generare un nuovo audio grezzo da un modello addestrato su milioni di brani.
Processo di codifica
Mentre alcuni modelli di generazione musicale utilizzano i dati di addestramento MIDI, Jukebox viene addestrato sul file audio grezzo effettivo. Per comprimere l'audio in uno spazio discreto, Jukebox utilizza un approccio con codificatore automatico noto come VQ-VAE.
VQ-VAE sta per Vector Quantized Variational Autoencoder, che potrebbe sembrare un po' complicato, quindi analizziamolo.
Per prima cosa, cerchiamo di capire cosa vogliamo fare qui. Rispetto ai testi o agli spartiti, un file audio grezzo è molto più complesso. Se vogliamo che il nostro modello “impari” dalle canzoni, dovremo trasformarlo in una rappresentazione più compressa e semplificata. In machine learning, chiamiamo questa rappresentazione sottostante a spazio latente.
An codificatore automatico è una tecnica di apprendimento senza supervisione che utilizza a rete neurale per trovare rappresentazioni latenti non lineari per una data distribuzione di dati. L'autoencoder è composto da due parti: un codificatore e un decodificatore.
I codificatore cerca di trovare lo spazio latente da un insieme di dati grezzi mentre il decoder usa la rappresentazione latente per cercare di ricostruirla nel suo formato originale. L'autoencoder impara essenzialmente come comprimere i dati grezzi in modo tale da ridurre al minimo l'errore di ricostruzione.
Ora che sappiamo cosa fa un autoencoder, proviamo a capire cosa intendiamo per autoencoder “variante”. Rispetto ai tipici autoencoder, gli autoencoder variazionali aggiungono a prima dello spazio latente.
Senza immergersi nella matematica, l'aggiunta di un priore probabilistico mantiene la distribuzione latente strettamente compattata. La principale differenza tra un VAE e un VQ-VAE è che quest'ultimo utilizza una rappresentazione latente discreta piuttosto che continua.
Ciascun livello VQ-VAE codifica in modo indipendente l'input. La codifica di livello inferiore produce la ricostruzione della massima qualità. La codifica di primo livello conserva le informazioni musicali essenziali.
Utilizzo di trasformatori
Ora che abbiamo i codici musicali codificati da VQ-VAE, possiamo provare a farlo generare musica in questo spazio discreto compresso.
Il jukebox usa trasformatori autoregressivi per creare l'audio in uscita. I trasformatori sono un tipo di rete neurale che funziona meglio con i dati sequenziati. Data una sequenza di token, un modello di trasformatore proverà a prevedere il token successivo.
Jukebox utilizza una variante semplificata di Sparse Transformers. Una volta che tutti i modelli precedenti sono stati addestrati, il trasformatore genera codici compressi che vengono quindi decodificati nuovamente in audio grezzo utilizzando il decoder VQ-VAE.
Artista e condizionamento di genere in Jukebox
Il modello generativo di Jukebox è reso più controllabile fornendo segnali condizionali aggiuntivi durante la fase di addestramento.
I primi modelli sono forniti da artisti ed etichette di genere per ogni canzone. Ciò riduce l'entropia della previsione audio e consente al modello di ottenere una qualità migliore. Le etichette ci consentono anche di guidare il modello in uno stile particolare.
Oltre all'artista e al genere, durante l'allenamento vengono aggiunti segnali di temporizzazione. Questi segnali includono la durata della canzone, l'ora di inizio di un particolare campione e la frazione della canzone che è trascorsa. Queste informazioni aggiuntive aiutano il modello a comprendere i modelli audio che dipendono dalla struttura generale.
Ad esempio, il modello potrebbe apprendere che gli applausi per la musica dal vivo si verificano alla fine di una canzone. Il modello può anche apprendere, ad esempio, che alcuni generi hanno sezioni strumentali più lunghe di altri.
Lyrics
I modelli condizionati menzionati nella sezione precedente sono in grado di generare una varietà di voci cantate. Tuttavia, queste voci tendono ad essere incoerenti e irriconoscibili.
Per controllare il modello generativo quando si tratta di generazione dei testi, i ricercatori forniscono più contesto durante l'allenamento. Per aiutare a mappare i dati dei testi sui tempi dell'audio reale, i ricercatori hanno utilizzato Spleeter per estrarre voci e NUS AutoLyricsAlign per ottenere allineamenti a livello di parola dei testi.
Limitazioni del modello Jukebox
Uno dei principali limiti di Jukebox è la sua comprensione di strutture musicali più grandi. Ad esempio, una breve clip di 20 secondi dell'output può sembrare impressionante, ma gli ascoltatori noteranno che la tipica struttura musicale della ripetizione di ritornelli e strofe è assente nell'output finale.
Il modello è anche lento da renderizzare. Occorrono circa 9 ore per eseguire il rendering completo di un minuto di audio. Ciò limita il numero di brani che possono essere generati e impedisce l'utilizzo del modello in applicazioni interattive.
Infine, i ricercatori hanno notato che il set di dati di esempio è principalmente in inglese e mostra principalmente convenzioni musicali occidentali. I ricercatori dell'IA possono concentrare la ricerca futura sulla generazione di musica in altre lingue e stili musicali non occidentali.
Conclusione
Il progetto Jukebox mette in evidenza la crescente capacità dei modelli di apprendimento automatico di creare rappresentazioni latenti accurate di dati complessi come l'audio grezzo. Simili scoperte stanno avvenendo nel testo, come si vede in progetti come GPT-3e immagini, come si vede in OpenAI DALL-MI2.
Sebbene la ricerca in questo spazio sia stata impressionante, ci sono ancora preoccupazioni sui diritti di proprietà intellettuale e sull'impatto che questi modelli potrebbero avere sulle industrie creative nel loro insieme. Ricercatori e creativi dovrebbero continuare a collaborare strettamente per garantire che questi modelli possano continuare a migliorare.
I futuri modelli di musica generativa potrebbero presto essere in grado di fungere da strumento per i musicisti o come applicazione per i creativi che hanno bisogno di una musica personalizzata per i progetti.
Lascia un Commento