Jukebox AI - Generazione di musica cù e rete neurali

Table di cuntinutu[Piattà][Mostra]

Cos'è Jukebox AI?
Cumu funziona Jukebox?+-
Limitazioni di Jukebox Model
cunchiusioni

Pudete aduprà AI per creà un novu record da u vostru artista preferitu?

Avvizzioni recenti in l'apprendimentu di a macchina anu dimustratu chì i mudelli sò avà capaci di capiscenu dati cumplessi cum'è u testu è l'imaghjini. U Jukebox di OpenAI prova chì ancu a musica pò esse modellata precisamente da una rete neurale.

A musica hè un ughjettu cumplessu à modellu. Avete da piglià in cunsiderà e funzioni simplici, cum'è u tempo, a voce è a tona, è e funzioni più cumplesse cum'è testi, strumenti è struttura musicale.

Utilizà avanzatu machine learning tecnichi, OpenAI hà trovu un modu per cunvertisce l'audio crudu in una rapprisentazione chì altri mudelli ponu utilizà.

Questu articulu spiegà ciò chì Jukebox pò fà, cumu si travaglia è e limitazioni attuali di a tecnulugia.

Cos'è Jukebox AI?

Jukebox hè un mudellu di rete neurale da OpenAI chì pò generà musica cù u cantu. U mudellu pò pruduce musica in una varietà di generi è stili di artisti.

jukebox AI genera canzoni da artisti cunnisciuti

Per esempiu, Jukebox pò pruduce una canzone rock in u stilu di Elvis Presley o una melodia hip hop in u stilu di Kanye West. Pudete visità questu situ per scopre quantu efficace u mudellu hè à catturà u sonu di i vostri artisti musicali è generi preferiti.

U mudellu richiede un generu, un artista è una canzone cum'è input. Stu input guida un mudellu furmatu nantu à milioni di artisti è dati di testi.

Cumu funziona Jukebox?

Fighjemu cumu Jukebox riesce à generà un audio rumanzu novu da un mudellu furmatu nantu à milioni di canzoni.

Prucessu di codificazione

Mentre chì certi mudelli di generazione di musica utilizanu dati di furmazione MIDI, Jukebox hè furmatu nantu à u file audio crudu attuale. Per cumpressà l'audio in un spaziu discretu, Jukebox usa un approcciu auto-encoder cunnisciutu cum'è VQ-VAE.

VQ-VAE sta per Vector Quantized Variational Autoencoder, chì puderia sona un pocu complicatu, allora scomponemu.

Prima, pruvemu à capisce ciò chì vulemu fà quì. In cunfrontu à a canzone o a partitura, un schedariu audio crudu hè assai più cumplessu. Se vulemu chì u nostru mudellu "amparà" da i canti, avemu da trasfurmà in una rapprisintazioni più compressa è simplificata. In machine learning, chjamemu sta rappresentazione sottostante a spaziu latente.

U spaziu latente hè una versione compressa di un input di mostra

An codifica automatica hè una tecnica di apprendimentu senza supervisione chì usa a reta neurale per truvà rappresentazioni latenti non lineari per una distribuzione di dati data. L'autoencoder hè custituitu da duie parti: un codificatore è un decodificatore.

lu Encoder prova à truvà u spaziu latente da un inseme di dati crudu mentre u decoder usa a rapprisintazioni latente per pruvà à ricustruisce in u so furmatu originale. L'autoencoder essenzialmente ampara à cumpressà i dati crudi in modu chì minimizza l'errore di ricustruzzione.

Avà chì sapemu ciò chì face un autoencoder, pruvemu à capisce ciò chì intendiamu per un autoencoder "variazione". Comparatu à l'autocodificatori tipici, l'autocodificatori variational aghjunghjenu un prima à u spaziu latente.

Senza immersi in a matematica, aghjunghjendu un prioristicu probabilisticu mantene a distribuzione latente strettamente compattata. A principal diferenza trà un VAE è un VQ-VAE hè chì l'ultime usa una rappresentazione latente discreta piuttostu cà una cuntinuu. diagramma di l'architettura di jukebox AI per a codificazione è a decodificazione

Ogni livellu VQ-VAE codifica indipindente l'input. A codificazione di u livellu di fondu pruduce a ricustruzzione di più alta qualità. A codificazione di u primu livellu conserva l'infurmazioni musicali essenziali.

Utilizendu Transformers

jukebox AI usa trasformatori per generà u prossimu clip audio in a pista

Avà chì avemu i codici di musica codificati da VQ-VAE, pudemu pruvà generà musica in stu spaziu discretu cumpressu.

Jukebox usa trasformatori autoregressivi per creà l'audio di output. I trasformatori sò un tipu di rete neurale chì funziona megliu cù dati sequenziati. Data una sequenza di tokens, un mudellu di trasformatore pruvà à predichendu u prossimu token.

Jukebox usa una variante simplificata di Sparse Transformers. Una volta chì tutti i mudelli precedenti sò furmatu, u trasformatore genera codici compressi chì sò poi decodificati in audio crudu cù u decodificatore VQ-VAE.

Condizionamentu di l'artista è u generu in Jukebox

U mudellu iniziale di jukebox AI prova di capisce cumu una canzone sona cum'è un generu o artista specificu

U mudellu generativu di Jukebox hè resu più cuntrullabile fornendu segnali cundiziunali supplementari durante u passu di furmazione.

I primi mudelli sò furniti da artisti è etichette di genere per ogni canzone. Questu reduce l'entropia di a prediczione audio è permette à u mudellu di ottene una qualità megliu. L'etichette ci permettenu ancu di guidà u mudellu in un stilu particulari.

In più di l'artista è u generu, i signali di timing sò aghjuntu durante u tempu di furmazione. Questi signali includenu a durata di a canzone, l'ora di iniziu di una mostra particulare, è a frazzioni di a canzone chì hè passatu. Questa infurmazione supplementaria aiuta à u mudellu à capisce i mudelli audio chì si basanu nantu à a struttura generale.

Per esempiu, u mudellu pò amparà chì l'applausi per a musica in diretta succede à a fine di una canzone. U mudellu pò ancu amparà, per esempiu, chì certi genre anu sezzioni strumentali più longu ca l'altri.

Lyrics

I mudelli cundizionati citati in a sezione precedente sò capaci di generà una varietà di voce di cantu. Tuttavia, sti voci tendenu à esse incoherenti è irrecognizable.

Per cuntrullà u mudellu generativu quandu si tratta di generazione di lirica, i circadori furniscenu più cuntestu à u tempu di furmazione. Per aiutà à mapà i dati di lirica à u timing nantu à l'audio attuale, i circadori anu utilizatu Spettaculo per estrarà a voce è NUS AutoLyricsAlign per ottene allineamenti à livellu di e parolle di e parole.

Limitazioni di Jukebox Model

Una di e limitazioni principali di Jukebox hè a so cunniscenza di strutture musicali più grandi. Per esempiu, un brevi clip di 20 secondi di l'output pò sona impressiunanti, ma l'ascultori anu da nutà chì a struttura musicale tipica di ripetiri cori è versi hè assente in u output finali.

U mudellu hè ancu lento à rende. Ci vole circa 9 ore per rende cumplettamente un minutu di audio. Questu limita u numeru di canzoni chì ponu esse generati è impedisce chì u mudellu sia usatu in applicazioni interattive.

Infine, i circadori anu nutatu chì u set di dati di mostra hè principalmente in inglese è mostra principarmenti cunvenzioni musicali occidentali. I ricercatori di l'IA ponu focalizà a ricerca futura nantu à a generazione di musica in altre lingue è stili di musica non occidentali.

cunchiusioni

U prughjettu Jukebox mette in risaltu a capacità crescente di i mudelli di apprendimentu automaticu per creà una rapprisintazioni latenti precisa di dati cumplessi cum'è l'audio crudo. Avvisi simili sò accaduti in u testu, cum'è vistu in prughjetti cum'è GPT-3, è imagine, cum'è vistu in OpenAI DALL-E2.

Mentre a ricerca in questu spaziu hè stata impressiunanti, ci sò sempre preoccupazioni nantu à i diritti di pruprietà intellettuale è l'impattu chì questi mudelli ponu avè in l'industrii creativi in generale. I ricercatori è i creativi anu da cuntinuà à cullaburazione stretta per assicurà chì questi mudelli ponu cuntinuà à migliurà.

I futuri mudelli di musica generativa puderanu prestu prestu cum'è un strumentu per i musicisti o cum'è una applicazione per i creativi chì necessitanu una musica persunalizata per i prughjetti.

Jukebox AI - Generazione di musica cù e rete neurali

Cos'è Jukebox AI?