Poți folosi AI pentru a crea o înregistrare nouă de la artistul tău preferat?
Descoperirile recente în învățarea automată au arătat că modelele sunt acum capabile să înțeleagă date complexe, cum ar fi textul și imaginile. Jukebox-ul OpenAI demonstrează că chiar și muzica poate fi modelată precis de o rețea neuronală.
Muzica este un obiect complex de modelat. Trebuie să luați în considerare atât caracteristici simple, cum ar fi tempo, volumul și înălțimea, cât și caracteristici mai complexe, cum ar fi versurile, instrumentele și structura muzicală.
Folosind avansat masina de învățare tehnici, OpenAI a găsit o modalitate de a converti audio brut într-o reprezentare pe care alte modele o pot folosi.
Acest articol va explica ce poate face Jukebox, cum funcționează și limitările actuale ale tehnologiei.
Ce este Jukebox AI?
Tonomat este un model de rețea neuronală de la OpenAI care poate genera muzică cu cântând. Modelul poate produce muzică într-o varietate de genuri și stiluri de artiști.
De exemplu, Jukebox poate produce o melodie rock în stilul lui Elvis Presley sau o melodie hip hop în stilul lui Kanye West. Puteți vizita asta pentru a explora cât de eficient este modelul în a capta sunetul artiștilor și genurilor muzicale preferate.
Modelul necesită un gen, un artist și versuri ca intrare. Această intrare ghidează un model instruit pe milioane de artiști și date despre versuri.
Cum funcționează Jukebox-ul?
Să ne uităm la modul în care Jukebox reușește să genereze audio brut nou de la un model antrenat pe milioane de melodii.
Procesul de codificare
În timp ce unele modele de generare de muzică folosesc date de antrenament MIDI, Jukebox este antrenat pe fișierul audio brut real. Pentru a comprima audio într-un spațiu discret, Jukebox utilizează o abordare de codificare automată cunoscută sub numele de VQ-VAE.
VQ-VAE înseamnă Vector Quantized Variational Autoencoder, care ar putea suna puțin complicat, așa că haideți să-l descompunem.
Mai întâi, să încercăm să înțelegem ce vrem să facem aici. În comparație cu versuri sau partituri, un fișier audio brut este mult mai complex. Dacă vrem ca modelul nostru să „învețe” din cântece, va trebui să-l transformăm într-o reprezentare mai comprimată și simplificată. În masina de învățare, numim această reprezentare de bază a spatiu latent.
An codificare automată este o tehnică de învățare nesupravegheată care utilizează a rețele neuronale pentru a găsi reprezentări latente neliniare pentru o distribuție de date dată. Autoencoderul este format din două părți: un encoder și un decodor.
encoder încearcă să găsească spațiul latent dintr-un set de date brute în timp ce decodor folosește reprezentarea latentă pentru a încerca să o reconstituie în formatul original. Autoencoderul învață în esență cum să comprima datele brute astfel încât să minimizeze eroarea de reconstrucție.
Acum că știm ce face un autoencoder, să încercăm să înțelegem ce înțelegem prin autoencoder „variațional”. În comparație cu autoencoderele tipice, autoencoderele variaționale adaugă un prealabil spațiului latent.
Fără a te scufunda în matematică, adăugarea unui prior probabilistic menține distribuția latentă strâns compactă. Principala diferență dintre un VAE și un VQ-VAE este că acesta din urmă folosește o reprezentare latentă discretă mai degrabă decât una continuă.
Fiecare nivel VQ-VAE codifică în mod independent intrarea. Codarea de nivel inferior produce reconstrucția de cea mai înaltă calitate. Codificarea de nivel superior reține informații muzicale esențiale.
Folosind transformatoare
Acum că avem codurile muzicale codificate de VQ-VAE, putem încerca genera muzica în acest spațiu discret comprimat.
Utilizări jukebox transformatoare autoregresive pentru a crea ieșirea audio. Transformatoarele sunt un tip de rețea neuronală care funcționează cel mai bine cu date secvențiale. Având în vedere o secvență de jetoane, un model de transformator va încerca să prezică următorul jetoane.
Jukebox folosește o variantă simplificată a Sparse Transformers. Odată ce toate modelele anterioare sunt antrenate, transformatorul generează coduri comprimate care sunt apoi decodate înapoi în audio brut folosind decodorul VQ-VAE.
Condiționarea artistului și a genului în Jukebox
Modelul generativ al Jukebox-ului este mai controlabil prin furnizarea de semnale condiționate suplimentare în timpul pasului de antrenament.
Primele modele sunt furnizate de artiști și etichete de gen pentru fiecare melodie. Acest lucru reduce entropia predicției audio și permite modelului să obțină o calitate mai bună. De asemenea, etichetele ne permit să direcționăm modelul într-un anumit stil.
Pe lângă artist și gen, semnalele de sincronizare sunt adăugate în timpul antrenamentului. Aceste semnale includ lungimea melodiei, ora de începere a unei anumite probe și fracțiunea din melodie care a trecut. Aceste informații suplimentare ajută modelul să înțeleagă tiparele audio care se bazează pe structura generală.
De exemplu, modelul poate afla că aplauzele pentru muzica live au loc la sfârșitul unui cântec. Modelul mai poate învăța, de exemplu, că unele genuri au secțiuni instrumentale mai lungi decât altele.
Versuri
Modelele condiționate menționate în secțiunea anterioară sunt capabile să genereze o varietate de voci cântătoare. Cu toate acestea, aceste voci tind să fie incoerente și de nerecunoscut.
Pentru a controla modelul generativ atunci când vine vorba de generarea versurilor, cercetătorii oferă mai mult context în timpul antrenamentului. Pentru a ajuta la maparea datelor versurilor la sincronizarea audio real, cercetătorii au folosit Spleeter pentru a extrage vocea și NUS AutolyricsAlign pentru a obține aliniamente la nivel de cuvânt ale versurilor.
Limitările modelului Jukebox
Una dintre principalele limitări ale Jukebox este înțelegerea structurilor muzicale mai mari. De exemplu, un scurt clip de 20 de secunde al ieșirii poate suna impresionant, dar ascultătorii vor observa că structura muzicală tipică a repetarea refrenurilor și versurilor este absentă în ieșirea finală.
Modelul este, de asemenea, lent la randare. Este nevoie de aproximativ 9 ore pentru a reda complet un minut de sunet. Acest lucru limitează numărul de melodii care pot fi generate și împiedică utilizarea modelului în aplicații interactive.
În cele din urmă, cercetătorii au observat că setul de date eșantion este în principal în limba engleză și afișează în primul rând convențiile muzicale occidentale. Cercetătorii AI pot concentra cercetările viitoare pe generarea de muzică în alte limbi și stiluri muzicale non-occidentale.
Concluzie
Proiectul Jukebox evidențiază capacitatea în creștere a modelelor de învățare automată de a crea reprezentări latente precise ale datelor complexe, cum ar fi audio brut. Descoperiri similare se petrec în text, așa cum se vede în proiecte precum GPT-3, și imagini, așa cum se vede în OpenAI DALL-E2.
Deși cercetările în acest spațiu au fost impresionante, există încă preocupări cu privire la drepturile de proprietate intelectuală și impactul pe care aceste modele îl pot avea asupra industriilor creative în ansamblu. Cercetătorii și creatorii ar trebui să continue să colaboreze strâns pentru a se asigura că aceste modele se pot îmbunătăți în continuare.
Viitoarele modele de muzică generativă pot fi în curând capabile să acționeze ca un instrument pentru muzicieni sau ca o aplicație pentru creativii care au nevoie de o muzică personalizată pentru proiecte.
Lasă un comentariu