Možete li koristiti umjetnu inteligenciju za kreiranje nove ploče vašeg omiljenog izvođača?
Nedavna otkrića u mašinskom učenju pokazala su da su modeli sada sposobni razumjeti složene podatke kao što su tekst i slike. OpenAI-jev Jukebox dokazuje da čak i muziku može precizno modelirati neuronska mreža.
Muzika je kompleksan objekat za modeliranje. Morate uzeti u obzir i jednostavne karakteristike kao što su tempo, glasnoća i visina i složenije karakteristike kao što su tekstovi, instrumenti i muzička struktura.
Korišćenje naprednog mašinsko učenje OpenAI je pronašao način da pretvori sirovi zvuk u reprezentaciju koju drugi modeli mogu koristiti.
Ovaj članak će objasniti šta Jukebox može učiniti, kako funkcionira i trenutna ograničenja tehnologije.
Šta je Jukebox AI?
džu-boks je OpenAI model neuronske mreže koji može generirati muziku uz pjevanje. Model može proizvoditi muziku u različitim žanrovima i stilovima umjetnika.
Na primjer, Jukebox može proizvesti rock pjesmu u stilu Elvisa Presleya ili hip hop melodiju u stilu Kanye Westa. Možete posjetiti ovo sajt da istražite koliko je model efikasan u hvatanju zvuka vaših omiljenih muzičkih umjetnika i žanrova.
Model zahtijeva žanr, umjetnika i tekst kao ulaz. Ovaj unos vodi model obučen na milionima umjetnika i podataka o stihovima.
Kako funkcionira džuboks?
Pogledajmo kako džuboks uspeva da generiše novi sirovi zvuk od modela obučenog na milionima pesama.
Proces kodiranja
Dok neki modeli muzičke generacije koriste MIDI podatke za obuku, Jukebox se trenira na stvarnom sirovom audio fajlu. Za kompresiju zvuka u diskretni prostor, Jukebox koristi pristup automatskog enkodera poznat kao VQ-VAE.
VQ-VAE je skraćenica za Vector Quantized Variation Autoencoder, što bi moglo zvučati malo komplikovano, pa hajde da ga razložimo.
Prvo, hajde da pokušamo da shvatimo šta želimo da uradimo ovde. U poređenju sa tekstovima ili notama, neobrađeni audio fajl je mnogo složeniji. Ako želimo da naš model „uči“ iz pjesama, morat ćemo ga transformirati u komprimiraniju i pojednostavljenu reprezentaciju. U mašinsko učenje, ovo osnovno predstavljanje nazivamo a latentni prostor.
An autoencode je tehnika učenja bez nadzora koja koristi a neuronska mreža pronaći nelinearne latentne reprezentacije za datu distribuciju podataka. Autokoder se sastoji od dva dijela: enkodera i dekodera.
The koder pokušava pronaći latentni prostor iz skupa sirovih podataka dok je dekoder koristi latentnu reprezentaciju da pokuša da je rekonstruiše nazad u originalni format. Autokoder u suštini uči kako komprimirati neobrađene podatke na takav način da minimizira grešku rekonstrukcije.
Sada kada znamo šta radi autokoder, pokušajmo da razumemo šta podrazumevamo pod „varijacionim“ autokoderom. U poređenju sa tipičnim automatskim koderima, varijacioni autokoderi dodaju a pre latentnom prostoru.
Bez uranjanja u matematiku, dodavanje vjerovatnoće prethodnog održava latentnu distribuciju blisko sabijenom. Glavna razlika između VAE i VQ-VAE je u tome što ovaj drugi koristi diskretnu latentnu reprezentaciju, a ne kontinuiranu.
Svaki nivo VQ-VAE nezavisno kodira ulaz. Kodiranje donjeg nivoa proizvodi rekonstrukciju najvišeg kvaliteta. Kodiranje najvišeg nivoa zadržava bitne muzičke informacije.
Korištenje transformatora
Sada kada imamo muzičke kodove kodirane VQ-VAE, možemo pokušati generisati muziku u ovom komprimovanom diskretnom prostoru.
Džuboks koristi autoregresivni transformatori za kreiranje izlaznog zvuka. Transformatori su vrsta neuronske mreže koja najbolje radi sa sekvenciranim podacima. S obzirom na niz tokena, model transformatora će pokušati predvidjeti sljedeći token.
Jukebox koristi pojednostavljenu varijantu Sparse Transformers. Nakon što su svi prethodni modeli obučeni, transformator generiše komprimirane kodove koji se zatim dekodiraju natrag u sirovi zvuk koristeći VQ-VAE dekoder.
Umjetnik i žanrovski uvjetovani u džuboksu
Generativni model Džuboksa je učinjen više kontrolisanim pružanjem dodatnih uslovnih signala tokom koraka treninga.
Prve modele obezbeđuju izvođači i žanrovske etikete za svaku pesmu. Ovo smanjuje entropiju audio predviđanja i omogućava modelu da postigne bolji kvalitet. Oznake nam također omogućavaju da model upravljamo u određenom stilu.
Osim izvođača i žanra, tokom treninga se dodaju i vremenski signali. Ovi signali uključuju dužinu pjesme, vrijeme početka određenog uzorka i dio pjesme koji je prošao. Ove dodatne informacije pomažu modelu da razumije audio obrasce koji se oslanjaju na cjelokupnu strukturu.
Na primjer, model može naučiti da se aplauz za živu muziku dešava na kraju pjesme. Model također može naučiti, na primjer, da neki žanrovi imaju duže instrumentalne dionice od drugih.
lyrics
Kondicionirani modeli spomenuti u prethodnom odjeljku sposobni su generirati različite glasove za pjevanje. Međutim, ovi glasovi su obično nekoherentni i neprepoznatljivi.
Da bi kontrolisali generativni model kada je u pitanju generisanje lirike, istraživači daju više konteksta tokom treninga. Istraživači su koristili kako bi pomogli u mapiranju tekstova u vrijeme na stvarnom zvuku Spleeter za izvlačenje vokala i NUS AutoLyricsAlign da dobijete poravnanja stihova na nivou reči.
Ograničenja modela džuboksa
Jedno od glavnih ograničenja džuboksa je njegovo razumijevanje većih muzičkih struktura. Na primjer, kratak isječak od 20 sekundi može zvučati impresivno, ali slušaoci će primijetiti da tipična muzička struktura refrena i stihova koji se ponavljaju izostaje u finalnom rezultatu.
Model se također sporo prikazuje. Potrebno je otprilike 9 sati da se u potpunosti prikaže jedan minut zvuka. Ovo ograničava broj pjesama koje se mogu generirati i sprječava da se model koristi u interaktivnim aplikacijama.
Na kraju, istraživači su primijetili da je skup podataka uzorka prvenstveno na engleskom i prvenstveno prikazuje zapadnjačke muzičke konvencije. Istraživači umjetne inteligencije mogu fokusirati buduća istraživanja na stvaranje muzike na drugim jezicima i nezapadnjačkim muzičkim stilovima.
zaključak
Projekat Jukebox naglašava rastuću sposobnost modela mašinskog učenja da kreiraju tačne latentne reprezentacije složenih podataka kao što je sirovi zvuk. Slični pomaci se dešavaju u tekstu, što se vidi u projektima poput GPT-3, i slike, kao što se vidi u OpenAI DALL-E2.
Iako su istraživanja u ovom prostoru bila impresivna, još uvijek postoji zabrinutost oko prava intelektualnog vlasništva i uticaja koji ovi modeli mogu imati na kreativne industrije u cjelini. Istraživači i kreativci bi trebali nastaviti blisko sarađivati kako bi osigurali da se ovi modeli mogu nastaviti poboljšavati.
Budući generativni muzički modeli uskoro bi mogli biti u mogućnosti da djeluju kao alat za muzičare ili kao aplikacija za kreativce kojima je potrebna prilagođena muzika za projekte.
Ostavite odgovor