Ali lahko z umetno inteligenco ustvarite novo ploščo svojega najljubšega izvajalca?
Nedavni preboji v strojnem učenju so pokazali, da so modeli zdaj sposobni razumeti kompleksne podatke, kot so besedilo in slike. OpenAI's Jukebox dokazuje, da je mogoče tudi glasbo natančno modelirati z nevronsko mrežo.
Glasba je zapleten objekt za modeliranje. Upoštevati morate tako preproste lastnosti, kot so tempo, glasnost in višina, kot bolj zapletene lastnosti, kot so besedila, instrumenti in glasbena struktura.
Uporaba naprednih strojno učenje tehnik je OpenAI našel način za pretvorbo surovega zvoka v predstavitev, ki jo lahko uporabljajo drugi modeli.
Ta članek bo pojasnil, kaj zmore Jukebox, kako deluje in trenutne omejitve tehnologije.
Kaj je Jukebox AI?
Jukebox je model nevronske mreže OpenAI, ki lahko ustvarja glasbo s petjem. Model lahko ustvarja glasbo v različnih žanrih in stilih izvajalcev.
Na primer, Jukebox lahko ustvari rock skladbo v slogu Elvisa Presleyja ali hip hop melodijo v slogu Kanyeja Westa. To lahko obiščete spletna stran da raziščete, kako učinkovit je model pri zajemanju zvoka vaših najljubših glasbenih izvajalcev in žanrov.
Model zahteva žanr, izvajalca in besedilo kot vnos. Ta vnos vodi model, usposobljen na milijonih izvajalcev in podatkov o besedilih.
Kako deluje Jukebox?
Poglejmo, kako Jukeboxu uspe ustvariti nov neobdelani zvok iz modela, ki je naučen na milijonih pesmi.
Postopek kodiranja
Medtem ko nekateri modeli za ustvarjanje glasbe uporabljajo podatke za usposabljanje MIDI, se Jukebox uri na dejanski surovi zvočni datoteki. Za stiskanje zvoka v ločen prostor Jukebox uporablja pristop samodejnega kodirnika, znan kot VQ-VAE.
VQ-VAE pomeni Vector Quantized Variational Autoencoder, kar se morda sliši nekoliko zapleteno, zato ga razčlenimo.
Najprej poskusimo razumeti, kaj želimo tukaj početi. V primerjavi z besedili ali notami je neobdelana zvočna datoteka veliko bolj zapletena. Če želimo, da se naš model »uči« iz pesmi, ga bomo morali preoblikovati v bolj stisnjeno in poenostavljeno predstavitev. notri strojno učenje, imenujemo to osnovno predstavitev a latentni prostor.
An avtokoder je nenadzorovana učna tehnika, ki uporablja a nevronska mreža najti nelinearne latentne predstavitve za dano porazdelitev podatkov. Avtokodirnik je sestavljen iz dveh delov: kodirnika in dekoderja.
O dajalnika poskuša najti latentni prostor iz niza neobdelanih podatkov, medtem ko dekoder uporablja latentno predstavitev, da jo poskuša rekonstruirati nazaj v prvotno obliko. Samodejni kodirnik se v bistvu nauči, kako stisniti neobdelane podatke na tak način, da zmanjša napako rekonstrukcije.
Zdaj, ko vemo, kaj počne samodejni kodirnik, poskusimo razumeti, kaj mislimo z "variacijskim" samodejnim kodirnikom. V primerjavi s tipičnimi samodejnimi kodirniki variacijski samodejni kodirniki dodajo a priori latentnemu prostoru.
Ne da bi se poglobili v matematiko, dodajanje verjetnostnega predhodnika ohranja latentno porazdelitev tesno strnjeno. Glavna razlika med VAE in VQ-VAE je, da slednji uporablja diskretno latentno predstavitev in ne zvezno.
Vsaka raven VQ-VAE neodvisno kodira vhod. Kodiranje na spodnji ravni ustvari rekonstrukcijo najvišje kakovosti. Kodiranje na najvišji ravni ohranja bistvene glasbene informacije.
Uporaba transformatorjev
Zdaj, ko imamo glasbene kode, kodirane z VQ-VAE, lahko poskusimo ustvarjanje glasbe v tem stisnjenem diskretnem prostoru.
Jukebox uporablja avtoregresivni transformatorji za ustvarjanje izhodnega zvoka. Transformatorji so vrsta nevronske mreže, ki najbolje deluje z zaporednimi podatki. Glede na zaporedje žetonov bo transformatorski model poskušal predvideti naslednji žeton.
Jukebox uporablja poenostavljeno različico Sparse Transformers. Ko so vsi predhodni modeli usposobljeni, transformator ustvari stisnjene kode, ki se nato dekodirajo nazaj v neobdelani zvok z uporabo dekoderja VQ-VAE.
Izvajalec in žanrsko pogojevanje v Jukeboxu
Generativni model Jukeboxa je bolj nadzorovan z zagotavljanjem dodatnih pogojnih signalov med korakom usposabljanja.
Prve modele zagotavljajo izvajalci in žanrske oznake za vsako pesem. To zmanjša entropijo zvočne napovedi in omogoči modelu, da doseže boljšo kakovost. Etikete nam tudi omogočajo, da model usmerimo v določen stil.
Med vadbo se poleg izvajalca in zvrsti dodajo tudi časovni signali. Ti signali vključujejo dolžino pesmi, začetni čas določenega vzorca in del pesmi, ki je pretekel. Te dodatne informacije pomagajo modelu razumeti zvočne vzorce, ki so odvisni od celotne strukture.
Na primer, model se lahko nauči, da se aplavz za živo glasbo zgodi na koncu pesmi. Model se lahko tudi nauči, na primer, da imajo nekateri žanri daljše instrumentalne odseke kot drugi.
lyrics
Kondicionirani modeli, omenjeni v prejšnjem razdelku, so sposobni generirati različne pevske glasove. Vendar pa so ti glasovi ponavadi nekoherentni in neprepoznavni.
Za nadzor generativnega modela, ko gre za ustvarjanje besedil, raziskovalci zagotavljajo več konteksta v času usposabljanja. Za pomoč pri preslikavi besedilnih podatkov v čas dejanskega zvoka so raziskovalci uporabili Slažje za izločanje vokalov in NUS AutoLyricsAlign da bi dosegli poravnavo besedil na ravni besed.
Omejitve modela Jukebox
Ena od glavnih omejitev Jukeboxa je njegovo razumevanje večjih glasbenih struktur. Na primer, kratek 20-sekundni posnetek izpisa morda zveni impresivno, vendar bodo poslušalci opazili, da v končnem izhodu ni tipične glasbene strukture ponavljajočih se refrenov in verzov.
Model je tudi počasen za upodabljanje. Za popolno upodabljanje ene minute zvoka traja približno 9 ur. To omejuje število skladb, ki jih je mogoče ustvariti, in preprečuje uporabo modela v interaktivnih aplikacijah.
Nazadnje so raziskovalci ugotovili, da je vzorčni nabor podatkov predvsem v angleščini in prikazuje predvsem zahodne glasbene konvencije. Raziskovalci umetne inteligence lahko prihodnje raziskave usmerijo v ustvarjanje glasbe v drugih jezikih in nezahodnih glasbenih stilih.
zaključek
Projekt Jukebox poudarja vse večjo zmožnost modelov strojnega učenja za ustvarjanje natančnih latentnih predstavitev kompleksnih podatkov, kot je neobdelani zvok. Podobni preboji se dogajajo v besedilu, kot jih vidimo pri projektih, kot je GPT-3in slike, kot je razvidno iz OpenAI DALL-E2.
Čeprav so bile raziskave na tem področju impresivne, še vedno obstajajo pomisleki glede pravic intelektualne lastnine in vpliva, ki ga lahko imajo ti modeli na ustvarjalne industrije kot celoto. Raziskovalci in ustvarjalci bi morali še naprej tesno sodelovati, da bi zagotovili nadaljnje izboljšave teh modelov.
Prihodnji generativni glasbeni modeli bodo morda kmalu lahko delovali kot orodje za glasbenike ali kot aplikacija za ustvarjalce, ki potrebujejo glasbo po meri za projekte.
Pustite Odgovori