Môžete použiť AI na vytvorenie novej nahrávky od vášho obľúbeného interpreta?
Nedávne prelomy v oblasti strojového učenia ukázali, že modely sú teraz schopné porozumieť zložitým údajom, ako sú text a obrázky. Jukebox od OpenAI dokazuje, že aj hudbu je možné presne modelovať pomocou neurónovej siete.
Hudba je zložitý objekt na modelovanie. Musíte vziať do úvahy jednoduché funkcie, ako je tempo, hlasitosť a výška tónu, ako aj zložitejšie funkcie, ako sú texty, nástroje a hudobná štruktúra.
Používanie pokročilých strojové učenie OpenAI našla spôsob, ako previesť nespracovaný zvuk na reprezentáciu, ktorú môžu použiť iné modely.
Tento článok vysvetlí, čo Jukebox dokáže, ako funguje a aké sú súčasné obmedzenia technológie.
Čo je Jukebox AI?
hudobný automat je model neurónovej siete od OpenAI, ktorý dokáže generovať hudbu so spevom. Model môže produkovať hudbu v rôznych žánroch a umeleckých štýloch.
Jukebox dokáže vyprodukovať napríklad rockovú skladbu v štýle Elvisa Presleyho alebo hip-hopovú melódiu v štýle Kanye Westa. Môžete navštíviť toto webové stránky aby ste zistili, aký efektívny je model pri zachytávaní zvuku vašich obľúbených hudobných umelcov a žánrov.
Model vyžaduje ako vstup žáner, interpreta a text. Tento vstup vedie model trénovaný na miliónoch umelcov a textových údajoch.
Ako Jukebox funguje?
Pozrime sa, ako Jukebox dokáže generovať nový nespracovaný zvuk z modelu trénovaného na miliónoch skladieb.
Proces kódovania
Zatiaľ čo niektoré modely hudobnej generácie používajú trénovacie dáta MIDI, Jukebox je trénovaný na skutočnom surovom audio súbore. Na kompresiu zvuku do diskrétneho priestoru používa Jukebox prístup s automatickým kódovaním známy ako VQ-VAE.
VQ-VAE znamená Vector Quantized Variational Autoencoder, čo môže znieť trochu komplikovane, tak si to poďme rozobrať.
Najprv sa pokúsme pochopiť, čo tu chceme robiť. V porovnaní s textami alebo notami je nespracovaný zvukový súbor oveľa zložitejší. Ak chceme, aby sa náš model „učil“ z pesničiek, budeme ho musieť pretransformovať na komprimovanejšiu a zjednodušenú reprezentáciu. In strojové učenie, nazývame toto základné zobrazenie a latentný priestor.
An automatické kódovanie je technika učenia bez dozoru, ktorá využíva a neurónové sieť nájsť nelineárne latentné reprezentácie pre danú distribúciu údajov. Autokodér sa skladá z dvoch častí: kodéra a dekodéra.
kodér sa snaží nájsť latentný priestor zo súboru nespracovaných údajov, zatiaľ čo dekodér používa latentnú reprezentáciu na pokus o jej rekonštrukciu späť do pôvodného formátu. Autokodér sa v podstate učí, ako komprimovať nespracované údaje takým spôsobom, aby sa minimalizovala chyba rekonštrukcie.
Teraz, keď vieme, čo robí autokóder, skúsme pochopiť, čo máme na mysli pod „variačným“ autokóderom. V porovnaní s typickými automatickými kódovačmi pridávajú variačné automatické kódovače pred latentný priestor.
Bez toho, aby sme sa ponorili do matematiky, pridanie pravdepodobnostného priora udržuje latentnú distribúciu tesne kompaktnú. Hlavný rozdiel medzi VAE a VQ-VAE je v tom, že druhý používa skôr diskrétnu latentnú reprezentáciu ako súvislú.
Každá úroveň VQ-VAE nezávisle kóduje vstup. Kódovanie na spodnej úrovni vytvára najkvalitnejšiu rekonštrukciu. Najvyššia úroveň kódovania uchováva základné hudobné informácie.
Použitie transformátorov
Teraz, keď máme hudobné kódy zakódované pomocou VQ-VAE, môžeme sa o to pokúsiť vytvárať hudbu v tomto stlačenom diskrétnom priestore.
Používa jukebox autoregresné transformátory na vytvorenie výstupného zvuku. Transformátory sú typom neurónovej siete, ktorá najlepšie funguje so sekvenčnými dátami. Vzhľadom na postupnosť tokenov sa model transformátora pokúsi predpovedať ďalší token.
Jukebox využíva zjednodušený variant Sparse Transformers. Akonáhle sú všetky predchádzajúce modely vyškolené, transformátor generuje komprimované kódy, ktoré sú potom dekódované späť do surového zvuku pomocou dekodéra VQ-VAE.
Úprava umelca a žánru v jukeboxe
Generatívny model Jukeboxu je lepšie ovládateľný poskytovaním dodatočných podmienených signálov počas tréningového kroku.
Prvé modely poskytujú interpreti a žánrové označenia pre každú skladbu. To znižuje entropiu predikcie zvuku a umožňuje modelu dosiahnuť lepšiu kvalitu. Štítky nám tiež umožňujú riadiť model v určitom štýle.
Okrem interpreta a žánru sa počas tréningu pridávajú aj časové signály. Tieto signály zahŕňajú dĺžku skladby, čas začiatku konkrétnej vzorky a časť skladby, ktorá uplynula. Tieto dodatočné informácie pomáhajú modelu pochopiť zvukové vzory, ktoré závisia od celkovej štruktúry.
Modelka sa napríklad môže dozvedieť, že potlesk živej hudby zaznie na konci piesne. Modelka sa môže naučiť napríklad aj to, že niektoré žánre majú dlhšie inštrumentálne úseky ako iné.
text
Kondicionované modely uvedené v predchádzajúcej časti sú schopné generovať rôzne spevácke hlasy. Tieto hlasy však bývajú nesúrodé a nerozoznateľné.
Na kontrolu generatívneho modelu, pokiaľ ide o generovanie textov, výskumníci poskytujú viac kontextu v čase školenia. Na pomoc pri mapovaní textových údajov k načasovaniu skutočného zvuku výskumníci použili Spleeter extrahovať vokály a NUS AutoLyricsAlign získať zarovnania textov na úrovni slov.
Obmedzenia modelu Jukebox
Jedným z hlavných obmedzení Jukeboxu je jeho chápanie väčších hudobných štruktúr. Napríklad krátky 20-sekundový klip výstupu môže znieť pôsobivo, ale poslucháči si všimnú, že v konečnom výstupe absentuje typická hudobná štruktúra opakujúcich sa refrénov a veršov.
Model sa tiež pomaly vykresľuje. Úplné vykreslenie jednej minúty zvuku trvá približne 9 hodín. To obmedzuje počet skladieb, ktoré je možné vygenerovať, a zabraňuje použitiu modelu v interaktívnych aplikáciách.
Nakoniec výskumníci poznamenali, že vzorový súbor údajov je primárne v angličtine a zobrazuje predovšetkým západné hudobné konvencie. Výskumníci AI sa môžu v budúcnosti zamerať na vytváranie hudby v iných jazykoch a iných ako západných hudobných štýloch.
záver
Projekt Jukebox zdôrazňuje rastúcu schopnosť modelov strojového učenia vytvárať presné latentné reprezentácie zložitých údajov, ako je nespracovaný zvuk. Podobné prelomy sa dejú v texte, ako je to vidieť v projektoch ako GPT-3a obrázky, ako je vidieť v OpenAI DALL-E2.
Aj keď bol výskum v tomto priestore pôsobivý, stále existujú obavy týkajúce sa práv duševného vlastníctva a vplyvu, ktorý môžu mať tieto modely na kreatívny priemysel ako celok. Výskumníci a kreatívci by mali naďalej úzko spolupracovať, aby sa zabezpečilo, že sa tieto modely budú môcť naďalej zlepšovať.
Budúce generatívne hudobné modely môžu byť čoskoro schopné fungovať ako nástroj pre hudobníkov alebo ako aplikácia pre kreatívcov, ktorí potrebujú vlastnú hudbu pre projekty.
Nechaj odpoveď