Jukebox AI – Zene generálása neurális hálózatok segítségével

Tartalomjegyzék[Elrejt][Előadás]

Mi az a Jukebox AI?
Hogyan működik a Jukebox?+-
A Jukebox modell korlátai
Következtetés

Tudsz mesterséges intelligencia segítségével új lemezt készíteni kedvenc előadódból?

A gépi tanulás terén a közelmúltban elért áttörések megmutatták, hogy a modellek ma már képesek olyan összetett adatok megértésére, mint a szöveg és a képek. Az OpenAI Jukebox-ja bizonyítja, hogy még a zenét is lehet pontosan modellezni egy neurális hálózattal.

A zene bonyolult modellezendő tárgy. Figyelembe kell vennie az egyszerű jellemzőket, például a tempót, a hangerőt és a hangmagasságot, valamint az összetettebb jellemzőket, mint például a szövegeket, a hangszereket és a zenei szerkezetet.

Haladó használata gépi tanulás Az OpenAI megtalálta a módját, hogy a nyers hangot olyan reprezentációvá alakítsa, amelyet más modellek is használhatnak.

Ez a cikk elmagyarázza, mire képes a Jukebox, hogyan működik, és a technológia jelenlegi korlátait.

Mi az a Jukebox AI?

wurlitzer az OpenAI neurális háló modellje, amely énekléssel képes zenét generálni. A modell számos műfajban és előadói stílusban képes zenét készíteni.

a jukebox AI ismert előadók dalait generálja

Például a Jukebox készíthet egy rockdalt Elvis Presley stílusában vagy egy hip hop dallamot Kanye West stílusában. Ezt meglátogathatod hogy felfedezze, mennyire hatékony a modell kedvenc zenei előadói és műfajai hangzásának rögzítésében.

A modell bemenetként műfajt, előadót és szöveget igényel. Ez a bemenet egy modellt vezet, amely több millió előadón és dalszövegadatokon alapul.

Hogyan működik a Jukebox?

Nézzük meg, hogyan tud a Jukebox új nyers hangot generálni egy több millió dalra kiképzett modellből.

Kódolási folyamat

Míg egyes zenegenerációs modellek MIDI képzési adatokat használnak, a Jukebox a tényleges nyers hangfájlra tanítja. A hang egy különálló helyre történő tömörítéséhez a Jukebox egy VQ-VAE néven ismert automatikus kódoló megközelítést használ.

VQ-VAE A Vector Quantized Variational Autoencoder rövidítése, ami kissé bonyolultan hangzik, ezért bontsuk szét.

Először is próbáljuk megérteni, mit akarunk itt csinálni. A dalszövegekhez vagy kottához képest a nyers hangfájl sokkal összetettebb. Ha azt akarjuk, hogy a modellünk „tanuljon” a dalokból, akkor azt egy tömörítettebb és egyszerűbb reprezentációvá kell alakítanunk. Ban ben gépi tanulás, ezt a mögöttes reprezentációt a látens tér.

A látens tér egy mintabemenet tömörített változata

An autoencode egy felügyelet nélküli tanulási technika, amely a neurális hálózat hogy egy adott adateloszlásra nemlineáris látens reprezentációkat találjunk. Az automatikus kódoló két részből áll: egy kódolóból és egy dekódolóból.

A jeladó megpróbálja megtalálni a látens teret nyers adatok halmazából, miközben a dekóder a látens reprezentációt használja, hogy megpróbálja visszaállítani az eredeti formátumba. Az autoencoder lényegében megtanulja, hogyan kell tömöríteni a nyers adatokat oly módon, hogy minimalizálja a rekonstrukciós hibákat.

Most, hogy tudjuk, mit csinál egy autoencoder, próbáljuk megérteni, mit értünk „változatos” autoencoder alatt. A tipikus automatikus kódolókhoz képest a variációs autoenkóderek a látens teret megelőzőt adnak.

Anélkül, hogy belemerülnénk a matematikába, egy valószínűségi prior hozzáadása szorosan tömöríti a látens eloszlást. A fő különbség a VAE és a VQ-VAE között az, hogy az utóbbi diszkrét látens reprezentációt használ, nem pedig folyamatos. a jukebox AI kódolási és dekódolási architektúrájának diagramja

Minden VQ-VAE szint egymástól függetlenül kódolja a bemenetet. Az alsó szintű kódolás a legjobb minőségű rekonstrukciót eredményezi. A legfelső szintű kódolás megőrzi az alapvető zenei információkat.

Transformers használata

A jukebox AI transzformátorokat használ a következő hangklip létrehozásához a sávban

Most, hogy megvannak a VQ-VAE által kódolt zenei kódok, megpróbálhatjuk zenét generálni ebben a tömörített diszkrét térben.

Jukebox használ autoregresszív transzformátorok a kimeneti hang létrehozásához. A transzformátorok olyan neurális hálózatok, amelyek szekvenált adatokkal működnek a legjobban. Adott egy sor tokenek, a transzformátor modell megpróbálja megjósolni a következő tokent.

A Jukebox a Sparse Transformers egyszerűsített változatát használja. Az összes korábbi modell betanítása után a transzformátor tömörített kódokat generál, amelyeket aztán a VQ-VAE dekóder segítségével visszafejt nyers hanggá.

Előadói és műfaji kondicionálás a Jukeboxban

A zenegép kezdeti AI modellje megpróbálja megérteni, hogyan hangzik egy dal egy adott műfajhoz vagy előadóhoz

A Jukebox generatív modelljét a képzési lépés során további feltételes jelek biztosításával teszik jobban irányíthatóvá.

Az első modelleket minden dalhoz előadók és műfaji címkék biztosítják. Ez csökkenti az audio-előrejelzés entrópiáját, és lehetővé teszi a modell számára, hogy jobb minőséget érjen el. A címkék azt is lehetővé teszik, hogy a modellt egy adott stílusban irányítsuk.

Az előadó és a műfaj mellett időzítési jelek is hozzáadásra kerülnek az edzés ideje alatt. Ezek a jelek magukban foglalják a dal hosszát, egy adott minta kezdési idejét és a dal eltelt hányadát. Ez a kiegészítő információ segít a modellnek megérteni azokat a hangmintákat, amelyek az általános szerkezeten alapulnak.

Például a modell megtanulhatja, hogy az élőzene tapsa egy dal végén történik. A modell azt is megtanulhatja például, hogy egyes műfajok hosszabb hangszeres szakaszokkal rendelkeznek, mint mások.

dalszöveg

Az előző részben említett kondicionált modellek különféle énekhangok generálására képesek. Ezek a hangok azonban általában inkoherensek és felismerhetetlenek.

A generatív modell szabályozása érdekében a dalszöveggenerálásnál a kutatók több kontextust biztosítanak a képzés során. A kutatók a dalszövegadatok és a tényleges hang időzítésének leképezésére szolgáltak Spleeter ének kinyerésére és NUS AutoLyricsAlign hogy megkapjuk a dalszöveg szószintű igazítását.

A Jukebox modell korlátai

A Jukebox egyik fő korlátja a nagyobb zenei struktúrák megértése. Például a kimenet egy rövid, 20 másodperces klipje lenyűgözően hangozhat, de a hallgatók észre fogják venni, hogy a kórusok és versek ismétlődésének tipikus zenei struktúrája hiányzik a végső kimenetből.

A modell renderelése is lassú. Körülbelül 9 órát vesz igénybe egy perc hang teljes leképezése. Ez korlátozza a generálható dalok számát, és megakadályozza, hogy a modellt interaktív alkalmazásokban használják.

Végül a kutatók megjegyezték, hogy a mintaadatkészlet elsősorban angol nyelvű, és elsősorban a nyugati zenei konvenciókat jeleníti meg. Az AI-kutatók a jövőbeli kutatásaikat más nyelvű és nem nyugati zenei stílusok generálására összpontosíthatják.

Következtetés

A Jukebox projekt rávilágít a gépi tanulási modellek növekvő képességére az összetett adatok, például a nyers hang pontos látens megjelenítésére. Hasonló áttörések történnek a szövegben, amint az olyan projekteknél látható, mint pl GPT-3, és képek, ahogy az OpenAI-ban is látható DALL-E2.

Bár az ezen a területen végzett kutatás lenyűgöző volt, továbbra is aggodalomra ad okot a szellemi tulajdonjogok és az ezeknek a modelleknek a kreatív iparágak egészére gyakorolt hatása. A kutatóknak és kreatívoknak továbbra is szorosan együtt kell működniük annak biztosítása érdekében, hogy ezek a modellek tovább fejlődhessenek.

A jövőbeli generatív zenei modellek hamarosan eszközként szolgálhatnak zenészek számára, vagy alkalmazásként olyan kreatívok számára, akiknek egyedi zenére van szükségük projektekhez.

Jukebox AI – Zene generálása neurális hálózatok segítségével

Mi az a Jukebox AI?