Tudsz mesterséges intelligencia segítségével új lemezt készíteni kedvenc előadódból?
A gépi tanulás terén a közelmúltban elért áttörések megmutatták, hogy a modellek ma már képesek olyan összetett adatok megértésére, mint a szöveg és a képek. Az OpenAI Jukebox-ja bizonyítja, hogy még a zenét is lehet pontosan modellezni egy neurális hálózattal.
A zene bonyolult modellezendő tárgy. Figyelembe kell vennie az egyszerű jellemzőket, például a tempót, a hangerőt és a hangmagasságot, valamint az összetettebb jellemzőket, mint például a szövegeket, a hangszereket és a zenei szerkezetet.
Haladó használata gépi tanulás Az OpenAI megtalálta a módját, hogy a nyers hangot olyan reprezentációvá alakítsa, amelyet más modellek is használhatnak.
Ez a cikk elmagyarázza, mire képes a Jukebox, hogyan működik, és a technológia jelenlegi korlátait.
Mi az a Jukebox AI?
wurlitzer az OpenAI neurális háló modellje, amely énekléssel képes zenét generálni. A modell számos műfajban és előadói stílusban képes zenét készíteni.
Például a Jukebox készíthet egy rockdalt Elvis Presley stílusában vagy egy hip hop dallamot Kanye West stílusában. Ezt meglátogathatod hogy felfedezze, mennyire hatékony a modell kedvenc zenei előadói és műfajai hangzásának rögzítésében.
A modell bemenetként műfajt, előadót és szöveget igényel. Ez a bemenet egy modellt vezet, amely több millió előadón és dalszövegadatokon alapul.
Hogyan működik a Jukebox?
Nézzük meg, hogyan tud a Jukebox új nyers hangot generálni egy több millió dalra kiképzett modellből.
Kódolási folyamat
Míg egyes zenegenerációs modellek MIDI képzési adatokat használnak, a Jukebox a tényleges nyers hangfájlra tanítja. A hang egy különálló helyre történő tömörítéséhez a Jukebox egy VQ-VAE néven ismert automatikus kódoló megközelítést használ.
VQ-VAE A Vector Quantized Variational Autoencoder rövidítése, ami kissé bonyolultan hangzik, ezért bontsuk szét.
Először is próbáljuk megérteni, mit akarunk itt csinálni. A dalszövegekhez vagy kottához képest a nyers hangfájl sokkal összetettebb. Ha azt akarjuk, hogy a modellünk „tanuljon” a dalokból, akkor azt egy tömörítettebb és egyszerűbb reprezentációvá kell alakítanunk. Ban ben gépi tanulás, ezt a mögöttes reprezentációt a látens tér.
An autoencode egy felügyelet nélküli tanulási technika, amely a neurális hálózat hogy egy adott adateloszlásra nemlineáris látens reprezentációkat találjunk. Az automatikus kódoló két részből áll: egy kódolóból és egy dekódolóból.
A jeladó megpróbálja megtalálni a látens teret nyers adatok halmazából, miközben a dekóder a látens reprezentációt használja, hogy megpróbálja visszaállítani az eredeti formátumba. Az autoencoder lényegében megtanulja, hogyan kell tömöríteni a nyers adatokat oly módon, hogy minimalizálja a rekonstrukciós hibákat.
Most, hogy tudjuk, mit csinál egy autoencoder, próbáljuk megérteni, mit értünk „változatos” autoencoder alatt. A tipikus automatikus kódolókhoz képest a variációs autoenkóderek a látens teret megelőzőt adnak.
Anélkül, hogy belemerülnénk a matematikába, egy valószínűségi prior hozzáadása szorosan tömöríti a látens eloszlást. A fő különbség a VAE és a VQ-VAE között az, hogy az utóbbi diszkrét látens reprezentációt használ, nem pedig folyamatos.
Minden VQ-VAE szint egymástól függetlenül kódolja a bemenetet. Az alsó szintű kódolás a legjobb minőségű rekonstrukciót eredményezi. A legfelső szintű kódolás megőrzi az alapvető zenei információkat.
Transformers használata
Most, hogy megvannak a VQ-VAE által kódolt zenei kódok, megpróbálhatjuk zenét generálni ebben a tömörített diszkrét térben.
Jukebox használ autoregresszív transzformátorok a kimeneti hang létrehozásához. A transzformátorok olyan neurális hálózatok, amelyek szekvenált adatokkal működnek a legjobban. Adott egy sor tokenek, a transzformátor modell megpróbálja megjósolni a következő tokent.
A Jukebox a Sparse Transformers egyszerűsített változatát használja. Az összes korábbi modell betanítása után a transzformátor tömörített kódokat generál, amelyeket aztán a VQ-VAE dekóder segítségével visszafejt nyers hanggá.
Előadói és műfaji kondicionálás a Jukeboxban
A Jukebox generatív modelljét a képzési lépés során további feltételes jelek biztosításával teszik jobban irányíthatóvá.
Az első modelleket minden dalhoz előadók és műfaji címkék biztosítják. Ez csökkenti az audio-előrejelzés entrópiáját, és lehetővé teszi a modell számára, hogy jobb minőséget érjen el. A címkék azt is lehetővé teszik, hogy a modellt egy adott stílusban irányítsuk.
Az előadó és a műfaj mellett időzítési jelek is hozzáadásra kerülnek az edzés ideje alatt. Ezek a jelek magukban foglalják a dal hosszát, egy adott minta kezdési idejét és a dal eltelt hányadát. Ez a kiegészítő információ segít a modellnek megérteni azokat a hangmintákat, amelyek az általános szerkezeten alapulnak.
Például a modell megtanulhatja, hogy az élőzene tapsa egy dal végén történik. A modell azt is megtanulhatja például, hogy egyes műfajok hosszabb hangszeres szakaszokkal rendelkeznek, mint mások.
dalszöveg
Az előző részben említett kondicionált modellek különféle énekhangok generálására képesek. Ezek a hangok azonban általában inkoherensek és felismerhetetlenek.
A generatív modell szabályozása érdekében a dalszöveggenerálásnál a kutatók több kontextust biztosítanak a képzés során. A kutatók a dalszövegadatok és a tényleges hang időzítésének leképezésére szolgáltak Spleeter ének kinyerésére és NUS AutoLyricsAlign hogy megkapjuk a dalszöveg szószintű igazítását.
A Jukebox modell korlátai
A Jukebox egyik fő korlátja a nagyobb zenei struktúrák megértése. Például a kimenet egy rövid, 20 másodperces klipje lenyűgözően hangozhat, de a hallgatók észre fogják venni, hogy a kórusok és versek ismétlődésének tipikus zenei struktúrája hiányzik a végső kimenetből.
A modell renderelése is lassú. Körülbelül 9 órát vesz igénybe egy perc hang teljes leképezése. Ez korlátozza a generálható dalok számát, és megakadályozza, hogy a modellt interaktív alkalmazásokban használják.
Végül a kutatók megjegyezték, hogy a mintaadatkészlet elsősorban angol nyelvű, és elsősorban a nyugati zenei konvenciókat jeleníti meg. Az AI-kutatók a jövőbeli kutatásaikat más nyelvű és nem nyugati zenei stílusok generálására összpontosíthatják.
Következtetés
A Jukebox projekt rávilágít a gépi tanulási modellek növekvő képességére az összetett adatok, például a nyers hang pontos látens megjelenítésére. Hasonló áttörések történnek a szövegben, amint az olyan projekteknél látható, mint pl GPT-3, és képek, ahogy az OpenAI-ban is látható DALL-E2.
Bár az ezen a területen végzett kutatás lenyűgöző volt, továbbra is aggodalomra ad okot a szellemi tulajdonjogok és az ezeknek a modelleknek a kreatív iparágak egészére gyakorolt hatása. A kutatóknak és kreatívoknak továbbra is szorosan együtt kell működniük annak biztosítása érdekében, hogy ezek a modellek tovább fejlődhessenek.
A jövőbeli generatív zenei modellek hamarosan eszközként szolgálhatnak zenészek számára, vagy alkalmazásként olyan kreatívok számára, akiknek egyedi zenére van szükségük projektekhez.
Hagy egy Válaszol