Kan du använda AI för att skapa en ny skiva från din favoritartist?
De senaste genombrotten inom maskininlärning har visat att modeller nu kan förstå komplexa data som text och bilder. OpenAI:s Jukebox bevisar att även musik kan modelleras exakt av ett neuralt nätverk.
Musik är ett komplext objekt att modellera. Du måste ta hänsyn till både enkla funktioner som tempo, ljudstyrka och tonhöjd och mer komplexa funktioner som texter, instrument och musikalisk struktur.
Använda avancerad maskininlärning tekniker, har OpenAI hittat ett sätt att konvertera råljud till en representation som andra modeller kan använda.
Den här artikeln kommer att förklara vad Jukebox kan göra, hur det fungerar och teknikens nuvarande begränsningar.
Vad är Jukebox AI?
jukebox är en neural nätmodell av OpenAI som kan generera musik med sång. Modellen kan producera musik i en mängd olika genrer och artiststilar.
Till exempel kan Jukebox producera en rocklåt i stil med Elvis Presley eller en hiphoplåt i stil med Kanye West. Du kan besöka detta webbplats för att utforska hur effektiv modellen är för att fånga ljudet av dina favoritmusikalartister och -genrer.
Modellen kräver en genre, artist och text som input. Denna ingång vägleder en modell som tränats på miljontals artister och textdata.
Hur fungerar Jukebox?
Låt oss titta på hur Jukebox lyckas generera nytt råljud från en modell tränad på miljontals låtar.
Kodningsprocess
Medan vissa musikgenereringsmodeller använder MIDI-träningsdata, tränas Jukebox på själva råljudfilen. För att komprimera ljudet till ett diskret utrymme använder Jukebox en automatisk kodare som kallas VQ-VAE.
VQ-VAE står för Vector Quantized Variational Autoencoder, vilket kan låta lite komplicerat, så låt oss dela upp det.
Låt oss först försöka förstå vad vi vill göra här. Jämfört med texter eller noter är en rå ljudfil mycket mer komplex. Om vi vill att vår modell ska "lära sig" av låtar måste vi omvandla den till en mer komprimerad och förenklad representation. I maskininlärning, kallar vi denna underliggande representation en latent utrymme.
An autokodare är en oövervakad inlärningsteknik som använder en neurala nätverk att hitta icke-linjära latenta representationer för en given datadistribution. Autokodaren består av två delar: en kodare och en avkodare.
Smakämnen kodare försöker hitta det latenta utrymmet från en uppsättning rådata medan avkodare använder den latenta representationen för att försöka rekonstruera den tillbaka till sitt ursprungliga format. Autokodaren lär sig i huvudsak hur man komprimerar rådata på ett sådant sätt som minimerar rekonstruktionsfel.
Nu när vi vet vad en autoencoder gör, låt oss försöka förstå vad vi menar med en "variationell" autoencoder. Jämfört med typiska autokodare lägger variationsautokodare ett före till det latenta utrymmet.
Utan att dyka in i matematiken, kommer att lägga till en probabilistisk prior för att hålla den latenta fördelningen tätt komprimerad. Den största skillnaden mellan en VAE och en VQ-VAE är att den senare använder en diskret latent representation snarare än en kontinuerlig.
Varje VQ-VAE-nivå kodar oberoende ingången. Kodningen på bottennivån ger rekonstruktion av högsta kvalitet. Kodningen på toppnivå behåller viktig musikalisk information.
Använda transformatorer
Nu när vi har musikkoderna kodade av VQ-VAE kan vi försöka skapa musik i detta komprimerade diskreta utrymme.
Jukebox använder autoregressiva transformatorer för att skapa utgående ljud. Transformatorer är en typ av neurala nätverk som fungerar bäst med sekvenserad data. Givet en sekvens av tokens kommer en transformatormodell att försöka förutsäga nästa token.
Jukebox använder en förenklad variant av Sparse Transformers. När alla tidigare modeller har tränats, genererar transformatorn komprimerade koder som sedan avkodas tillbaka till råljud med hjälp av VQ-VAE-avkodaren.
Artist- och genrekonditionering i Jukebox
Jukebox generativa modell görs mer kontrollerbar genom att ge ytterligare villkorade signaler under träningssteget.
De första modellerna tillhandahålls av artister och genreetiketter för varje låt. Detta minskar entropin i ljudförutsägelsen och gör att modellen kan uppnå bättre kvalitet. Etiketterna gör det också möjligt för oss att styra modellen i en viss stil.
Förutom artist och genre läggs timingsignaler till under träningstiden. Dessa signaler inkluderar längden på sången, starttiden för ett visst sampel och den del av sången som har förflutit. Denna ytterligare information hjälper modellen att förstå ljudmönster som är beroende av den övergripande strukturen.
Till exempel kan modellen lära sig att applåderna för livemusik sker i slutet av en låt. Modellen kan också lära sig till exempel att vissa genrer har längre instrumentala avsnitt än andra.
sångtexten
De konditionerade modellerna som nämndes i föregående avsnitt kan generera en mängd olika sångröster. Dessa röster tenderar dock att vara osammanhängande och oigenkännliga.
För att styra den generativa modellen när det kommer till lyrisk generering ger forskarna mer sammanhang vid träningstillfället. För att hjälpa till att kartlägga lyrisk data till timingen på själva ljudet, använde forskarna Spleeter att extrahera sång och NUS AutoLyricsAlign för att få justeringar på ordnivå av texterna.
Begränsningar för Jukebox-modellen
En av de viktigaste begränsningarna för Jukebox är dess förståelse för större musikaliska strukturer. Till exempel kan ett kort 20-sekunders klipp av utgången låta imponerande, men lyssnare kommer att märka att den typiska musikaliska strukturen med att upprepa refränger och verser saknas i den slutliga utgången.
Modellen är också långsam att rendera. Det tar cirka 9 timmar att återge en minuts ljud fullt ut. Detta begränsar antalet låtar som kan genereras och förhindrar att modellen används i interaktiva applikationer.
Slutligen har forskarna noterat att provdatauppsättningen huvudsakligen är på engelska och visar främst västerländska musikkonventioner. AI-forskare kan fokusera framtida forskning på att skapa musik på andra språk och icke-västerländska musikstilar.
Slutsats
Jukebox-projektet belyser den växande förmågan hos maskininlärningsmodeller att skapa en korrekt latent representation av komplexa data som råljud. Liknande genombrott sker i texten, som man kan se i projekt som GPT-3, och bilder, som ses i OpenAI's DALL-E2.
Även om forskningen på detta område har varit imponerande, finns det fortfarande oro för immateriella rättigheter och vilken inverkan dessa modeller kan ha på kreativa industrier som helhet. Forskare och kreatörer bör fortsätta att ha ett nära samarbete för att säkerställa att dessa modeller kan fortsätta att förbättras.
Framtida generativa musikmodeller kanske snart kan fungera som ett verktyg för musiker eller som en applikation för kreativa som behöver anpassad musik för projekt.
Kommentera uppropet