Kan du bruge AI til at skabe en ny plade fra din yndlingskunstner?
Nylige gennembrud inden for maskinlæring har vist, at modeller nu er i stand til at forstå komplekse data som tekst og billeder. OpenAIs Jukebox beviser, at selv musik kan modelleres præcist af et neuralt netværk.
Musik er et komplekst objekt at modellere. Du skal tage hensyn til både simple funktioner som tempo, lydstyrke og tonehøjde og mere komplekse funktioner som tekster, instrumenter og musikalsk struktur.
Bruger avanceret machine learning teknikker, har OpenAI fundet en måde at konvertere rå lyd til en repræsentation, som andre modeller kan bruge.
Denne artikel vil forklare, hvad Jukebox kan, hvordan det virker, og teknologiens nuværende begrænsninger.
Hvad er Jukebox AI?
Jukebox er en neural net-model af OpenAI, der kan generere musik med sang. Modellen kan producere musik i en række forskellige genrer og kunstnere.
For eksempel kan Jukebox producere en rocksang i stil med Elvis Presley eller en hiphop-melodi i stil med Kanye West. Du kan besøge dette hjemmeside for at udforske, hvor effektiv modellen er til at fange lyden af dine yndlingsmusikalske kunstnere og genrer.
Modellen kræver en genre, kunstner og tekster som input. Dette input guider en model, der er trænet på millioner af kunstnere og lyriske data.
Hvordan virker Jukebox?
Lad os se på, hvordan Jukebox formår at generere ny rå lyd fra en model, der er trænet på millioner af sange.
Kodningsproces
Mens nogle musikgenereringsmodeller bruger MIDI træningsdata, trænes Jukebox på den faktiske rå lydfil. For at komprimere lyden til et diskret rum bruger Jukebox en auto-encoder-tilgang kendt som VQ-VAE.
VQ-VAE står for Vector Quantized Variational Autoencoder, hvilket kan lyde en smule kompliceret, så lad os opdele det.
Lad os først prøve at forstå, hvad vi vil gøre her. Sammenlignet med tekster eller noder er en rå lydfil langt mere kompleks. Hvis vi vil have vores model til at "lære" af sange, bliver vi nødt til at transformere den til en mere komprimeret og forenklet repræsentation. I machine learning, kalder vi denne underliggende repræsentation en latent rum.
An autoindkodning er en uovervåget læringsteknik, der bruger en neurale netværk at finde ikke-lineære latente repræsentationer for en given datafordeling. Autoencoderen består af to dele: en encoder og dekoder.
encoder forsøger at finde det latente rum fra et sæt rådata, mens dekoder bruger den latente repræsentation til at forsøge at rekonstruere den tilbage til dets oprindelige format. Autoencoderen lærer i det væsentlige, hvordan man komprimerer de rå data på en sådan måde, at rekonstruktionsfejl minimeres.
Nu hvor vi ved, hvad en autoencoder gør, lad os prøve at forstå, hvad vi mener med en "variationel" autoencoder. Sammenlignet med typiske autoindkodere tilføjer variationsautoindkodere et forud for det latente rum.
Uden at dykke ned i matematikken vil tilføjelse af en probabilistisk forudsætning holde den latente fordeling tæt komprimeret. Hovedforskellen mellem en VAE og en VQ-VAE er, at sidstnævnte bruger en diskret latent repræsentation snarere end en kontinuerlig.
Hvert VQ-VAE-niveau koder uafhængigt af inputtet. Kodningen på nederste niveau producerer rekonstruktion af højeste kvalitet. Kodningen på øverste niveau bevarer væsentlig musikalsk information.
Brug af transformere
Nu hvor vi har musikkoderne kodet af VQ-VAE, kan vi prøve at skabe musik i dette komprimerede diskrete rum.
Jukebox bruger autoregressive transformere for at oprette outputlyden. Transformere er en type neurale netværk, der fungerer bedst med sekvenserede data. Givet en sekvens af tokens, vil en transformermodel forsøge at forudsige det næste token.
Jukebox bruger en forenklet variant af Sparse Transformers. Når alle tidligere modeller er trænet, genererer transformeren komprimerede koder, som derefter dekodes tilbage til rå lyd ved hjælp af VQ-VAE-dekoderen.
Kunstner og Genre Conditioning i Jukebox
Jukebox's generative model er gjort mere kontrollerbar ved at give yderligere betingede signaler under træningstrinnet.
De første modeller leveres af kunstnere og genremærker for hver sang. Dette reducerer entropien af lydforudsigelsen og gør det muligt for modellen at opnå bedre kvalitet. Mærkerne gør os også i stand til at styre modellen i en bestemt stil.
Udover kunstner og genre tilføjes timing-signaler under træningstiden. Disse signaler inkluderer længden af sangen, starttidspunktet for en bestemt sample og den brøkdel af sangen, der er gået. Denne yderligere information hjælper modellen med at forstå lydmønstre, der er afhængige af den overordnede struktur.
For eksempel kan modellen lære, at bifaldet til livemusik sker i slutningen af en sang. Modellen kan for eksempel også lære, at nogle genrer har længere instrumentelle afsnit end andre.
lyrics
De konditionerede modeller nævnt i det foregående afsnit er i stand til at generere en række sangstemmer. Disse stemmer har dog en tendens til at være usammenhængende og uigenkendelige.
For at styre den generative model, når det kommer til lyrikgenerering, giver forskerne mere kontekst på træningstidspunktet. For at hjælpe med at kortlægge lyriske data til timingen på den faktiske lyd, brugte forskerne Spleeter at udtrække vokal og NUS AutoLyricsAlign for at opnå justeringer på ordniveau af sangteksterne.
Begrænsninger for Jukebox-modellen
En af de vigtigste begrænsninger ved Jukebox er dens forståelse af større musikalske strukturer. For eksempel kan et kort 20-sekunders klip af outputtet lyde imponerende, men lytterne vil bemærke, at den typiske musikalske struktur med gentagelse af omkvæd og vers er fraværende i det endelige output.
Modellen er også langsom at gengive. Det tager cirka 9 timer at gengive et minuts lyd fuldt ud. Dette begrænser antallet af sange, der kan genereres, og forhindrer modellen i at blive brugt i interaktive applikationer.
Endelig har forskerne bemærket, at prøvedatasættet primært er på engelsk og primært viser vestlige musikkonventioner. AI-forskere kan fokusere fremtidig forskning på at generere musik på andre sprog og ikke-vestlige musikstile.
Konklusion
Jukebox-projektet fremhæver maskinlæringsmodellernes voksende evne til at skabe en nøjagtig latent repræsentation af komplekse data såsom rå lyd. Lignende gennembrud sker i teksten, som det ses i projekter som f.eks GPT-3, og billeder, som det ses i OpenAI's DALL-E2.
Selvom forskningen på dette område har været imponerende, er der stadig bekymringer om intellektuelle ejendomsrettigheder og den indvirkning, disse modeller kan have på kreative industrier som helhed. Forskere og kreative bør fortsætte med at samarbejde tæt for at sikre, at disse modeller kan fortsætte med at forbedre sig.
Fremtidige generative musikmodeller vil muligvis snart kunne fungere som et værktøj for musikere eller som en applikation for kreative, der har brug for en tilpasset musik til projekter.
Giv en kommentar