Innholdsfortegnelse[Gjemme seg][Forestilling]
Kan du bruke AI til å lage en ny plate fra favorittartisten din?
Nylige gjennombrudd innen maskinlæring har vist at modeller nå er i stand til å forstå komplekse data som tekst og bilder. OpenAIs Jukebox beviser at selv musikk kan modelleres nøyaktig av et nevralt nettverk.
Musikk er et komplekst objekt å modellere. Du må ta hensyn til både enkle funksjoner som tempo, lydstyrke og tonehøyde og mer komplekse funksjoner som tekster, instrumenter og musikalsk struktur.
Bruker avansert maskinlæring teknikker, har OpenAI funnet en måte å konvertere rå lyd til en representasjon som andre modeller kan bruke.
Denne artikkelen vil forklare hva Jukebox kan gjøre, hvordan det fungerer, og de nåværende begrensningene til teknologien.
Hva er Jukebox AI?
Jukebox er en nevrale nettmodell av OpenAI som kan generere musikk med sang. Modellen kan produsere musikk i en rekke sjangere og artiststiler.
For eksempel kan Jukebox produsere en rockelåt i stil med Elvis Presley eller en hip hop-melodi i stil med Kanye West. Du kan besøke denne nettsted for å utforske hvor effektiv modellen er til å fange lyden til favorittmusikalartistene og sjangrene dine.
Modellen krever en sjanger, artist og tekster som input. Denne inngangen veileder en modell som er trent på millioner av artister og tekstdata.
Hvordan fungerer Jukebox?
La oss se på hvordan Jukebox klarer å generere ny rålyd fra en modell som er trent på millioner av sanger.
Kodingsprosess
Mens noen musikkgenerasjonsmodeller bruker MIDI-treningsdata, er Jukebox trent på selve rålydfilen. For å komprimere lyden til et diskret rom, bruker Jukebox en auto-encoder-tilnærming kjent som VQ-VAE.
VQ-VAE står for Vector Quantized Variational Autoencoder, som kan høres litt komplisert ut, så la oss dele det ned.
Først, la oss prøve å forstå hva vi ønsker å gjøre her. Sammenlignet med tekster eller noter er en rå lydfil mye mer kompleks. Hvis vi vil at modellen vår skal "lære" av sanger, må vi transformere den til en mer komprimert og forenklet representasjon. I maskinlæring, kaller vi denne underliggende representasjonen en latent rom.
An autokoder er en uovervåket læringsteknikk som bruker en nevrale nettverket å finne ikke-lineære latente representasjoner for en gitt datafordeling. Autoenkoderen består av to deler: en koder og dekoder.
De encoder prøver å finne det latente rommet fra et sett med rådata mens dekoder bruker den latente representasjonen for å prøve å rekonstruere den tilbake til sitt opprinnelige format. Autoenkoderen lærer i hovedsak å komprimere rådataene på en slik måte som minimerer rekonstruksjonsfeil.
Nå som vi vet hva en autoencoder gjør, la oss prøve å forstå hva vi mener med en "variasjonell" autoencoder. Sammenlignet med typiske autokodere legger variasjonsautokodere til en før til det latente rommet.
Uten å dykke ned i matematikken, vil det å legge til en sannsynlighetsprioritering holde den latente distribusjonen tett komprimert. Hovedforskjellen mellom en VAE og en VQ-VAE er at sistnevnte bruker en diskret latent representasjon i stedet for en kontinuerlig.
Hvert VQ-VAE-nivå koder uavhengig for inngangen. Bunnnivåkodingen produserer rekonstruksjon av høyeste kvalitet. Kodingen på toppnivå beholder viktig musikalsk informasjon.
Bruke transformatorer
Nå som vi har musikkkodene kodet av VQ-VAE, kan vi prøve å generere musikk i dette komprimerte diskrete rommet.
Jukebox bruker autoregressive transformatorer for å lage utgangslyden. Transformatorer er en type nevrale nettverk som fungerer best med sekvenserte data. Gitt en sekvens av tokens, vil en transformatormodell prøve å forutsi neste token.
Jukebox bruker en forenklet variant av Sparse Transformers. Når alle tidligere modeller er opplært, genererer transformatoren komprimerte koder som deretter dekodes tilbake til rålyd ved hjelp av VQ-VAE-dekoderen.
Artist- og sjangerkondisjonering i Jukebox
Jukebox sin generative modell er gjort mer kontrollerbar ved å gi ytterligere betingede signaler under treningstrinnet.
De første modellene leveres av artister og sjangermerker for hver sang. Dette reduserer entropien til lydprediksjonen og lar modellen oppnå bedre kvalitet. Etikettene gjør oss også i stand til å styre modellen i en bestemt stil.
I tillegg til artist og sjanger, legges timingsignaler til under treningstiden. Disse signalene inkluderer lengden på sangen, starttiden for en bestemt prøve og brøkdelen av sangen som har gått. Denne tilleggsinformasjonen hjelper modellen å forstå lydmønstre som er avhengige av den generelle strukturen.
For eksempel kan modellen lære at applausen for levende musikk skjer på slutten av en sang. Modellen kan også lære for eksempel at noen sjangre har lengre instrumentale seksjoner enn andre.
lyrics
De betingede modellene nevnt i forrige seksjon er i stand til å generere en rekke sangstemmer. Imidlertid har disse stemmene en tendens til å være usammenhengende og ugjenkjennelige.
For å kontrollere den generative modellen når det kommer til lyrikkgenerering, gir forskerne mer kontekst på treningstidspunktet. For å hjelpe med å kartlegge lyriske data til timingen på selve lyden, brukte forskerne Spleeter å trekke ut vokal og NUS AutoLyricsAlign for å få justeringer på ordnivå av tekstene.
Begrensninger for Jukebox-modellen
En av hovedbegrensningene til Jukebox er forståelsen av større musikalske strukturer. For eksempel kan et kort 20-sekunders klipp av utgangen høres imponerende ut, men lyttere vil legge merke til at den typiske musikalske strukturen med repeterende refrenger og vers er fraværende i den endelige utgangen.
Modellen er også treg å gjengi. Det tar omtrent 9 timer å gjengi ett minutt med lyd fullt ut. Dette begrenser antall sanger som kan genereres og forhindrer at modellen brukes i interaktive applikasjoner.
Til slutt har forskerne lagt merke til at prøvedatasettet primært er på engelsk og viser primært vestlige musikkkonvensjoner. AI-forskere kan fokusere fremtidig forskning på å generere musikk på andre språk og ikke-vestlige musikkstiler.
konklusjonen
Jukebox-prosjektet fremhever den økende muligheten til maskinlæringsmodeller for å skape nøyaktige latente representasjoner av komplekse data som rålyd. Lignende gjennombrudd skjer i teksten, som man ser i prosjekter som GPT-3, og bilder, som vist i OpenAI's DALL-E2.
Selv om forskningen på dette området har vært imponerende, er det fortsatt bekymringer om immaterielle rettigheter og virkningen disse modellene kan ha på kreative næringer som helhet. Forskere og kreative bør fortsette å samarbeide tett for å sikre at disse modellene kan fortsette å bli bedre.
Fremtidige generative musikkmodeller kan snart fungere som et verktøy for musikere eller som en applikasjon for kreative som trenger tilpasset musikk til prosjekter.
Legg igjen en kommentar