Jukebox AI - Pagmugna og Musika Gamit ang Neural Networks

Kaundan[Itago][Ipakita]

Unsa ang Jukebox AI?
Giunsa pagtrabaho ang Jukebox?+-
Mga Limitasyon sa Jukebox Model
Panapos

Mahimo ba nimo gamiton ang AI aron makahimo usa ka bag-ong rekord gikan sa imong paborito nga artista?

Ang bag-o nga mga kalampusan sa pagkat-on sa makina nagpakita nga ang mga modelo karon makahimo sa pagsabut sa komplikado nga datos sama sa teksto ug mga imahe. Gipamatud-an sa OpenAI's Jukebox nga bisan ang musika mahimong tukma nga modelo sa usa ka neural network.

Ang musika usa ka komplikadong butang nga himoong modelo. Kinahanglan nimong tagdon ang duha ka yano nga mga bahin sama sa tempo, kusog, ug pitch ug mas komplikado nga mga bahin sama sa liriko, instrumento, ug istruktura sa musika.

Paggamit sa advanced pagkat-on sa makina mga teknik, ang OpenAI nakakaplag ug paagi sa pag-convert sa hilaw nga audio ngadto sa representasyon nga magamit sa ubang mga modelo.

Kini nga artikulo magpatin-aw kung unsa ang mahimo sa Jukebox, kung giunsa kini molihok, ug ang karon nga mga limitasyon sa teknolohiya.

Unsa ang Jukebox AI?

Jukebox usa ka neural net nga modelo sa OpenAI nga makamugna og musika uban ang pag-awit. Ang modelo makahimo og musika sa lain-laing genre ug estilo sa mga artista.

Ang jukebox AI nagmugna og mga kanta gikan sa nailhan nga mga artista

Pananglitan, ang Jukebox makahimo og usa ka rock nga kanta sa estilo ni Elvis Presley o usa ka hip hop tune sa estilo sa Kanye West. Mahimo nimong bisitahan kini website aron masusi kung unsa ka epektibo ang modelo sa pagkuha sa tunog sa imong paborito nga mga artista sa musika ug mga genre.

Ang modelo nagkinahanglan og genre, artist, ug lyrics isip input. Kini nga input naggiya sa usa ka modelo nga gibansay sa minilyon nga mga artist ug lyric data.

Giunsa pagtrabaho ang Jukebox?

Atong tan-awon kung giunsa pagdumala sa Jukebox ang paghimo og nobela nga hilaw nga audio gikan sa usa ka modelo nga gibansay sa milyon-milyon nga mga kanta.

Proseso sa Pag-encode

Samtang ang ubang mga modelo sa henerasyon sa musika naggamit sa datos sa pagbansay sa MIDI, ang Jukebox gibansay sa aktuwal nga hilaw nga audio file. Aron ma-compress ang audio ngadto sa discrete space, ang Jukebox naggamit ug auto-encoder approach nga nailhang VQ-VAE.

VQ-VAE nagpasabot sa Vector Quantized Variational Autoencoder, nga tingali medyo komplikado, busa ato kining bungkagon.

Una, atong sulayan nga masabtan kung unsa ang gusto natong buhaton dinhi. Kung itandi sa lyrics o sheet music, ang usa ka hilaw nga audio file labi ka komplikado. Kung gusto nato nga ang atong modelo "makat-on" gikan sa mga kanta, kinahanglan natong usbon kini ngadto sa mas compressed ug simple nga representasyon. Sa pagkat-on sa makina, gitawag nato kini nga nagpahiping representasyon nga a tago nga luna.

Ang tago nga luna kay usa ka compressed nga bersyon sa sample input

An autoencode maoy usa ka paagi sa pagkat-on nga walay pagdumala nga naggamit ug a neural network aron makit-an ang dili linear nga tinago nga mga representasyon alang sa gihatag nga pag-apod-apod sa datos. Ang autoencoder naglangkob sa duha ka bahin: usa ka encoder ug decoder.

ang encoder naningkamot sa pagpangita sa tago nga luna gikan sa usa ka hugpong sa hilaw nga data samtang ang Decoder naggamit sa tinago nga representasyon sa pagsulay sa pagtukod pag-usab niini ngadto sa iyang orihinal nga pormat. Ang autoencoder hinungdanon nga nakakat-on kung giunsa ang pag-compress sa hilaw nga datos sa paagi nga makunhuran ang sayup sa pagtukod pag-usab.

Karon nga nahibal-an na nato kung unsa ang gibuhat sa usa ka autoencoder, atong sulayan nga masabtan kung unsa ang atong gipasabut sa usa ka "variational" nga autoencoder. Kung itandi sa kasagaran nga mga autoencoder, ang mga variational nga autoencoders nagdugang usa sa wala pa ang tago nga wanang.

Kung wala’y pag-dive sa matematika, ang pagdugang usa ka probabilistic nga nauna magpugong sa tinago nga pag-apod-apod. Ang nag-unang kalainan tali sa usa ka VAE ug usa ka VQ-VAE mao nga ang ulahi naggamit sa usa ka discrete nga tinago nga representasyon kaysa usa ka padayon. diagram sa arkitektura sa jukebox AI alang sa pag-encode ug pag-decode

Ang matag lebel sa VQ-VAE independente nga nag-encode sa input. Ang ubos nga lebel nga pag-encode naghimo sa labing taas nga kalidad nga pagtukod pag-usab. Ang top-level nga pag-encode nagpabilin sa hinungdanon nga impormasyon sa musika.

Paggamit sa mga Transformer

Ang jukebox AI naggamit sa mga transformer aron makamugna sa sunod nga audio clip sa track

Karon nga aduna na kitay mga music code nga gi-encode sa VQ-VAE, mahimo namong sulayan paghimo og musika niining compressed discrete space.

Jukebox gigamit autoregressive nga mga transformer sa paghimo sa output audio. Ang mga transformer usa ka matang sa neural network nga labing maayo nga mogana sa sequenced data. Gihatag ang usa ka han-ay sa mga token, ang usa ka modelo sa transformer mosulay sa pagtagna sa sunod nga timaan.

Ang Jukebox naggamit ug pinasimple nga variant sa Sparse Transformers. Kung mabansay na ang tanan nga nag-una nga mga modelo, ang transformer makamugna og mga compressed code nga dayon i-decode balik sa hilaw nga audio gamit ang VQ-VAE decoder.

Artist ug Genre Conditioning sa Jukebox

Ang inisyal nga jukebox AI nga modelo naningkamot nga masabtan kung unsa ang tunog sa usa ka kanta sama sa usa ka piho nga genre o artista

Ang generative model sa Jukebox gihimo nga mas kontrolado pinaagi sa paghatag og dugang nga conditional signal atol sa training step.

Ang una nga mga modelo gihatag sa mga artista ug mga label sa genre alang sa matag kanta. Gipamenos niini ang entropy sa prediksyon sa audio ug gitugotan ang modelo nga makab-ot ang mas maayo nga kalidad. Ang mga label makapahimo usab kanamo sa paggiya sa modelo sa usa ka partikular nga istilo.

Gawas sa artista ug genre, ang mga signal sa timing gidugang sa panahon sa pagbansay. Kini nga mga signal naglakip sa gitas-on sa kanta, ang oras sa pagsugod sa usa ka partikular nga sample, ug ang tipik sa kanta nga milabay. Kining dugang nga impormasyon makatabang sa modelo nga masabtan ang mga pattern sa audio nga nagsalig sa kinatibuk-ang istruktura.

Pananglitan, ang modelo mahimong makat-on nga ang palakpak alang sa live music mahitabo sa katapusan sa usa ka kanta. Ang modelo mahimo usab nga makat-on, pananglitan, nga ang pipila ka mga genre adunay mas taas nga instrumental nga mga seksyon kaysa sa uban.

Lyrics

Ang mga modelo nga gikondisyon nga gihisgutan sa miaging seksyon makahimo sa pagmugna og lainlaing mga tingog sa pag-awit. Bisan pa, kini nga mga tingog lagmit nga dili magkauyon ug dili mailhan.

Aron makontrol ang generative nga modelo kon bahin sa lyric generation, ang mga tigdukiduki naghatag og dugang nga konteksto sa panahon sa pagbansay. Aron matabangan ang mapa sa lyric data sa timing sa aktuwal nga audio, gigamit sa mga tigdukiduki Spleeter sa pagkuha sa mga vocal ug NUS AutoLyricsAlign para makakuha ug word-level alignment sa lyrics.

Mga Limitasyon sa Jukebox Model

Usa sa mga nag-unang limitasyon sa Jukebox mao ang pagsabut niini sa mas dagkong mga istruktura sa musika. Pananglitan, ang usa ka mubo nga 20-segundos nga clip sa output mahimong nindot tan-awon, apan ang mga tigpaminaw makamatikod nga ang tipikal nga istruktura sa musika sa nagbalikbalik nga mga chorus ug mga bersikulo wala diha sa katapusan nga output.

Ang modelo hinay usab sa paghubad. Nagkinahanglan kini og gibana-bana nga 9 ka oras aron hingpit nga ma-render ang usa ka minuto nga audio. Gilimitahan niini ang gidaghanon sa mga kanta nga mahimo ug gipugngan ang modelo nga magamit sa mga interactive nga aplikasyon.

Sa kataposan, ang mga tigdukiduki nakamatikod nga ang sample dataset kay nag-una sa English ug nag-una sa Western music conventions. Ang mga tigdukiduki sa AI mahimong mag-focus sa umaabot nga panukiduki sa pagmugna og musika sa ubang mga pinulongan ug dili-Western nga mga estilo sa musika.

Panapos

Gipasiugda sa proyekto sa Jukebox ang nagkadako nga katakus sa mga modelo sa pagkat-on sa makina aron makahimo usa ka tukma nga tinago nga mga representasyon sa komplikado nga datos sama sa hilaw nga audio. Ang susamang mga breakthrough nahitabo sa teksto, sama sa makita sa mga proyekto sama sa GPT-3, ug mga hulagway, sama sa makita sa OpenAI's DALL-E2.

Samtang ang panukiduki sa kini nga wanang makapahingangha, adunay mga kabalaka bahin sa mga katungod sa intelektwal nga kabtangan ug ang epekto nga mahimo niini nga mga modelo sa mga industriya sa paglalang sa kinatibuk-an. Ang mga tigdukiduki ug mga mamugnaon kinahanglan nga magpadayon sa hugot nga pagtinabangay aron masiguro nga kini nga mga modelo magpadayon sa pag-uswag.

Ang umaabot nga generative nga mga modelo sa musika mahimong sa dili madugay mahimo nga usa ka himan alang sa mga musikero o ingon usa ka aplikasyon alang sa mga mamugnaon nga nanginahanglan usa ka naandan nga musika alang sa mga proyekto.

Jukebox AI – Pagmugna og Musika Gamit ang Neural Networks

Unsa ang Jukebox AI?