Jukebox AI - Pagbuo ng Musika Gamit ang Mga Neural Network

Talaan ng nilalaman[Tago][Ipakita]

Ano ang Jukebox AI?
Paano gumagana ang Jukebox?+-
Mga Limitasyon ng Jukebox Model
Konklusyon

Magagamit mo ba ang AI para gumawa ng bagong record mula sa iyong paboritong artist?

Ang mga kamakailang tagumpay sa machine learning ay nagpakita na ang mga modelo ay may kakayahang umunawa ng kumplikadong data gaya ng text at mga larawan. Ang Jukebox ng OpenAI ay nagpapatunay na kahit na ang musika ay maaaring imodelo nang tumpak ng isang neural network.

Ang musika ay isang kumplikadong bagay upang imodelo. Kailangan mong isaalang-alang ang parehong mga simpleng tampok tulad ng tempo, loudness, at pitch at mas kumplikadong mga tampok tulad ng lyrics, instrumento, at istruktura ng musika.

Paggamit ng advanced machine learning mga diskarte, nakahanap ang OpenAI ng isang paraan upang i-convert ang hilaw na audio sa isang representasyon na magagamit ng ibang mga modelo.

Ipapaliwanag ng artikulong ito kung ano ang magagawa ng Jukebox, kung paano ito gumagana, at ang kasalukuyang mga limitasyon ng teknolohiya.

Ano ang Jukebox AI?

Jukebox ay isang neural net na modelo ng OpenAI na maaaring makabuo ng musika sa pag-awit. Ang modelo ay maaaring gumawa ng musika sa iba't ibang genre at istilo ng mga artista.

Ang jukebox AI ay bumubuo ng mga kanta mula sa mga kilalang artist

Halimbawa, ang Jukebox ay maaaring gumawa ng isang rock na kanta sa estilo ng Elvis Presley o isang hip hop tune sa estilo ng Kanye West. Maaari mong bisitahin ito website upang tuklasin kung gaano kaepektibo ang modelo sa pagkuha ng tunog ng iyong mga paboritong musical artist at genre.

Ang modelo ay nangangailangan ng isang genre, artist, at lyrics bilang input. Ang input na ito ay gumagabay sa isang modelong sinanay sa milyun-milyong artist at lyric na data.

Paano gumagana ang Jukebox?

Tingnan natin kung paano nagagawa ng Jukebox na makabuo ng nobelang raw audio mula sa isang modelong sinanay sa milyun-milyong kanta.

Proseso ng Encoding

Habang ang ilang mga modelo ng henerasyon ng musika ay gumagamit ng data ng pagsasanay sa MIDI, ang Jukebox ay sinanay sa aktwal na raw audio file. Upang i-compress ang audio sa isang discrete space, gumagamit ang Jukebox ng auto-encoder na diskarte na kilala bilang VQ-VAE.

VQ-VAE ay nangangahulugang Vector Quantized Variational Autoencoder, na maaaring mukhang kumplikado, kaya hatiin natin ito.

Una, subukan nating maunawaan kung ano ang gusto nating gawin dito. Kung ikukumpara sa lyrics o sheet music, ang isang raw audio file ay mas kumplikado. Kung gusto naming "matuto" ang aming modelo mula sa mga kanta, kakailanganin naming baguhin ito sa isang mas compressed at pinasimple na representasyon. Sa machine learning, tinatawag namin itong pinagbabatayan na representasyon na a nakatagong espasyo.

ang latent space ay isang naka-compress na bersyon ng isang sample input

An autoencode ay isang unsupervised learning technique na gumagamit ng a neural network upang makahanap ng mga hindi linear na latent na representasyon para sa isang naibigay na pamamahagi ng data. Ang autoencoder ay binubuo ng dalawang bahagi: isang encoder at decoder.

Ang encoder sinusubukang hanapin ang latent space mula sa isang set ng raw data habang ang decoder gumagamit ng nakatagong representasyon upang subukang buuin muli ito sa orihinal nitong format. Ang autoencoder ay mahalagang natututo kung paano i-compress ang raw data sa paraang pinapaliit ang error sa muling pagtatayo.

Ngayong alam na natin kung ano ang ginagawa ng isang autoencoder, subukan nating maunawaan kung ano ang ibig sabihin ng isang "variational" na autoencoder. Kung ikukumpara sa mga karaniwang autoencoder, nagdaragdag ang mga variational na autoencoder ng bago sa latent space.

Nang walang pagsisid sa matematika, ang pagdaragdag ng probabilistic prior ay nagpapanatili sa latent distribution na malapit na siksik. Ang pangunahing pagkakaiba sa pagitan ng isang VAE at isang VQ-VAE ay ang huli ay gumagamit ng isang discrete latent na representasyon sa halip na isang tuluy-tuloy. diagram ng arkitektura ng jukebox AI para sa pag-encode at pag-decode

Ang bawat antas ng VQ-VAE ay nakapag-iisa na nag-e-encode ng input. Ang pang-ibabang antas na pag-encode ay gumagawa ng pinakamataas na kalidad na muling pagtatayo. Pinapanatili ng top-level na encoding ang mahahalagang impormasyon sa musika.

Gamit ang mga transformer

Gumagamit ang jukebox AI ng mga transformer para bumuo ng susunod na audio clip sa track

Ngayong mayroon na kaming mga music code na naka-encode ng VQ-VAE, maaari naming subukan makabuo ng musika sa naka-compress na discrete space na ito.

Ginagamit ang Jukebox mga autoregressive na mga transformer upang lumikha ng output na audio. Ang mga transformer ay isang uri ng neural network na pinakamahusay na gumagana sa sequenced data. Dahil sa pagkakasunud-sunod ng mga token, susubukan ng isang modelo ng transformer na hulaan ang susunod na token.

Gumagamit ang Jukebox ng pinasimpleng variant ng Sparse Transformers. Kapag nasanay na ang lahat ng naunang modelo, bubuo ang transpormer ng mga naka-compress na code na pagkatapos ay i-decode pabalik sa raw audio gamit ang VQ-VAE decoder.

Artist at Genre Conditioning sa Jukebox

Ang unang modelo ng jukebox AI ay sumusubok na maunawaan kung paano ang isang kanta ay parang isang partikular na genre o artist

Ginagawang mas nakokontrol ang generative model ng Jukebox sa pamamagitan ng pagbibigay ng mga karagdagang conditional signal sa panahon ng hakbang ng pagsasanay.

Ang mga unang modelo ay ibinibigay ng mga artist at mga label ng genre para sa bawat kanta. Binabawasan nito ang entropy ng hula sa audio at pinapayagan ang modelo na makamit ang mas mahusay na kalidad. Ang mga label ay nagbibigay-daan din sa amin na patnubayan ang modelo sa isang partikular na istilo.

Bukod sa artist at genre, ang mga signal ng timing ay idinaragdag sa oras ng pagsasanay. Kasama sa mga signal na ito ang haba ng kanta, oras ng pagsisimula ng isang partikular na sample, at ang bahagi ng kanta na lumipas na. Ang karagdagang impormasyong ito ay tumutulong sa modelo na maunawaan ang mga pattern ng audio na umaasa sa pangkalahatang istraktura.

Halimbawa, maaaring malaman ng modelo na ang palakpakan para sa live na musika ay nangyayari sa dulo ng isang kanta. Matututuhan din ng modelo, halimbawa, na ang ilang genre ay may mas mahabang instrumental na seksyon kaysa sa iba.

lyrics

Ang mga modelong nakakondisyon na binanggit sa nakaraang seksyon ay may kakayahang makabuo ng iba't ibang boses ng pag-awit. Gayunpaman, ang mga boses na ito ay may posibilidad na hindi magkatugma at hindi makilala.

Upang makontrol ang generative na modelo pagdating sa pagbuo ng liriko, ang mga mananaliksik ay nagbibigay ng higit pang konteksto sa oras ng pagsasanay. Upang makatulong sa pagmapa ng data ng liriko sa timing sa aktwal na audio, ginamit ng mga mananaliksik Spleeter upang kunin ang mga vocal at NUS AutoLyricsAlign upang makakuha ng mga pagkakahanay sa antas ng salita ng mga liriko.

Mga Limitasyon ng Jukebox Model

Isa sa mga pangunahing limitasyon ng Jukebox ay ang pag-unawa nito sa mas malalaking istruktura ng musika. Halimbawa, ang isang maikling 20-segundong clip ng output ay maaaring kahanga-hanga, ngunit mapapansin ng mga tagapakinig na ang tipikal na istruktura ng musika ng mga paulit-ulit na koro at mga taludtod ay wala sa panghuling output.

Mabagal din mag-render ang model. Tumatagal ng humigit-kumulang 9 na oras upang ganap na mai-render ang isang minuto ng audio. Nililimitahan nito ang bilang ng mga kanta na maaaring mabuo at pinipigilan ang modelo na magamit sa mga interactive na application.

Panghuli, nabanggit ng mga mananaliksik na ang sample na dataset ay pangunahing nasa English at pangunahing ipinapakita ang mga Western music convention. Maaaring ituon ng mga mananaliksik ng AI ang hinaharap na pananaliksik sa pagbuo ng musika sa ibang mga wika at mga istilo ng musikang hindi Kanluranin.

Konklusyon

Itinatampok ng proyekto ng Jukebox ang lumalagong kakayahan ng mga modelo ng machine learning na lumikha ng tumpak na nakatago na representasyon ng kumplikadong data gaya ng raw audio. Ang mga katulad na tagumpay ay nangyayari sa teksto, tulad ng nakikita sa mga proyekto tulad ng GPT-3, at mga imahe, tulad ng nakikita sa OpenAI's DALL-E2.

Bagama't naging kahanga-hanga ang pananaliksik sa espasyong ito, mayroon pa ring mga alalahanin tungkol sa mga karapatan sa intelektwal na ari-arian at ang epekto ng mga modelong ito sa mga malikhaing industriya sa kabuuan. Ang mga mananaliksik at mga creative ay dapat na patuloy na malapit na magtulungan upang matiyak na ang mga modelong ito ay maaaring patuloy na mapabuti.

Ang mga hinaharap na generative na modelo ng musika ay maaaring kumilos bilang isang tool para sa mga musikero o bilang isang application para sa mga creative na nangangailangan ng custom na musika para sa mga proyekto.

Jukebox AI – Pagbuo ng Musika Gamit ang Mga Neural Network

Ano ang Jukebox AI?