Jukebox AI - Inazalisha Muziki kwa Kutumia Mitandao ya Neural

Orodha ya Yaliyomo[Ficha][Onyesha]

Jukebox AI ni nini?
Je, Jukebox hufanya kazi vipi?+-
Mapungufu ya Mfano wa Jukebox
Hitimisho

Je, unaweza kutumia AI kuunda rekodi mpya kutoka kwa msanii unayempenda?

Mafanikio ya hivi majuzi katika kujifunza kwa mashine yameonyesha kuwa miundo sasa ina uwezo wa kuelewa data changamano kama vile maandishi na picha. Jukebox ya OpenAI inathibitisha kuwa hata muziki unaweza kuigwa kwa usahihi na mtandao wa neva.

Muziki ni kitu changamano cha kuigwa. Unapaswa kuzingatia vipengele vyote viwili rahisi kama vile tempo, sauti ya sauti, na sauti na vipengele ngumu zaidi kama vile nyimbo, ala, na muundo wa muziki.

Kwa kutumia advanced mashine kujifunza mbinu, OpenAI imepata njia ya kubadilisha sauti mbichi kuwa kiwakilishi ambacho miundo mingine inaweza kutumia.

Nakala hii itaelezea kile Jukebox inaweza kufanya, jinsi inavyofanya kazi, na mapungufu ya sasa ya teknolojia.

Jukebox AI ni nini?

Jukebox ni mfano wa neural wavu na OpenAI ambao unaweza kutoa muziki kwa kuimba. Mfano huo unaweza kutoa muziki katika aina mbalimbali za muziki na mitindo ya wasanii.

jukebox AI hutengeneza nyimbo kutoka kwa wasanii wanaojulikana

Kwa mfano, Jukebox inaweza kutoa wimbo wa rock kwa mtindo wa Elvis Presley au wimbo wa hip hop kwa mtindo wa Kanye West. Unaweza kutembelea hii tovuti ili kuchunguza jinsi mtindo huo unavyofaa katika kunasa sauti za wasanii na aina zako za muziki.

Muundo unahitaji aina, msanii, na maneno kama ingizo. Ingizo hili huelekeza muundo uliofunzwa kwa mamilioni ya wasanii na data ya maneno.

Je, Jukebox hufanya kazi vipi?

Hebu tuangalie jinsi Jukebox inavyoweza kutoa sauti mbichi mpya kutoka kwa mtindo uliofunzwa kwenye mamilioni ya nyimbo.

Mchakato wa Usimbaji

Ingawa baadhi ya miundo ya kizazi cha muziki hutumia data ya mafunzo ya MIDI, Jukebox inafunzwa kwenye faili halisi ya sauti mbichi. Ili kubana sauti katika nafasi tofauti, Jukebox hutumia mbinu ya kusimba kiotomatiki inayojulikana kama VQ-VAE.

VQ-VAE inasimama kwa Vector Quantized Variational Autoencoder, ambayo inaweza kusikika kuwa ngumu, kwa hivyo wacha tuichambue.

Kwanza, hebu tujaribu kuelewa tunachotaka kufanya hapa. Ikilinganishwa na nyimbo au muziki wa laha, faili mbichi ya sauti ni ngumu zaidi. Ikiwa tunataka muundo wetu "ujifunze" kutoka kwa nyimbo, itatubidi kuubadilisha kuwa uwakilishi uliobanwa zaidi na uliorahisishwa. Katika mashine kujifunza, tunauita uwakilishi huu msingi a nafasi fiche.

nafasi fiche ni toleo lililobanwa la uingizaji wa sampuli

An msimbo otomatiki ni mbinu ya ujifunzaji isiyosimamiwa inayotumia a neural mtandao kupata uwasilishaji fiche usio na mstari kwa usambazaji fulani wa data. Kisimbaji otomatiki kina sehemu mbili: encoder na avkodare.

The encoder inajaribu kupata nafasi fiche kutoka kwa seti ya data mbichi wakati faili ya decoder hutumia uwakilishi fiche kujaribu kuijenga upya katika umbizo lake asili. Kisimbaji kiotomatiki kimsingi hujifunza jinsi ya kubana data mbichi kwa njia ambayo inapunguza hitilafu ya uundaji upya.

Kwa kuwa sasa tunajua kile ambacho kisimbaji kiotomatiki hufanya, hebu tujaribu kuelewa tunachomaanisha kwa kisimbaji kiotomatiki cha "kibadala". Ikilinganishwa na visimbaji kiotomatiki vya kawaida, visimbaji kiotomatiki tofauti huongeza kabla ya nafasi fiche.

Bila kupiga mbizi kwenye hisabati, kuongeza uwezekano wa awali huweka usambazaji fiche kuunganishwa kwa karibu. Tofauti kuu kati ya VAE na VQ-VAE ni kwamba mwisho hutumia uwakilishi fiche badala ya uwakilishi unaoendelea. mchoro wa usanifu wa jukebox AI wa usimbaji na usanifu

Kila kiwango cha VQ-VAE husimba ingizo kwa kujitegemea. Usimbaji wa kiwango cha chini hutoa ujenzi wa ubora wa juu zaidi. Usimbaji wa kiwango cha juu huhifadhi maelezo muhimu ya muziki.

Kwa kutumia Transfoma

jukebox AI hutumia transfoma kutoa klipu ya sauti inayofuata kwenye wimbo

Kwa kuwa sasa tuna misimbo ya muziki iliyosimbwa na VQ-VAE, tunaweza kujaribu kuzalisha muziki katika nafasi hii ya kipekee iliyobanwa.

Jukebox hutumia transfoma autoregressive ili kuunda sauti ya pato. Transfoma ni aina ya mtandao wa neva ambao hufanya kazi vyema na data iliyofuatana. Kutokana na mlolongo wa ishara, mfano wa transformer utajaribu kutabiri ishara inayofuata.

Jukebox hutumia lahaja iliyorahisishwa ya Sparse Transfoma. Mitindo yote ya hapo awali inapofunzwa, kibadilishaji kisituo hutengeneza misimbo iliyobanwa ambayo hubadilishwa kuwa sauti mbichi kwa kutumia avkodare ya VQ-VAE.

Msanii na Hali ya Aina katika Jukebox

Mfano wa mwanzo wa jukebox AI hujaribu kuelewa jinsi wimbo unavyosikika kama aina au msanii mahususi

Muundo wa kuzalisha wa Jukebox unafanywa kudhibitiwa zaidi kwa kutoa mawimbi ya masharti ya ziada wakati wa hatua ya mafunzo.

Miundo ya kwanza hutolewa na wasanii na lebo za aina kwa kila wimbo. Hii inapunguza entropy ya utabiri wa sauti na inaruhusu mtindo kufikia ubora bora. Lebo pia hutuwezesha kuelekeza kielelezo kwa mtindo fulani.

Kando na msanii na aina, ishara za muda huongezwa wakati wa mafunzo. Ishara hizi ni pamoja na urefu wa wimbo, wakati wa kuanza kwa sampuli fulani, na sehemu ya wimbo ambao umepita. Maelezo haya ya ziada husaidia kielelezo kuelewa mifumo ya sauti inayotegemea muundo wa jumla.

Kwa mfano, mwanamitindo anaweza kujifunza kwamba makofi ya muziki wa moja kwa moja hutokea mwishoni mwa wimbo. Mfano unaweza pia kujifunza, kwa mfano, kwamba aina fulani za muziki zina sehemu ndefu za ala kuliko zingine.

Nyimbo

Mifano zilizo na masharti zilizotajwa katika sehemu iliyopita zina uwezo wa kuzalisha aina mbalimbali za sauti za kuimba. Hata hivyo, sauti hizi huwa hazifanani na hazitambuliki.

Ili kudhibiti muundo wa uzalishaji linapokuja suala la utengenezaji wa sauti, watafiti hutoa muktadha zaidi wakati wa mafunzo. Ili kusaidia ramani ya data ya sauti kwa wakati kwenye sauti halisi, watafiti walitumia Mbwembwe kutoa sauti na NUS AutoLyricsAlign ili kupata upatanisho wa maneno ya kiwango cha maneno.

Mapungufu ya Mfano wa Jukebox

Moja ya vikwazo kuu vya Jukebox ni uelewa wake wa miundo mikubwa ya muziki. Kwa mfano, klipu fupi ya sekunde 20 ya matokeo inaweza kusikika kuwa ya kuvutia, lakini wasikilizaji watagundua kuwa muundo wa kawaida wa muziki wa kurudia korasi na mistari haupo katika matokeo ya mwisho.

Mfano pia ni polepole kutoa. Inachukua takriban saa 9 kutoa sauti kamili ya dakika moja. Hii inazuia idadi ya nyimbo zinazoweza kuzalishwa na kuzuia kielelezo kutumiwa katika programu wasilianifu.

Mwishowe, watafiti wamegundua kuwa sampuli ya hifadhidata ni ya Kiingereza na inaonyesha kanuni za muziki za Magharibi. Watafiti wa AI wanaweza kulenga utafiti wa siku zijazo juu ya kutengeneza muziki katika lugha zingine na mitindo ya muziki isiyo ya Magharibi.

Hitimisho

Mradi wa Jukebox unaangazia uwezo unaokua wa miundo ya kujifunza kwa mashine ili kuunda uwasilishaji sahihi uliofichika wa data changamano kama vile sauti mbichi. Mafanikio sawa yanafanyika katika maandishi, kama inavyoonekana katika miradi kama GPT-3, na picha, kama inavyoonekana katika OpenAI's DALL-E2.

Ingawa utafiti katika nafasi hii umekuwa wa kuvutia, bado kuna wasiwasi kuhusu haki miliki na athari ambazo miundo hii inaweza kuwa nayo kwa tasnia ya ubunifu kwa ujumla. Watafiti na wabunifu wanapaswa kuendelea kushirikiana kwa karibu ili kuhakikisha kuwa miundo hii inaweza kuendelea kuboreka.

Miundo ya baadaye ya muziki inaweza kutumika kama zana ya wanamuziki hivi karibuni au kama programu kwa wabunifu wanaohitaji muziki maalum kwa ajili ya miradi.

Jukebox AI - Inazalisha Muziki kwa Kutumia Mitandao ya Neural

Jukebox AI ni nini?