Za ku iya amfani da AI don ƙirƙirar sabon rikodin daga mawaƙin da kuka fi so?
Nasarar baya-bayan nan a cikin koyan na'ura sun nuna cewa samfuran yanzu suna iya fahimtar hadaddun bayanai kamar rubutu da hotuna. OpenAI's Jukebox yana tabbatar da cewa ko da kiɗan ana iya ƙirƙira shi daidai ta hanyar hanyar sadarwa ta jijiya.
Kiɗa wani abu ne mai rikitarwa don ƙira. Dole ne ku yi la'akari da abubuwa biyu masu sauƙi kamar ɗan lokaci, ƙara, da sauti da ƙarin hadaddun fasali kamar su waƙoƙi, kayan kida, da tsarin kiɗa.
Amfani da ci-gaba injin inji fasahohi, OpenAI ya samo hanyar da za a canza sautin ɗanyen sauti zuwa wakilcin da sauran samfuran za su iya amfani da su.
Wannan labarin zai bayyana abin da Jukebox zai iya yi, yadda yake aiki, da iyakokin fasaha na yanzu.
Menene Jukebox AI?
Jukebox samfurin neural net ne ta OpenAI wanda zai iya samar da kiɗa tare da waƙa. Samfurin zai iya samar da kiɗa a cikin nau'i-nau'i da nau'o'in masu fasaha.
Misali, Jukebox na iya samar da waƙar dutse a cikin salon Elvis Presley ko kuma waƙar hip hop a cikin salon Kanye West. Kuna iya ziyartar wannan yanar don bincika yadda samfurin ke da tasiri wajen ɗaukar sautin mawakan kiɗa da nau'ikan da kuka fi so.
Samfurin yana buƙatar nau'i, mai zane, da waƙoƙi azaman shigarwa. Wannan shigarwar tana jagorantar samfurin da aka horar akan miliyoyin masu fasaha da bayanan waƙoƙi.
Ta yaya Jukebox ke aiki?
Bari mu kalli yadda Jukebox ke sarrafa samar da ingantaccen sauti na labari daga samfurin da aka horar akan miliyoyin waƙoƙi.
Tsarin Rufewa
Yayin da wasu ƙirar ƙirar kiɗa ke amfani da bayanan horo na MIDI, an horar da Jukebox akan ainihin ɗanyen fayil ɗin mai jiwuwa. Don matsar da sautin zuwa sararin samaniya mai mahimmanci, Jukebox yana amfani da hanyar shigar da atomatik wanda aka sani da VQ-VAE.
VQ-VAE yana tsaye ga Vector Quantized Variational Autoencoder, wanda zai yi kama da ɗan rikitarwa, don haka bari mu rushe shi.
Da farko, bari mu yi ƙoƙari mu fahimci abin da muke so mu yi a nan. Idan aka kwatanta da waƙoƙi ko kiɗan takarda, ɗanyen fayil ɗin mai jiwuwa ya fi rikitarwa sosai. Idan muna son samfurin mu ya "koyi" daga waƙoƙi, dole ne mu canza shi zuwa mafi matsi da sauƙi wakilci. A ciki injin inji, muna kiran wannan wakilci na asali a latent sarari.
An autoencode dabara ce ta ilmantarwa mara kulawa wacce ke amfani da a neural network don nemo wakilcin latent ba na layi ba don rarraba bayanai da aka bayar. Mai rikodin autoencoder ya ƙunshi sassa biyu: encoder da dikodi.
The encoder yayi ƙoƙarin nemo latent sarari daga saitin ɗanyen bayanai yayin da mai ba da umurni yana amfani da wakilcin ɓoyayyiyar don ƙoƙarin sake gina shi zuwa tsarinsa na asali. Autoencoder da gaske yana koyon yadda ake damfara da ɗanyen bayanai ta yadda zai rage kuskuren sake ginawa.
Yanzu da muka san abin da autoencoder ke yi, bari mu yi ƙoƙarin fahimtar abin da muke nufi da “bambancin” autoencoder. Idan aka kwatanta da na'urar rikodin atomatik, bambance-bambancen autoencoders suna ƙara wani kafin sararin samaniya.
Ba tare da nutsewa cikin ilmin lissafi ba, ƙara mai yiwuwa kafin ya sa rarrabawar ɓoyayyiyar ɓoyayyiyar ɓoyayyen ɓoyayyen abu. Babban bambanci tsakanin VAE da VQ-VAE shine cewa na ƙarshe yana amfani da wakilci mai hankali maimakon mai ci gaba.
Kowane matakin VQ-VAE yana ɓoye bayanan shigar da kansa. Rufaffen matakin ƙasa yana samar da ingantaccen sake ginawa. Ƙimar babban matakin yana riƙe da mahimman bayanan kiɗan.
Amfani da Transformers
Yanzu da muke da lambobin kiɗan da VQ-VAE suka yi, za mu iya gwadawa haifar da kiɗa a cikin wannan matse mai hankali sarari.
Jukebox yana amfani autoregressive gidajen wuta don ƙirƙirar sautin fitarwa. Transformers wani nau'in cibiyar sadarwa ne na jijiyoyi wanda ke aiki mafi kyau tare da bayanan jeri. Idan aka ba da jeri na alamomi, ƙirar taswira za ta yi ƙoƙarin tsinkayar alama ta gaba.
Jukebox yana amfani da sauƙaƙan bambancin Sparse Transformers. Da zarar an horar da duk samfuran da suka gabata, injin taswira yana samar da lambobi masu matsawa waɗanda aka canza su zuwa cikin ɗanyen sauti ta amfani da na'urar VQ-VAE.
Mai zane da Salon Salon a Jukebox
Samfurin samar da Jukebox an sanya shi mafi iko ta hanyar samar da ƙarin sigina na sharadi yayin matakin horo.
Ana samar da samfura na farko ta masu fasaha da lakabin nau'in kowane waƙa. Wannan yana rage entropy na tsinkayar sauti kuma yana ba da damar samfurin don cimma mafi kyawun inganci. Alamun kuma suna ba mu damar sarrafa samfurin a cikin wani salo na musamman.
Bayan mai zane da nau'in, ana ƙara siginar lokaci yayin lokacin horo. Waɗannan sigina sun haɗa da tsawon waƙar, lokacin farawa na musamman, da ɗan guntun waƙar da ya wuce. Wannan ƙarin bayanin yana taimaka wa ƙirar fahimtar tsarin sauti wanda ya dogara da tsarin gaba ɗaya.
Misali, abin ƙila zai iya koyon cewa tafi don kiɗan kai tsaye yana faruwa a ƙarshen waƙa. Hakanan samfurin zai iya koyo, alal misali, cewa wasu nau'ikan suna da sassan kayan aiki masu tsayi fiye da wasu.
lyrics
Samfuran sharadi da aka ambata a sashin da ya gabata suna da ikon samar da muryoyin waƙa iri-iri. Koyaya, waɗannan muryoyin sun kasance marasa daidaituwa kuma ba za a iya gane su ba.
Don sarrafa samfurin haɓakawa lokacin da yazo ga tsararrun waƙoƙi, masu bincike suna ba da ƙarin mahallin a lokacin horo. Don taimakawa taswirar bayanan waƙoƙi zuwa lokaci akan ainihin sauti, masu binciken sunyi amfani da su Mai Spleter don cire muryoyin murya da NUS AutoLyricsAalign don samun daidaita matakin kalmomi na waƙoƙin.
Iyaka na Jukebox Model
Ɗaya daga cikin manyan iyakoki na Jukebox shine fahimtarsa na manyan tsarin kiɗan. Misali, ɗan gajeren faifan bidiyo na daƙiƙa 20 na iya zama mai ban sha'awa, amma masu sauraro za su lura cewa tsarin kida na maimaita waƙoƙi da ayoyi ba ya nan a fitowar ƙarshe.
Samfurin kuma yana jinkirin bayarwa. Yana ɗaukar kusan awanni 9 don cikakken yin sautin minti ɗaya. Wannan yana iyakance adadin waƙoƙin da za a iya ƙirƙira kuma yana hana samfurin yin amfani da aikace-aikacen hulɗa.
A ƙarshe, masu binciken sun lura cewa samfurin bayanan yana da farko a cikin Ingilishi kuma yana nuna babban taron kiɗa na Yamma. Masu bincike na AI na iya mayar da hankali kan bincike na gaba a kan samar da kiɗa a cikin wasu harsuna da kuma salon kiɗan da ba na yamma ba.
Kammalawa
Aikin Jukebox yana ba da ƙarin haske game da haɓaka ƙarfin ƙirar ƙirar injina don ƙirƙirar ingantattun sifofi na ɓoyayyen bayanai kamar ɗanyen sauti. Irin wannan ci gaban yana faruwa a cikin rubutu, kamar yadda aka gani a cikin ayyukan kamar GPT-3, da hotuna, kamar yadda aka gani a cikin OpenAI's DALL-E2.
Yayin da bincike a cikin wannan sararin samaniya ya kasance mai ban sha'awa, har yanzu akwai damuwa game da haƙƙin mallaka na fasaha da kuma tasirin waɗannan samfurori na iya haifar da masana'antu gaba ɗaya. Masu bincike da masu ƙirƙira yakamata su ci gaba da haɗa kai don tabbatar da cewa waɗannan samfuran za su iya ci gaba da haɓakawa.
Samfuran kiɗan na gaba na gaba na iya yin aiki azaman kayan aiki don mawaƙa ko azaman aikace-aikacen ƙirƙira waɗanda ke buƙatar kiɗan al'ada don ayyuka.
Leave a Reply