Ma hûn dikarin AI-ê bikar bînin ku ji hunermendê xweya bijare tomarek nû biafirînin?
Serkeftinên vê dawiyê di fêrbûna makîneyê de destnîşan kir ku model naha dikarin daneyên tevlihev ên wekî nivîs û wêneyan fam bikin. Jukebox-a OpenAI-ê îsbat dike ku tewra muzîk jî bi torgilokek neuralî dikare were model kirin.
Muzîk ji bo modelê tiştek tevlihev e. Pêdivî ye ku hûn hem taybetmendiyên hêsan ên wekî tempo, deng û deng û hem jî taybetmendiyên tevlihevtir ên wekî gotin, amûr û avahiya muzîkê li ber çavan bigirin.
Bikaranîna pêşketî fêrbûna makîneyê teknîkî, OpenAI rêyek dît ku dengê xav veguherîne nûneriyek ku modelên din dikarin bikar bînin.
Ev gotar dê rave bike ku Jukebox dikare çi bike, ew çawa dixebite, û sînorên heyî yên teknolojiyê.
Jukebox AI çi ye?
Jukebox ji hêla OpenAI ve modelek tora neuralî ye ku dikare bi stranbêjiyê muzîkê çêbike. Model dikare di cûrbecûr celeb û şêwazên hunermendan de muzîkê hilberîne.
Mînakî, Jukebox dikare stranek rock bi şêwaza Elvis Presley an stranek hip hop bi şêwaza Kanye West hilberîne. Hûn dikarin vê ziyaret bikin malpera da ku lêkolîn bikin ka model di girtina dengê hunermend û celebên muzîka weyên bijare de çiqas bandorker e.
Model wekî têketinek celebek, hunermend û stranan hewce dike. Ev têketin rê dide modelek ku li ser bi mîlyonan hunermend û daneyên stranan hatî perwerde kirin.
Jukebox çawa dixebite?
Ka em binihêrin ka Jukebox çawa ji modelek ku li ser bi mîlyonan stranan hatî perwerdekirin dengek nû ya xav hilberîne.
Pêvajoya şîfrekirinê
Dema ku hin modelên nifşê muzîkê daneyên perwerdehiya MIDI-ê bikar tînin, Jukebox li ser pelê bihîstweriya xav a rastîn tê perwerde kirin. Ji bo ku deng li cîhek veqetandî bicivîne, Jukebox nêzîkatiyek şîfrekera otomatîkî ya ku wekî VQ-VAE tê zanîn bikar tîne.
VQ-VAE Wateya Vector Quantized Variational Autoencoder, ku dibe ku hinekî tevlihev xuya bike, ji ber vê yekê em wê bişkînin.
Pêşîn, em hewl bidin ku fêm bikin ka em dixwazin li vir çi bikin. Li gorî gotinan an pel muzîkê, pelê dengek xav pir tevlihevtir e. Ger em bixwazin ku modela me ji stranan "hîn bibe", em ê neçar bibin ku wê veguhezînin nûnertiyek pirtir û sadetir. Li fêrbûna makîneyê, em ji vê temsîliyeta bingehîn re dibêjin a cîhê veşartî.
An autoencode teknîkeke hînbûnê ya bê çavdêrî ye ku a torê neural ji bo belavkirina daneya diyarkirî nûnertiyên dereng ên ne-hêlî bibînin. Autoencoder ji du beşan pêk tê: encoder û dekoder.
Ew encoder hewl dide ku cîhê veşartî ji komek daneyên xav bibîne dema ku Qutik nûneriya veşartî bikar tîne da ku hewl bide ku wê vegere forma xweya orjînal. Otoenkoder bi bingehîn fêr dibe ka meriv çawa daneyên xav bi vî rengî berhev dike ku xeletiya nûavakirinê kêm bike.
Naha ku em dizanin ku kodkerek xweser çi dike, em hewl bidin ku em fêm bikin ka mebesta me ji kodkerek xweser a "guherbar" çi ye. Li gorî otokodên tîpîk, kodkerên guhezbar berê cîhê dereng zêde dikin.
Bêyî ketina nav matematîkê, lêzêdekirina pêşekek îhtîmalî belavkirina dereng ji nêz ve tevlihev dike. Cûdahiya sereke di navbera VAE û VQ-VAE de ev e ku ya paşîn li şûna yek domdar nûneriyek dereng a veqetandî bikar tîne.
Her asta VQ-VAE bi serbixwe têketinê şîfre dike. Kodkirina asta jêrîn nûavakirina herî bilind-kalîteyê çêdike. Kodkirina asta jorîn agahdariya muzîkê ya bingehîn digire.
Bikaranîna Transformers
Naha ku me kodên muzîkê yên ku ji hêla VQ-VAE ve hatî kod kirin hene, em dikarin hewl bidin muzîkê çêbike di vê cîhê veqetandî yên pêçandî de.
Jukebox bikar tîne transformers autoregressive ji bo çêkirina dengê encam. Transformer celebek tora neuralî ye ku bi daneyên rêzkirî çêtirîn dixebite. Ji ber ku rêzek nîşanan tê dayîn, modelek veguherîner dê hewl bide ku nîşana paşîn pêşbîn bike.
Jukebox guhertoyek sadekirî ya Sparse Transformers bikar tîne. Gava ku hemî modelên berê têne perwerde kirin, veguherîner kodên pêçandî diafirîne ku dûv re bi karanîna dekodera VQ-VAE vedigere nav dengê xav.
Hunermend û Conditioning Genre li Jukebox
Modela hilberîner a Jukebox bi peydakirina îşaretên şertî yên zêde di dema pêngava perwerdehiyê de bêtir tê kontrol kirin.
Modelên yekem ji hêla hunermend û labelên celebê ve ji bo her stranê têne peyda kirin. Ev entropiya pêşbîniya dengî kêm dike û dihêle ku model bigihîje kalîteya çêtir. Etîket jî dihêle ku em modelê bi şêwazek taybetî rêve bibin.
Ji bilî hunermend û celebê, di dema perwerdehiyê de îşaretên demê têne zêdekirin. Van nîşanan dirêjahiya stranê, dema destpêkirina nimûneyek taybetî, û beşa strana ku derbas bûye dihewîne. Ev agahdariya zêde ji modelê re dibe alîkar ku qalibên dengî yên ku xwe dispêrin avahiya giştî fam bike.
Mînakî, model dikare fêr bibe ku çepikên muzîka zindî di dawiya stranekê de çêdibe. Mînakî, model dikare fêr bibe ku hin celeb ji yên din beşên instrumental dirêjtir in.
Lyrics
Modelên şertkirî yên ku di beşa berê de hatine destnîşan kirin dikarin cûrbecûr dengên stranbêjiyê biafirînin. Lêbelê, van dengan meyldar dibin ku nehevgirtî û nenas bin.
Ji bo kontrolkirina modela hilberîner dema ku ew tê ser nifşa lîrîkê, lêkolîner di dema perwerdehiyê de çarçoveyek bêtir peyda dikin. Ji bo arîkariya nexşeya daneyên lîrîkê ji bo dema li ser dengê rastîn, lêkolîneran bikar anîn Sleeter ji bo derxistina dengbêjan û NUS AutoLyricsAlign ji bo bidestxistina rêzikên peyvan ên stranan.
Sînorên Modela Jukebox
Yek ji tixûbên sereke yên Jukebox têgihiştina wê ya strukturên muzîkê yên mezin e. Mînakî, klîpek kurt a 20-saniye ya derketinê dibe ku balkêş xuya bike, lê guhdar dê bala xwe bidin ku struktura muzîkê ya tîpîk a koro û beytên dubarekirî di encamnameya paşîn de tune ye.
Model jî hêdî hêdî tê pêşkêş kirin. Nêzîkî 9 demjimêr hewce dike ku meriv yek deqîqeyek deng bi tevahî were pêşkêş kirin. Ev hejmara stranên ku têne çêkirin sînor dike û rê nade ku model di sepanên înteraktîf de were bikar anîn.
Di dawiyê de, lêkolîneran destnîşan kir ku daneya nimûne bi bingehîn bi Englishngilîzî ye û di serî de peymanên muzîka rojavayî destnîşan dike. Lêkolînerên AI-ê dikarin lêkolîna pêşerojê li ser hilberîna muzîka bi zimanên din û şêwazên muzîkê yên ne-rojavayî bisekine.
Xelasî
Projeya Jukebox kapasîteya mezin a modelên fêrbûna makîneyê ronî dike ku nûnertiyek nepenî ya rastîn a daneyên tevlihev ên wekî dengên xav biafirîne. Serkeftinên bi vî rengî di nivîsê de diqewimin, wekî ku di projeyên mîna Gpt-3, û wêne, wekî ku di OpenAI's de têne dîtin DALL-E2.
Digel ku lêkolîna li vê deverê bandorker bû, hîn jî fikarên li ser mafên milkiyeta rewşenbîrî û bandora van modelan li ser pîşesaziyên afirîner bi tevahî hene. Lêkolîner û afirîner divê ji nêz ve hevkariyê bidomînin da ku pê ewle bibin ku ev model dikarin baştir bibin.
Dibe ku modelên muzîka hilberîner ên pêşerojê di demek nêzîk de karibin wekî amûrek ji bo muzîkjenan an jî wekî serîlêdanek ji bo afirînerên ku ji bo projeyan hewceyê muzîkek xwerû hewce dikin tevbigerin.
Leave a Reply