A mund të përdorni AI për të krijuar një rekord të ri nga artisti juaj i preferuar?
Zbulimet e fundit në mësimin e makinerive kanë treguar se modelet tani janë në gjendje të kuptojnë të dhëna komplekse si teksti dhe imazhet. Jukebox i OpenAI dëshmon se edhe muzika mund të modelohet pikërisht nga një rrjet nervor.
Muzika është një objekt kompleks për t'u modeluar. Ju duhet të merrni parasysh veçoritë e thjeshta si ritmi, zëri dhe lartësia dhe veçoritë më komplekse si tekstet, instrumentet dhe struktura muzikore.
Përdorimi i avancuar Mësimi makinë Teknikat, OpenAI ka gjetur një mënyrë për të kthyer audion e papërpunuar në një paraqitje që modelet e tjera mund të përdorin.
Ky artikull do të shpjegojë se çfarë mund të bëjë Jukebox, si funksionon dhe kufizimet aktuale të teknologjisë.
Çfarë është Jukebox AI?
Jukebox është një model i rrjetit nervor nga OpenAI që mund të gjenerojë muzikë me këndim. Modeli mund të prodhojë muzikë në një sërë zhanresh dhe stilesh artistësh.
Për shembull, Jukebox mund të prodhojë një këngë rock në stilin e Elvis Presley ose një melodi hip hop në stilin e Kanye West. Ju mund ta vizitoni këtë për të eksploruar se sa efektiv është modeli në kapjen e tingullit të artistëve dhe zhanreve tuaja të preferuara muzikore.
Modeli kërkon një zhanër, artist dhe tekst si të dhëna. Kjo hyrje udhëzon një model të trajnuar mbi miliona artistë dhe të dhëna lirike.
Si funksionon Jukebox?
Le të shohim se si Jukebox arrin të gjenerojë audio të re të papërpunuara nga një model i trajnuar në miliona këngë.
Procesi i kodimit
Ndërsa disa modele të gjenerimit të muzikës përdorin të dhëna trajnimi MIDI, Jukebox është trajnuar në skedarin aktual audio të papërpunuar. Për të kompresuar audion në një hapësirë diskrete, Jukebox përdor një qasje të kodimit automatik të njohur si VQ-VAE.
VQ-VAE qëndron për Vector Quantized Variational Autoencoder, i cili mund të tingëllojë pak i ndërlikuar, kështu që le ta zbërthejmë.
Së pari, le të përpiqemi të kuptojmë se çfarë duam të bëjmë këtu. Krahasuar me tekstet ose fletët e muzikës, një skedar audio i papërpunuar është shumë më kompleks. Nëse duam që modeli ynë të “mësojë” nga këngët, do të na duhet ta transformojmë atë në një paraqitje më të ngjeshur dhe të thjeshtuar. Në Mësimi makinë, ne e quajmë këtë përfaqësim themelor a hapësirë latente.
An kodim automatik është një teknikë mësimore e pambikëqyrur që përdor a Rrjeti nervoz për të gjetur paraqitje latente jolineare për një shpërndarje të caktuar të të dhënave. Autoenkoder përbëhet nga dy pjesë: një kodues dhe dekoder.
La encoder përpiqet të gjejë hapësirën latente nga një grup të dhënash të papërpunuara ndërsa decoder përdor paraqitjen latente për t'u përpjekur ta rindërtojë atë në formatin e tij origjinal. Autoencoder në thelb mëson se si të kompresojë të dhënat e papërpunuara në një mënyrë të tillë që minimizon gabimin e rindërtimit.
Tani që e dimë se çfarë bën një autoenkoder, le të përpiqemi të kuptojmë se çfarë nënkuptojmë me një kodues automatik "ndryshues". Krahasuar me autoenkoderat tipikë, autoenkoderët variacional shtojnë një para hapësirës latente.
Pa u zhytur në matematikë, shtimi i një paraprake probabilistike e mban shpërndarjen latente të ngjeshur ngushtë. Dallimi kryesor midis një VAE dhe një VQ-VAE është se ky i fundit përdor një paraqitje latente diskrete dhe jo një të vazhdueshme.
Çdo nivel VQ-VAE kodon në mënyrë të pavarur hyrjen. Kodimi i nivelit të poshtëm prodhon rindërtimin e cilësisë më të lartë. Kodimi i nivelit të lartë ruan informacionin thelbësor muzikor.
Përdorimi i transformatorëve
Tani që kemi kodet muzikore të koduara nga VQ-VAE, mund të përpiqemi gjenerojnë muzikë në këtë hapësirë diskrete të ngjeshur.
Jukebox përdor transformatorë autoregresivë për të krijuar audion dalëse. Transformatorët janë një lloj rrjeti nervor që funksionon më së miri me të dhëna të renditura. Duke pasur parasysh një sekuencë shenjash, një model transformator do të përpiqet të parashikojë shenjën tjetër.
Jukebox përdor një variant të thjeshtuar të Transformers Sparse. Pasi të jenë trajnuar të gjitha modelet e mëparshme, transformatori gjeneron kode të kompresuara të cilat më pas deshifrohen përsëri në audio të papërpunuar duke përdorur dekoderin VQ-VAE.
Artisti dhe Kondicionimi i Zhanrit në Jukebox
Modeli gjenerues i Jukebox është bërë më i kontrollueshëm duke ofruar sinjale shtesë të kushtëzuara gjatë hapit të trajnimit.
Modelet e para ofrohen nga artistë dhe label të zhanrit për secilën këngë. Kjo zvogëlon entropinë e parashikimit audio dhe lejon modelin të arrijë cilësi më të mirë. Etiketat gjithashtu na mundësojnë ta drejtojmë modelin në një stil të veçantë.
Përveç artistit dhe zhanrit, sinjalet e kohës shtohen gjatë kohës së trajnimit. Këto sinjale përfshijnë gjatësinë e këngës, kohën e fillimit të një kampioni të caktuar dhe pjesën e këngës që ka kaluar. Ky informacion shtesë e ndihmon modelin të kuptojë modelet audio që mbështeten në strukturën e përgjithshme.
Për shembull, modelja mund të mësojë se duartrokitjet për muzikën live ndodhin në fund të një kënge. Modeli gjithashtu mund të mësojë, për shembull, se disa zhanre kanë seksione instrumentale më të gjata se të tjerat.
tekst kënge
Modelet e kushtëzuara të përmendura në seksionin e mëparshëm janë në gjendje të gjenerojnë një shumëllojshmëri zërash këndimi. Megjithatë, këto zëra priren të jenë jokoherente dhe të panjohura.
Për të kontrolluar modelin gjenerues kur bëhet fjalë për gjenerimin e lirikës, studiuesit ofrojnë më shumë kontekst në kohën e trajnimit. Për të ndihmuar në hartimin e të dhënave lirike me kohën në audion aktuale, studiuesit përdorën Zeshkane për të nxjerrë vokal dhe NUS AutoLyrics Align për të marrë rreshtime në nivel fjalësh të teksteve.
Kufizimet e modelit Jukebox
Një nga kufizimet kryesore të Jukebox është të kuptuarit e strukturave më të mëdha muzikore. Për shembull, një klip i shkurtër 20 sekonda i prodhimit mund të tingëllojë mbresëlënës, por dëgjuesit do të vërejnë se struktura tipike muzikore e refreneve dhe vargjeve të përsëritura mungon në daljen përfundimtare.
Modeli është gjithashtu i ngadalshëm në paraqitje. Duhen afërsisht 9 orë për të dhënë plotësisht një minutë audio. Kjo kufizon numrin e këngëve që mund të gjenerohen dhe parandalon që modeli të përdoret në aplikacione interaktive.
Së fundi, studiuesit kanë vërejtur se grupi i të dhënave të mostrës është kryesisht në anglisht dhe shfaq kryesisht konventat e muzikës perëndimore. Studiuesit e inteligjencës artificiale mund të fokusojnë kërkimet e ardhshme në gjenerimin e muzikës në gjuhë të tjera dhe stile muzikore jo-perëndimore.
Përfundim
Projekti Jukebox thekson aftësinë në rritje të modeleve të mësimit të makinerive për të krijuar një paraqitje të saktë latente të të dhënave komplekse si audio e papërpunuar. Zbulime të ngjashme po ndodhin në tekst, siç shihet në projekte si GPT-3, dhe imazhet, siç shihen në OpenAI DALL-E2.
Ndërsa kërkimi në këtë hapësirë ka qenë mbresëlënës, ka ende shqetësime për të drejtat e pronësisë intelektuale dhe ndikimin që këto modele mund të kenë në industritë krijuese në tërësi. Studiuesit dhe krijuesit duhet të vazhdojnë të bashkëpunojnë ngushtë për të siguruar që këto modele mund të vazhdojnë të përmirësohen.
Modelet e ardhshme të muzikës gjeneruese së shpejti mund të jenë në gjendje të veprojnë si një mjet për muzikantët ose si një aplikacion për krijuesit që kanë nevojë për një muzikë të personalizuar për projekte.
Lini një Përgjigju