Tista' tuża l-AI biex toħloq rekord ġdid mill-artist favorit tiegħek?
Żviluppi riċenti fit-tagħlim tal-magni wrew li l-mudelli issa huma kapaċi jifhmu dejta kumplessa bħal test u stampi. Il-Jukebox ta' OpenAI juri li anke l-mużika tista' tiġi mmudellata b'mod preċiż minn netwerk newrali.
Il-mużika hija oġġett kumpless għall-mudell. Trid tieħu in kunsiderazzjoni kemm karatteristiċi sempliċi bħal tempo, loudness, u pitch kif ukoll karatteristiċi aktar kumplessi bħal lirika, strumenti, u struttura mużikali.
Bl-użu avvanzat tagħlim magna tekniki, OpenAI sab mod biex jikkonverti awdjo mhux ipproċessat f'rappreżentazzjoni li mudelli oħra jistgħu jużaw.
Dan l-artikolu se jispjega x'jista' jagħmel il-Jukebox, kif jaħdem, u l-limitazzjonijiet attwali tat-teknoloġija.
X'inhu Jukebox AI?
jukebox huwa mudell nett newrali minn OpenAI li jista 'jiġġenera mużika bil-kant. Il-mudell jista 'jipproduċi mużika f'varjetà ta' ġeneri u stili ta 'artisti.
Per eżempju, Jukebox jista 'jipproduċi kanzunetta rock fl-istil ta' Elvis Presley jew melodia hip hop fl-istil ta 'Kanye West. Tista' żżur dan websajt biex tesplora kemm il-mudell huwa effettiv biex jaqbad il-ħoss tal-artisti u l-ġeneri mużikali favoriti tiegħek.
Il-mudell jeħtieġ ġeneru, artist, u lirika bħala input. Dan l-input jiggwida mudell imħarreġ fuq miljuni ta' artisti u dejta tal-lirika.
Kif jaħdem il-Jukebox?
Ejja nħarsu lejn kif Jukebox jirnexxielu jiġġenera awdjo mhux maħdum ġdid minn mudell imħarreġ fuq miljuni ta' kanzunetti.
Proċess ta 'kodifikazzjoni
Filwaqt li xi mudelli ta 'ġenerazzjoni tal-mużika jużaw data ta' taħriġ MIDI, Jukebox huwa mħarreġ fuq il-fajl awdjo mhux ipproċessat attwali. Biex tikkompressa l-awdjo fi spazju diskret, Jukebox juża approċċ ta 'kodifikazzjoni awtomatika magħruf bħala VQ-VAE.
VQ-VAE stands għal Vector Quantized Variational Autoencoder, li jista 'ħoss daqsxejn ikkumplikat, allura ejja nkissruh.
L-ewwel, ejja nippruvaw nifhmu dak li rridu nagħmlu hawn. Meta mqabbel mal-lirika jew il-folja tal-mużika, fajl awdjo mhux maħdum huwa ferm aktar kumpless. Jekk irridu li l-mudell tagħna "titgħallem" mill-kanzunetti, ikollna nittrasformawh f'rappreżentazzjoni aktar kompressa u simplifikata. Fil tagħlim magna, insejħu din ir-rappreżentazzjoni sottostanti a spazju moħbi.
An awtokode hija teknika ta’ tagħlim mhux sorveljat li tuża a newrali netwerk biex issib rappreżentazzjonijiet latenti mhux lineari għal distribuzzjoni tad-dejta partikolari. L-awtoencoder jikkonsisti f'żewġ partijiet: encoder u decoder.
il encoder jipprova jsib l-ispazju moħbi minn sett ta 'data mhux maħduma filwaqt li l- decoder juża r-rappreżentazzjoni moħbija biex jipprova jibniha lura fil-format oriġinali tagħha. L-awtoencoder essenzjalment jitgħallem kif jikkompressa d-dejta mhux ipproċessata b'tali mod li jimminimizza l-iżball ta 'rikostruzzjoni.
Issa li nafu x'jagħmel autoencoder, ejja nippruvaw nifhmu x'nifhmu b'autoencoder "varjazzjonali". Meta mqabbel ma 'autoencoders tipiċi, autoencoders variational jżidu qabel l-ispazju moħbi.
Mingħajr ma tgħaddas fil-matematika, iż-żieda ta 'qabel probabilistiku żżomm id-distribuzzjoni moħbija kompatta mill-qrib. Id-differenza ewlenija bejn VAE u VQ-VAE hija li dan tal-aħħar juża rappreżentazzjoni moħbija diskreta aktar milli waħda kontinwa.
Kull livell VQ-VAE jikkodifika l-input b'mod indipendenti. Il-kodifikazzjoni tal-livell tal-qiegħ tipproduċi r-rikostruzzjoni tal-ogħla kwalità. Il-kodifikazzjoni tal-ogħla livell iżomm informazzjoni mużikali essenzjali.
Bl-użu ta' Transformers
Issa li għandna l-kodiċi tal-mużika kodifikati minn VQ-VAE, nistgħu nippruvaw jiġġeneraw mużika f'dan l-ispazju diskret kompressat.
Jukebox juża transformers awtoregressivi biex toħloq l-awdjo tal-ħruġ. It-trasformaturi huma tip ta 'netwerk newrali li jaħdem l-aħjar b'dejta sekwenzata. Minħabba sekwenza ta 'tokens, mudell ta' transformer jipprova jbassar it-token li jmiss.
Jukebox juża varjant simplifikat ta 'Sparse Transformers. Ladarba l-mudelli kollha preċedenti huma mħarrġa, it-transformer jiġġenera kodiċijiet kompressati li mbagħad jiġu dekodifikati lura f'awdjo mhux ipproċessat bl-użu tad-decoder VQ-VAE.
Kundizzjonament tal-Artist u tal-Ġeneru fil-Jukebox
Il-mudell ġenerattiv tal-Jukebox isir aktar kontrollabbli billi jipprovdi sinjali kundizzjonali addizzjonali matul il-pass tat-taħriġ.
L-ewwel mudelli huma pprovduti minn artisti u tikketti tal-ġeneri għal kull kanzunetta. Dan inaqqas l-entropija tat-tbassir tal-awdjo u jippermetti lill-mudell jikseb kwalità aħjar. It-tikketti jippermettulna wkoll nidderieġu l-mudell fi stil partikolari.
Minbarra l-artist u l-ġeneru, is-sinjali tal-ħin huma miżjuda matul il-ħin tat-taħriġ. Dawn is-sinjali jinkludu t-tul tal-kanzunetta, il-ħin tal-bidu ta 'kampjun partikolari, u l-frazzjoni tal-kanzunetta li tkun għaddiet. Din l-informazzjoni addizzjonali tgħin lill-mudell jifhem mudelli awdjo li jiddependu fuq l-istruttura ġenerali.
Per eżempju, il-mudell jista 'jitgħallem li l-applaws għall-mużika live jiġri fl-aħħar ta' kanzunetta. Il-mudell jista 'jitgħallem ukoll, pereżempju, li xi ġeneri għandhom sezzjonijiet strumentali itwal minn oħrajn.
Lirika
Il-mudelli kundizzjonati msemmija fit-taqsima preċedenti huma kapaċi jiġġeneraw varjetà ta 'vuċijiet kant. Madankollu, dawn il-vuċijiet għandhom tendenza li jkunu inkoerenti u mhux rikonoxxibbli.
Biex jikkontrollaw il-mudell ġenerattiv meta niġu għall-ġenerazzjoni tal-lirika, ir-riċerkaturi jipprovdu aktar kuntest fil-ħin tat-taħriġ. Ir-riċerkaturi użaw biex jgħinu jimmappaw id-dejta tal-lirika mal-ħin fuq l-awdjo attwali Spleeter biex estratti vokali u NUS AutoLyricsAlign biex tikseb allinjamenti fil-livell tal-kelma tal-lirika.
Limitazzjonijiet tal-Mudell tal-Jukebox
Waħda mil-limitazzjonijiet ewlenin tal-Jukebox hija l-fehim tiegħu ta 'strutturi mużikali akbar. Pereżempju, klipp qasir ta' 20 sekonda tal-output jista' jinstema' impressjonanti, iżda s-semmiegħa jindunaw li l-istruttura mużikali tipika tar-repetizzjoni tal-korijiet u l-poeżiji hija nieqsa fl-output finali.
Il-mudell huwa wkoll bil-mod biex jirrendi. Tieħu madwar 9 sigħat biex tirrendi għal kollox minuta ta' awdjo. Dan jillimita n-numru ta 'kanzunetti li jistgħu jiġu ġġenerati u jipprevjeni li l-mudell jintuża f'applikazzjonijiet interattivi.
Fl-aħħar nett, ir-riċerkaturi nnutaw li s-sett tad-dejta tal-kampjun huwa primarjament bl-Ingliż u juri primarjament konvenzjonijiet tal-mużika tal-Punent. Ir-riċerkaturi tal-IA jistgħu jiffokaw riċerka futura fuq il-ġenerazzjoni ta’ mużika f’lingwi oħra u stili ta’ mużika mhux tal-Punent.
konklużjoni
Il-proġett Jukebox jenfasizza l-kapaċità dejjem tikber tal-mudelli tat-tagħlim tal-magni biex joħolqu rappreżentazzjonijiet latenti preċiżi ta 'dejta kumplessa bħal awdjo mhux ipproċessat. Qed iseħħu skoperti simili fit-test, kif jidher fi proġetti bħal GPT-3, u stampi, kif jidher fl-OpenAI's DALL-E2.
Filwaqt li r-riċerka f’dan l-ispazju kienet impressjonanti, għad hemm tħassib dwar id-drittijiet tal-proprjetà intellettwali u l-impatt li dawn il-mudelli jista’ jkollhom fuq l-industriji kreattivi kollha kemm huma. Ir-riċerkaturi u l-kreattivi għandhom ikomplu jikkollaboraw mill-qrib biex jiżguraw li dawn il-mudelli jistgħu jkomplu jitjiebu.
Mudelli tal-mużika ġenerattiva tal-ġejjieni jistgħu dalwaqt ikunu jistgħu jaġixxu bħala għodda għall-mużiċisti jew bħala applikazzjoni għal kreattivi li jeħtieġu mużika apposta għal proġetti.
Ħalli Irrispondi