Ĉu vi povas uzi AI por krei novan diskon de via plej ŝatata artisto?
Lastatempaj sukcesoj en maŝinlernado montris, ke modeloj nun kapablas kompreni kompleksajn datumojn kiel tekston kaj bildojn. Jukebox de OpenAI pruvas, ke eĉ muziko povas esti modelita precize per neŭrala reto.
Muziko estas kompleksa objekto por modeligi. Vi devas konsideri ambaŭ simplajn funkciojn kiel takto, laŭtecon kaj tonalto kaj pli kompleksajn funkciojn kiel kantotekston, instrumentojn kaj muzikan strukturon.
Uzado de progresinta maŝinlernado teknikoj, OpenAI trovis manieron konverti krudan aŭdion en reprezentadon, kiun aliaj modeloj povas uzi.
Ĉi tiu artikolo klarigos, kion Jukebox povas fari, kiel ĝi funkcias, kaj la nunaj limigoj de la teknologio.
Kio estas Jukebox AI?
Jukebox estas neŭrala reto modelo de OpenAI kiu povas generi muzikon kun kantado. La modelo povas produkti muzikon en diversaj ĝenroj kaj artiststiloj.
Ekzemple, Jukebox povas produkti rokkanton en la stilo de Elvis Presley aŭ repmelodion en la stilo de Kanye West. Vi povas viziti ĉi tion retejo esplori kiom efika la modelo estas kaptante la sonon de viaj plej ŝatataj muzikaj artistoj kaj ĝenroj.
La modelo postulas ĝenron, artiston kaj kantotekston kiel enigaĵon. Ĉi tiu enigo gvidas modelon trejnitan sur milionoj da artistoj kaj lirikaj datumoj.
Kiel funkcias Jukebox?
Ni rigardu kiel Jukebox sukcesas generi novan krudan aŭdion de modelo trejnita sur milionoj da kantoj.
Kodiga Procezo
Dum kelkaj muzikgeneraciaj modeloj uzas MIDI-trejnaddatenojn, Jukebox estas trejnita sur la fakta kruda sondosiero. Por kunpremi la aŭdion en diskretan spacon, Jukebox uzas aŭtomatan kodigan aliron konatan kiel VQ-VAE.
VQ-VAE signifas Vector Quantized Variational Autoencoder, kiu povus soni iom komplika, do ni malkonstruu ĝin.
Unue, ni provu kompreni, kion ni volas fari ĉi tie. Kompare kun kantoteksto aŭ partituro, kruda sondosiero estas multe pli kompleksa. Se ni volas, ke nia modelo "lernu" el kantoj, ni devos transformi ĝin al pli kunpremita kaj simpligita reprezentado. En maŝinlernado, ni nomas ĉi tiun suba reprezento a latenta spaco.
An aŭtokodigo estas nekontrolita lerna tekniko kiu uzas a Neŭra reto trovi ne-liniajn latentajn prezentojn por donita datuma distribuo. La aŭtokodilo konsistas el du partoj: kodilo kaj malĉifrilo.
la kodigilo provas trovi la latentan spacon de aro de krudaj datumoj dum la decodilo uzas la latentan reprezentadon por provi rekonstrui ĝin en ĝian originan formaton. La aŭtokodigilo esence lernas kiel kunpremi la krudajn datumojn tiel, ke minimumigas rekonstruan eraron.
Nun kiam ni scias, kion faras aŭtokodilo, ni provu kompreni, kion ni signifas per "varia" aŭtokodilo. Kompare al tipaj aŭtokodiloj, variaciaj aŭtokodiloj aldonas antaŭon al la latenta spaco.
Sen plonĝado en la matematikon, aldonante probabilisman prioron tenas la latentan distribuon proksime kompaktigita. La ĉefdiferenco inter VAE kaj VQ-VAE estas ke ĉi-lasta uzas diskretan latentan reprezentantaron prefere ol kontinuan.
Ĉiu VQ-VAE-nivelo sendepende ĉifras la enigaĵon. La malsupra nivelkodigado produktas la plej altkvalitan rekonstruon. La altnivela kodigado konservas esencajn muzikajn informojn.
Uzante Transformiloj
Nun kiam ni havas la muzikkodojn koditaj de VQ-VAE, ni povas provi generi muzikon en tiu ĉi kunpremita diskreta spaco.
Jukebox uzas aŭtoregresaj transformiloj por krei la eligaŭdon. Transformiloj estas speco de neŭrala reto kiu funkcias plej bone kun sekvencaj datumoj. Donita sekvencon de ĵetonoj, transformilo-modelo provos antaŭdiri la venontan ĵetonon.
Jukebox uzas simpligitan variaĵon de Sparse Transformers. Post kiam ĉiuj antaŭaj modeloj estas trejnitaj, la transformilo generas kunpremitajn kodojn kiuj tiam estas deĉifritaj reen en krudan aŭdion uzante la VQ-VAE-malĉifrilon.
Artisto kaj Genre Conditioning en Jukebox
La genera modelo de Jukebox fariĝas pli kontrolebla disponigante kromajn kondiĉajn signalojn dum la trejna paŝo.
La unuaj modeloj estas disponigitaj fare de artistoj kaj ĝenraj etikedoj por ĉiu kanto. Tio reduktas la entropion de la audioprognozo kaj permesas al la modelo atingi pli bonan kvaliton. La etikedoj ankaŭ ebligas al ni direkti la modelon en aparta stilo.
Krom la artisto kaj ĝenro, temposignaloj estas aldonitaj dum trejna tempo. Ĉi tiuj signaloj inkluzivas la longon de la kanto, la komenctempon de speciala provaĵo, kaj la frakcion de la kanto kiu pasis. Ĉi tiu plia informo helpas la modelon kompreni aŭdpadronojn kiuj dependas de la ĝenerala strukturo.
Ekzemple, la modelo povas lerni ke la aplaŭdo por koncertmuziko okazas ĉe la fino de kanto. La modelo ankaŭ povas lerni, ekzemple, ke iuj ĝenroj havas pli longajn instrumentajn sekciojn ol aliaj.
kantoteksto
La kondiĉigitaj modeloj menciitaj en la antaŭa sekcio kapablas generi diversajn kantvoĉojn. Tamen, ĉi tiuj voĉoj tendencas esti nekoheraj kaj nerekoneblaj.
Por kontroli la generan modelon kiam temas pri lirika generacio, la esploristoj provizas pli da kunteksto ĉe trejnado. Por helpi mapi lirikajn datumojn al la tempo en la reala audio, la esploristoj uzis Spleeter ĉerpi vokalojn kaj NUS AutolyricsAlign por akiri vortnivelajn alineojn de la kantotekstoj.
Limigoj de Jukebox Model
Unu el la ĉefaj limigoj de Jukebox estas sia kompreno de pli grandaj muzikaj strukturoj. Ekzemple, mallonga 20-sekunda klipo de la eligo povas soni impona, sed aŭskultantoj rimarkos, ke la tipa muzika strukturo de ripetado de ĥoroj kaj versoj forestas en la fina eligo.
La modelo ankaŭ malrapidas bildigi. Necesas proksimume 9 horoj por plene redoni unu minuton da audio. Ĉi tio limigas la nombron da kantoj kiuj povas esti generitaj kaj malhelpas la modelon esti uzata en interagaj aplikoj.
Finfine, la esploristoj rimarkis, ke la ekzempla datumaro estas ĉefe en la angla kaj montras ĉefe okcidentajn muzikajn konvenciojn. AI-esploristoj povas enfokusigi estontajn esplorojn pri generado de muziko en aliaj lingvoj kaj ne-okcidentaj muzikstiloj.
konkludo
La Jukebox-projekto elstarigas la kreskantan kapablon de maŝinlernado-modeloj por krei precizajn latentajn reprezentojn de kompleksaj datumoj kiel kruda audio. Similaj trarompoj okazas en la teksto, kiel oni vidas en projektoj kiel GPT-3, kaj bildoj, kiel vidite en OpenAI-oj DALL-E2.
Dum la esplorado en ĉi tiu spaco estis impona, ankoraŭ estas zorgoj pri intelekta proprieto-rajtoj kaj la efiko kiun ĉi tiuj modeloj povas havi sur kreivaj industrioj entute. Esploristoj kaj kreintoj devas daŭre proksime kunlabori por certigi, ke ĉi tiuj modeloj daŭre pliboniĝos.
Estontaj generaj muzikmodeloj eble baldaŭ povos funkcii kiel ilo por muzikistoj aŭ kiel aplikaĵo por kreintoj, kiuj bezonas kutiman muzikon por projektoj.
Lasi Respondon