Erabili al dezakezu AI zure artista gogokoen disko berri bat sortzeko?
Ikaskuntza automatikoaren azken aurrerapenek erakutsi dute gaur egun ereduak gai direla testuak eta irudiak bezalako datu konplexuak ulertzeko. OpenAI-ren Jukebox-ek frogatzen du sare neuronal batek musika ere modelatu daitekeela zehatz-mehatz.
Musika modelatzeko objektu konplexua da. Kontuan izan behar dituzu ezaugarri sinpleak, hala nola tempoa, ozentasuna eta tonua, eta ezaugarri konplexuagoak, hala nola letra, instrumentuak eta musika egitura.
Aurreratua erabiltzea makina ikaskuntza teknikak, OpenAIk audio gordina beste eredu batzuek erabil dezaketen irudikapen bihurtzeko modu bat aurkitu du.
Artikulu honetan Jukebox-ek zer egin dezakeen, nola funtzionatzen duen eta teknologiaren egungo mugak azalduko dira.
Zer da Jukebox AI?
Jukebox Kantuarekin musika sor dezakeen OpenAI-ren sare neuronalaren eredu bat da. Modeloak hainbat genero eta artista estilotako musika ekoitzi dezake.
Adibidez, Jukebox-ek Elvis Presleyren estiloko rock abesti bat edo Kanye Westen estiloko hip hop doinu bat ekoitzi dezake. Hau bisitatu dezakezu eredua zein eraginkorra den zure musika-artista eta genero gogokoen soinua harrapatzeko.
Ereduak generoa, artista eta letra behar ditu sarrera gisa. Sarrera honek milioika artista eta letra datuekin trebatutako eredu bat gidatzen du.
Nola funtzionatzen du Jukebox-ek?
Ikus dezagun nola lortzen duen Jukebox-ek milioika abestitan trebatutako modelo batetik audio gordina berria sortzea.
Kodetze-prozesua
Musika sortzeko eredu batzuek MIDI prestakuntza-datuak erabiltzen dituzten bitartean, Jukebox benetako audio-fitxategi gordinean trebatzen da. Audioa espazio diskretu batean konprimitzeko, Jukebox-ek VQ-VAE izenez ezagutzen den kodetzaile automatikoaren ikuspegia erabiltzen du.
VQ-VAE Vector Quantized Variational Autoencoder esan nahi du, eta horrek pixka bat konplikatua dirudi, beraz, hautsi dezagun.
Lehenik eta behin, saia gaitezen hemen zer egin nahi dugun ulertzen. Letrekin edo partiturarekin alderatuta, audio-fitxategi gordinak askoz konplexuagoa da. Gure eredua abestietatik “ikasita” nahi badugu, irudikapen konprimituago eta sinplifikatuago batean eraldatu beharko dugu. In makina ikaskuntza, azpiko irudikapen horri a deitzen diogu ezkutuko espazioa.
An autokodetzea a erabiltzen duen gainbegiratu gabeko ikaskuntza teknika bat da sare neural datu-banaketa baterako irudikapen latente ez-linealak aurkitzeko. Autokodetzaileak bi zati ditu: kodetzailea eta deskodetzailea.
The kodetzailearen datu gordina multzo batetik ezkutuko espazioa aurkitzen saiatzen da deskodetzailea ezkutuko irudikapena erabiltzen du jatorrizko formatuan berriro berreraikitzen saiatzeko. Autokodetzaileak, funtsean, datu gordinak nola konprimitzen ikasten du berreraikuntza-errorea minimizatzen duen moduan.
Autokodetzaile batek zer egiten duen dakigunez, saia gaitezen autokodetzaile "aldakuntza" batekin zer esan nahi dugun ulertzen. Autokodetzaile tipikoekin alderatuta, autokodetzaile barietateek ezkutuko espazioari aurretiazko bat gehitzen diote.
Matematikan murgildu gabe, aurrekari probabilistiko bat gehitzeak ezkutuko banaketa estu trinkotuta mantentzen du. VAE baten eta VQ-VAE baten arteko desberdintasun nagusia azken honek errepresentazio latente diskretua erabiltzen duela da, etengabekoa baino.
VQ-VAE maila bakoitzak modu independentean kodetzen du sarrera. Beheko mailaren kodeketak kalitate goreneko berreraikuntza sortzen du. Goi-mailako kodeketak ezinbesteko musika-informazioa gordetzen du.
Transformadoreak erabiliz
Orain VQ-VAE-k kodetutako musika-kodeak ditugula, saiatu gaitezke musika sortu espazio diskretu konprimitu honetan.
Jukebox erabilerak transformadore autorregresiboak irteerako audioa sortzeko. Transformadoreak sekuentziatutako datuekin ondoen funtzionatzen duen neurona-sare mota bat dira. Token-sekuentzia bat emanda, transformatzaile-eredu bat hurrengo tokena iragartzen saiatuko da.
Jukebox-ek Sparse Transformers-en aldaera sinplifikatu bat erabiltzen du. Aurreko eredu guztiak entrenatzen direnean, transformadoreak konprimitutako kodeak sortzen ditu eta, ondoren, audio gordinean deskodetzen dira VQ-VAE deskodetzailea erabiliz.
Artista eta generoaren baldintzatzea Jukebox-en
Jukebox-en sorkuntza-eredua kontrolagarriagoa egiten da prestakuntza-pausoan baldintzazko seinale osagarriak emanez.
Lehenengo ereduak artistek eta genero etiketak ematen dituzte abesti bakoitzerako. Honek audio-iragarpenaren entropia murrizten du eta ereduari kalitate hobea lortzen uzten du. Etiketak ere eredua estilo jakin batean zuzentzeko aukera ematen digu.
Artista eta generoaz gain, denbora-seinaleak gehitzen dira entrenamendu garaian. Seinale horien artean, abestiaren iraupena, lagin jakin baten hasiera-ordua eta iragandako abestiaren zatia daude. Informazio gehigarri honek ereduari egitura orokorrean oinarritzen diren audio ereduak ulertzen laguntzen dio.
Adibidez, ereduak ikas dezake zuzeneko musikaren txaloak abesti baten amaieran gertatzen direla. Ereduak ere ikas dezake, adibidez, genero batzuek besteek baino atal instrumental luzeagoak dituztela.
Lyrics
Aurreko atalean aipatutako eredu baldintzatuak abesteko ahots anitzak sortzeko gai dira. Hala ere, ahots horiek inkoherenteak eta ezagutezinak izan ohi dira.
Lirikaren sorrerari dagokionez eredu generatiboa kontrolatzeko, ikertzaileek testuinguru gehiago ematen dute entrenamendu garaian. Ikertzaileek erabili zuten letraren datuak benetako audioaren denborarekin mapatzen laguntzeko Sleeter ahotsak ateratzeko eta NUS AutoLyrics Align letren hitz-mailako lerrokadurak lortzeko.
Jukebox ereduaren mugak
Jukebox-en muga nagusietako bat musika-egitura handiagoak ulertzea da. Esaterako, irteerako 20 segundoko klip labur batek ikusgarria izan dezake, baina entzuleek ohartuko dira koruak eta bertsoak errepikatzearen ohiko musika egitura ez dagoela azken irteeran.
Eredua ere motela da errendatzen. Gutxi gorabehera 9 ordu behar dira minutu bateko audioa guztiz errendatzeko. Horrek sor daitezkeen abesti kopurua mugatzen du eta eredua aplikazio interaktiboetan erabiltzea eragozten du.
Azkenik, ikertzaileek adierazi dute laginaren datu-multzoa batez ere ingelesez dagoela eta batez ere mendebaldeko musika-konbentzioak erakusten dituela. AI ikertzaileek etorkizuneko ikerketak bideratu ditzakete beste hizkuntza batzuetan eta mendebaldekoak ez diren musika estiloetan musika sortzera.
Ondorioa
Jukebox proiektuak ikaskuntza automatikoko ereduen gaitasuna gero eta handiagoa dela nabarmentzen du, audio gordina bezalako datu konplexuen ezkutuko irudikapen zehatzak sortzeko. Antzeko aurrerapenak gertatzen ari dira testuan, bezalako proiektuetan ikusten den bezala GPT-3, eta irudiak, OpenAI-en ikusten den bezala DALL-E2.
Espazio honetan egindako ikerketak ikusgarriak izan badira ere, oraindik ere jabetza intelektualaren eskubideen inguruko kezkak eta eredu horiek sormen-industrietan izan dezaketen eraginari buruzko kezkak daude. Ikertzaileek eta sortzaileek lankidetza estuan jarraitu behar dute eredu horiek hobetzen jarraitu ahal izateko.
Etorkizuneko musika-eredu sortzaileak laster musikarientzako tresna gisa edo proiektuetarako musika pertsonalizatua behar duten sortzaileentzako aplikazio gisa jardun ahal izango dute.
Utzi erantzun bat