Geturðu notað gervigreind til að búa til nýja plötu frá uppáhalds listamanninum þínum?
Nýlegar byltingar í vélanámi hafa sýnt að líkön eru nú fær um að skilja flókin gögn eins og texta og myndir. Jukebox frá OpenAI sannar að jafnvel tónlist er hægt að móta nákvæmlega af taugakerfi.
Tónlist er flókinn hlutur til fyrirmyndar. Þú verður að taka með í reikninginn bæði einfalda eiginleika eins og takt, hávaða og tónhæð og flóknari eiginleika eins og texta, hljóðfæri og tónlistaruppbyggingu.
Að nota háþróaða vél nám tækni, OpenAI hefur fundið leið til að breyta hráu hljóði í framsetningu sem aðrar gerðir geta notað.
Þessi grein mun útskýra hvað Jukebox getur gert, hvernig það virkar og núverandi takmarkanir tækninnar.
Hvað er Jukebox AI?
Glymskratti er tauganet líkan frá OpenAI sem getur búið til tónlist með söng. Fyrirsætan getur framleitt tónlist í ýmsum tegundum og listamannastílum.
Til dæmis getur Jukebox framleitt rokklag í stíl Elvis Presley eða hip hop lag í stíl Kanye West. Þú getur heimsótt þetta vefsíðu. til að kanna hversu áhrifarík líkanið er við að fanga hljóð uppáhalds tónlistarmanna þinna og tegunda.
Líkanið krefst tegundar, listamanns og texta sem inntak. Þetta inntak leiðbeinir fyrirmynd sem er þjálfuð á milljónum listamanna og textagögnum.
Hvernig virkar Jukebox?
Við skulum skoða hvernig Jukebox tekst að búa til nýtt hrátt hljóð úr líkani sem er þjálfað í milljónum laga.
Kóðunarferli
Þó að sumar tónlistarkynslóðir noti MIDI þjálfunargögn, þá er Jukebox þjálfað á raunverulegu hráu hljóðskránni. Til að þjappa hljóðinu í stakt rými notar Jukebox sjálfvirka kóðaraaðferð sem kallast VQ-VAE.
VQ-VAE stendur fyrir Vector Quantized Variational Autoencoder, sem gæti hljómað svolítið flókið, svo við skulum brjóta það niður.
Fyrst skulum við reyna að skilja hvað við viljum gera hér. Í samanburði við texta eða nótnablöð er hrá hljóðskrá miklu flóknari. Ef við viljum að fyrirmyndin okkar „læri“ af lögum verðum við að breyta því í þjappaðari og einfaldari framsetningu. Í vél nám, við köllum þetta undirliggjandi framsetningu a duldt rými.
An sjálfskóðun er námstækni án eftirlits sem notar a tauga net að finna ólínulega dulda framsetningu fyrir tiltekna gagnadreifingu. Sjálfkóðari samanstendur af tveimur hlutum: kóðara og afkóðara.
The umrita í dulmál reynir að finna dulda rýmið úr mengi hrágagna á meðan leyniletri notar dulda framsetninguna til að reyna að endurbyggja hana aftur í upprunalegt snið. Sjálfkóðarinn lærir í rauninni hvernig á að þjappa hráum gögnum á þann hátt að lágmarka endurbyggingarvillur.
Nú þegar við vitum hvað sjálfkóðari gerir, skulum við reyna að skilja hvað við meinum með „afbrigði“ sjálfkóðara. Í samanburði við dæmigerða sjálfkóðara, bæta breytileg sjálfkóðarar við á undan dulda rýminu.
Án þess að kafa ofan í stærðfræðina heldur því að bæta við líkindaforgangi duldri dreifingu náið saman. Helsti munurinn á VAE og VQ-VAE er að sá síðarnefndi notar staka dulda framsetningu frekar en samfellda.
Hvert VQ-VAE stig kóðar sjálfstætt inntakið. Kóðun á neðsta stigi framleiðir endurgerð í hæsta gæðaflokki. Kóðun á efsta stigi geymir nauðsynlegar tónlistarupplýsingar.
Að nota Transformers
Nú þegar við höfum tónlistarkóðana kóðaða af VQ-VAE, getum við reynt að búa til tónlist í þessu þjappaða staka rými.
Jukebox notar sjálfvirkir spennir til að búa til úttakshljóðið. Transformers eru tegund taugakerfis sem virkar best með raðgreindum gögnum. Miðað við röð tákna mun spennilíkan reyna að spá fyrir um næsta tákn.
Jukebox notar einfaldað afbrigði af Sparse Transformers. Þegar allar fyrri gerðir hafa verið þjálfaðar myndar spennirinn þjappaða kóða sem síðan eru afkóðaðir aftur í hrátt hljóð með því að nota VQ-VAE afkóðarann.
Lista- og tegundaraðstæður í glymskratti
Generative líkan Jukebox er gert viðráðanlegra með því að veita viðbótar skilyrt merki meðan á þjálfunarskrefinu stendur.
Fyrstu módelin eru veitt af listamönnum og tegundarmerkjum fyrir hvert lag. Þetta dregur úr óreiðu í hljóðspánni og gerir líkaninu kleift að ná betri gæðum. Merkin gera okkur einnig kleift að stýra líkaninu í ákveðnum stíl.
Fyrir utan listamanninn og tegundina er tímamerkjum bætt við á þjálfunartíma. Þessi merki innihalda lengd lagsins, upphafstíma tiltekins sýnishorns og það brot af laginu sem er liðið. Þessar viðbótarupplýsingar hjálpa líkaninu að skilja hljóðmynstur sem treysta á heildarskipulagið.
Til dæmis gæti líkanið lært að klappið fyrir lifandi tónlist gerist í lok lags. Líkanið getur einnig lært, til dæmis, að sumar tegundir hafa lengri hljóðfærakafla en aðrar.
Lyrics
Skilyrtu líkönin sem nefnd eru í fyrri hlutanum eru fær um að búa til margs konar söngraddir. Hins vegar hafa þessar raddir tilhneigingu til að vera ósamhengislausar og óþekkjanlegar.
Til að stjórna kynslóðarlíkaninu þegar kemur að textagerð, veita rannsakendur meira samhengi á þjálfunartíma. Til að hjálpa til við að kortleggja textagögn við tímasetninguna á raunverulegu hljóðinu notuðu vísindamennirnir Spleeter að draga fram söng og NUS AutoLyricsAlign til að fá uppröðun texta á orðstigi.
Takmarkanir Jukebox Model
Ein helsta takmörkun Jukebox er skilningur þess á stærri tónlistarbyggingum. Til dæmis gæti stutt 20 sekúndna bút af útlaginu hljómað áhrifamikið, en hlustendur munu taka eftir því að dæmigerð tónlistaruppbygging endurtekinna kóra og versa er fjarverandi í lokaútgáfunni.
Líkanið er líka hægt í flutningi. Það tekur um það bil 9 klukkustundir að skila að fullu eina mínútu af hljóði. Þetta takmarkar fjölda laga sem hægt er að búa til og kemur í veg fyrir að líkanið sé notað í gagnvirkum forritum.
Að lokum hafa vísindamenn tekið fram að sýnishornið er fyrst og fremst á ensku og sýnir fyrst og fremst vestrænar tónlistarvenjur. Vísindamenn gervigreindar geta einbeitt framtíðarrannsóknum að því að búa til tónlist á öðrum tungumálum og ekki-vestrænum tónlistarstílum.
Niðurstaða
Jukebox verkefnið leggur áherslu á vaxandi getu vélanámslíkana til að búa til nákvæma dulda framsetningu á flóknum gögnum eins og hráu hljóði. Svipaðar byltingar eiga sér stað í textanum, eins og sést í verkefnum eins og GPT-3, og myndir, eins og sést í OpenAI's DALL-E2.
Þó að rannsóknirnar á þessu sviði hafi verið áhrifamiklar, eru enn áhyggjur af hugverkarétti og áhrifunum sem þessi líkön geta haft á skapandi greinar í heild. Rannsakendur og skapandi aðilar ættu að halda áfram að vinna náið saman til að tryggja að þessi líkön geti haldið áfram að bæta sig.
Framtíðarmyndandi tónlistarlíkön gætu brátt virkað sem tæki fyrir tónlistarmenn eða sem forrit fyrir skapandi aðila sem þurfa sérsniðna tónlist fyrir verkefni.
Skildu eftir skilaboð