Allwch chi ddefnyddio AI i greu cofnod newydd gan eich hoff artist?
Mae datblygiadau diweddar mewn dysgu peirianyddol wedi dangos bod modelau bellach yn gallu deall data cymhleth fel testun a delweddau. Mae Jukebox OpenAI yn profi y gall hyd yn oed gerddoriaeth gael ei modelu'n fanwl gywir gan rwydwaith niwral.
Mae cerddoriaeth yn wrthrych cymhleth i fodel. Mae'n rhaid i chi ystyried nodweddion syml fel tempo, cryfder, traw a nodweddion mwy cymhleth fel geiriau, offerynnau, a strwythur cerddorol.
Defnyddio uwch dysgu peiriant technegau, mae OpenAI wedi dod o hyd i ffordd i drosi sain amrwd yn gynrychiolaeth y gall modelau eraill ei ddefnyddio.
Bydd yr erthygl hon yn esbonio'r hyn y gall Jukebox ei wneud, sut mae'n gweithio, a chyfyngiadau presennol y dechnoleg.
Beth yw Jukebox AI?
Jiwcbocs yn fodel rhwyd niwral gan OpenAI sy'n gallu cynhyrchu cerddoriaeth gyda chanu. Gall y model gynhyrchu cerddoriaeth mewn amrywiaeth o genres ac arddulliau artistiaid.
Er enghraifft, gall Jukebox gynhyrchu cân roc yn arddull Elvis Presley neu alaw hip hop yn arddull Kanye West. Gallwch ymweld â hwn wefan i archwilio pa mor effeithiol yw'r model o ran dal sain eich hoff artistiaid a genres cerddorol.
Mae'r model yn gofyn am genre, artist, a geiriau fel mewnbwn. Mae'r mewnbwn hwn yn arwain model sydd wedi'i hyfforddi ar filiynau o artistiaid a data telynegol.
Sut mae Jukebox yn gweithio?
Gadewch i ni edrych ar sut mae Jukebox yn llwyddo i gynhyrchu sain amrwd newydd o fodel sydd wedi'i hyfforddi ar filiynau o ganeuon.
Proses Amgodio
Er bod rhai modelau cynhyrchu cerddoriaeth yn defnyddio data hyfforddi MIDI, mae Jukebox wedi'i hyfforddi ar y ffeil sain amrwd wirioneddol. I gywasgu'r sain i mewn i ofod arwahanol, mae Jukebox yn defnyddio dull auto-encoder a elwir yn VQ-VAE.
VQ-VAE yn sefyll am Vector Quantized Variational Autoencoder, a allai swnio braidd yn gymhleth, felly gadewch i ni ei dorri i lawr.
Yn gyntaf, gadewch i ni geisio deall yr hyn yr ydym am ei wneud yma. O'i gymharu â geiriau neu gerddoriaeth ddalen, mae ffeil sain amrwd yn llawer mwy cymhleth. Os ydym am i’n model “ddysgu” o ganeuon, bydd yn rhaid inni ei drawsnewid yn gynrychiolaeth fwy cywasgedig a symlach. Yn dysgu peiriant, rydym yn galw hyn yn gynrychiolaeth sylfaenol a gofod cudd.
An autoencode yn dechneg ddysgu heb oruchwyliaeth sy'n defnyddio a rhwydwaith nefol i ddod o hyd i gynrychioliadau cudd aflinol ar gyfer dosbarthiad data penodol. Mae'r awto-godiwr yn cynnwys dwy ran: amgodiwr a datgodiwr.
Mae adroddiadau encoder yn ceisio dod o hyd i'r gofod cudd o set o ddata crai tra bod y decoder yn defnyddio'r cynrychioliad cudd i geisio ei ail-greu yn ôl i'w fformat gwreiddiol. Mae'r awto-godiwr yn ei hanfod yn dysgu sut i gywasgu'r data crai mewn ffordd sy'n lleihau gwallau ail-greu.
Nawr ein bod ni'n gwybod beth mae awto-godiwr yn ei wneud, gadewch i ni geisio deall beth rydyn ni'n ei olygu wrth awto-godiwr “amrywiol”. O'u cymharu ag awto-godyddion nodweddiadol, mae awto-godyddion amrywiadol yn ychwanegu cyn i'r gofod cudd.
Heb blymio i mewn i'r fathemateg, mae ychwanegu blaen tebygol yn cadw'r dosraniad cudd wedi'i gywasgu'n agos. Y prif wahaniaeth rhwng VAE a VQ-VAE yw bod yr olaf yn defnyddio cynrychioliad cudd arwahanol yn hytrach nag un di-dor.
Mae pob lefel VQ-VAE yn amgodio'r mewnbwn yn annibynnol. Mae'r amgodio lefel isaf yn cynhyrchu'r adluniad o'r ansawdd uchaf. Mae'r amgodio lefel uchaf yn cadw gwybodaeth gerddorol hanfodol.
Defnyddio Trawsnewidyddion
Nawr bod gennym y codau cerddoriaeth wedi'u hamgodio gan VQ-VAE, gallwn geisio cynhyrchu cerddoriaeth yn y gofod arwahanol cywasgedig hwn.
Defnyddiau jiwcbocs trawsnewidyddion autoregressive i greu'r allbwn sain. Mae trawsnewidyddion yn fath o rwydwaith niwral sy'n gweithio orau gyda data mewn dilyniant. O ystyried dilyniant o docynnau, bydd model trawsnewidydd yn ceisio rhagweld y tocyn nesaf.
Mae Jukebox yn defnyddio amrywiad wedi'i symleiddio o Transformers Prin. Unwaith y bydd yr holl fodelau blaenorol wedi'u hyfforddi, mae'r trawsnewidydd yn cynhyrchu codau cywasgedig sydd wedyn yn cael eu dadgodio yn ôl i sain amrwd gan ddefnyddio'r datgodydd VQ-VAE.
Cyflyru Artist a Genre mewn Jukebox
Gwneir model cynhyrchiol Jukebox yn fwy rheoladwy trwy ddarparu signalau amodol ychwanegol yn ystod y cam hyfforddi.
Darperir y modelau cyntaf gan artistiaid a labeli genre ar gyfer pob cân. Mae hyn yn lleihau entropi'r rhagfynegiad sain ac yn caniatáu i'r model gyflawni ansawdd gwell. Mae'r labeli hefyd yn ein galluogi i lywio'r model mewn arddull arbennig.
Heblaw am yr artist a'r genre, ychwanegir signalau amseru yn ystod amser hyfforddi. Mae'r signalau hyn yn cynnwys hyd y gân, amser cychwyn sampl penodol, a'r ffracsiwn o'r gân sydd wedi mynd heibio. Mae'r wybodaeth ychwanegol hon yn helpu'r model i ddeall patrymau sain sy'n dibynnu ar y strwythur cyffredinol.
Er enghraifft, efallai y bydd y model yn dysgu bod y gymeradwyaeth ar gyfer cerddoriaeth fyw yn digwydd ar ddiwedd cân. Gall y model hefyd ddysgu, er enghraifft, bod gan rai genres adrannau offerynnol hirach nag eraill.
Lyrics
Mae'r modelau cyflyru a grybwyllwyd yn yr adran flaenorol yn gallu cynhyrchu amrywiaeth o leisiau canu. Fodd bynnag, mae'r lleisiau hyn yn tueddu i fod yn ddigyswllt ac yn anadnabyddadwy.
Er mwyn rheoli'r model cynhyrchiol o ran cynhyrchu telynegion, mae'r ymchwilwyr yn darparu mwy o gyd-destun ar amser hyfforddi. Er mwyn helpu i fapio data telynegol i'r amseriad ar y sain wirioneddol, defnyddiodd yr ymchwilwyr Spleeter i dynnu lleisiau a Alinio AutoLyrics UCM i gael aliniadau lefel geiriau o'r geiriau.
Cyfyngiadau Model Jiwcbocs
Un o brif gyfyngiadau Jukebox yw ei ddealltwriaeth o strwythurau cerddorol mwy. Er enghraifft, efallai y bydd clip 20 eiliad byr o'r allbwn yn swnio'n drawiadol, ond bydd gwrandawyr yn sylwi nad yw strwythur cerddorol nodweddiadol cytganau a phenillion yn ailadrodd yn yr allbwn terfynol.
Mae'r model hefyd yn araf i'w rendro. Mae'n cymryd tua 9 awr i wneud un munud o sain yn llawn. Mae hyn yn cyfyngu ar nifer y caneuon y gellir eu cynhyrchu ac yn atal y model rhag cael ei ddefnyddio mewn cymwysiadau rhyngweithiol.
Yn olaf, mae'r ymchwilwyr wedi nodi bod y set ddata sampl yn Saesneg yn bennaf ac yn arddangos confensiynau cerddoriaeth y Gorllewin yn bennaf. Gall ymchwilwyr AI ganolbwyntio ymchwil yn y dyfodol ar gynhyrchu cerddoriaeth mewn ieithoedd eraill ac arddulliau cerddoriaeth y tu allan i'r Gorllewin.
Casgliad
Mae prosiect Jukebox yn amlygu gallu cynyddol modelau dysgu peirianyddol i greu cynrychioliadau cudd cywir o ddata cymhleth fel sain amrwd. Mae datblygiadau tebyg yn digwydd yn y testun, fel y gwelir mewn prosiectau fel GPT-3, a delweddau, fel y gwelir yn OpenAI's DALL-E2.
Er bod yr ymchwil yn y gofod hwn wedi bod yn drawiadol, mae pryderon o hyd ynghylch hawliau eiddo deallusol a’r effaith y gallai’r modelau hyn ei chael ar y diwydiannau creadigol yn gyffredinol. Dylai ymchwilwyr a phobl greadigol barhau i gydweithio'n agos i sicrhau y gall y modelau hyn barhau i wella.
Mae’n bosibl y bydd modelau cerddoriaeth gynhyrchiol yn y dyfodol yn gallu bod yn arf i gerddorion yn fuan neu fel cymhwysiad i bobl greadigol sydd angen cerddoriaeth wedi’i theilwra ar gyfer prosiectau.
Gadael ymateb