Jukebox AI - Cynhyrchu Cerddoriaeth Gan Ddefnyddio Rhwydweithiau Niwral

Tabl Cynnwys[Cuddio][Dangos]

Beth yw Jukebox AI?
Sut mae Jukebox yn gweithio?+-
Cyfyngiadau Model Jiwcbocs
Casgliad

Allwch chi ddefnyddio AI i greu cofnod newydd gan eich hoff artist?

Mae datblygiadau diweddar mewn dysgu peirianyddol wedi dangos bod modelau bellach yn gallu deall data cymhleth fel testun a delweddau. Mae Jukebox OpenAI yn profi y gall hyd yn oed gerddoriaeth gael ei modelu'n fanwl gywir gan rwydwaith niwral.

Mae cerddoriaeth yn wrthrych cymhleth i fodel. Mae'n rhaid i chi ystyried nodweddion syml fel tempo, cryfder, traw a nodweddion mwy cymhleth fel geiriau, offerynnau, a strwythur cerddorol.

Defnyddio uwch dysgu peiriant technegau, mae OpenAI wedi dod o hyd i ffordd i drosi sain amrwd yn gynrychiolaeth y gall modelau eraill ei ddefnyddio.

Bydd yr erthygl hon yn esbonio'r hyn y gall Jukebox ei wneud, sut mae'n gweithio, a chyfyngiadau presennol y dechnoleg.

Beth yw Jukebox AI?

Jiwcbocs yn fodel rhwyd niwral gan OpenAI sy'n gallu cynhyrchu cerddoriaeth gyda chanu. Gall y model gynhyrchu cerddoriaeth mewn amrywiaeth o genres ac arddulliau artistiaid.

Mae jiwcbocs AI yn cynhyrchu caneuon gan artistiaid adnabyddus

Er enghraifft, gall Jukebox gynhyrchu cân roc yn arddull Elvis Presley neu alaw hip hop yn arddull Kanye West. Gallwch ymweld â hwn wefan i archwilio pa mor effeithiol yw'r model o ran dal sain eich hoff artistiaid a genres cerddorol.

Mae'r model yn gofyn am genre, artist, a geiriau fel mewnbwn. Mae'r mewnbwn hwn yn arwain model sydd wedi'i hyfforddi ar filiynau o artistiaid a data telynegol.

Sut mae Jukebox yn gweithio?

Gadewch i ni edrych ar sut mae Jukebox yn llwyddo i gynhyrchu sain amrwd newydd o fodel sydd wedi'i hyfforddi ar filiynau o ganeuon.

Proses Amgodio

Er bod rhai modelau cynhyrchu cerddoriaeth yn defnyddio data hyfforddi MIDI, mae Jukebox wedi'i hyfforddi ar y ffeil sain amrwd wirioneddol. I gywasgu'r sain i mewn i ofod arwahanol, mae Jukebox yn defnyddio dull auto-encoder a elwir yn VQ-VAE.

VQ-VAE yn sefyll am Vector Quantized Variational Autoencoder, a allai swnio braidd yn gymhleth, felly gadewch i ni ei dorri i lawr.

Yn gyntaf, gadewch i ni geisio deall yr hyn yr ydym am ei wneud yma. O'i gymharu â geiriau neu gerddoriaeth ddalen, mae ffeil sain amrwd yn llawer mwy cymhleth. Os ydym am i’n model “ddysgu” o ganeuon, bydd yn rhaid inni ei drawsnewid yn gynrychiolaeth fwy cywasgedig a symlach. Yn dysgu peiriant, rydym yn galw hyn yn gynrychiolaeth sylfaenol a gofod cudd.

Mae gofod cudd yn fersiwn cywasgedig o fewnbwn sampl

An autoencode yn dechneg ddysgu heb oruchwyliaeth sy'n defnyddio a rhwydwaith nefol i ddod o hyd i gynrychioliadau cudd aflinol ar gyfer dosbarthiad data penodol. Mae'r awto-godiwr yn cynnwys dwy ran: amgodiwr a datgodiwr.

Mae adroddiadau encoder yn ceisio dod o hyd i'r gofod cudd o set o ddata crai tra bod y decoder yn defnyddio'r cynrychioliad cudd i geisio ei ail-greu yn ôl i'w fformat gwreiddiol. Mae'r awto-godiwr yn ei hanfod yn dysgu sut i gywasgu'r data crai mewn ffordd sy'n lleihau gwallau ail-greu.

Nawr ein bod ni'n gwybod beth mae awto-godiwr yn ei wneud, gadewch i ni geisio deall beth rydyn ni'n ei olygu wrth awto-godiwr “amrywiol”. O'u cymharu ag awto-godyddion nodweddiadol, mae awto-godyddion amrywiadol yn ychwanegu cyn i'r gofod cudd.

Heb blymio i mewn i'r fathemateg, mae ychwanegu blaen tebygol yn cadw'r dosraniad cudd wedi'i gywasgu'n agos. Y prif wahaniaeth rhwng VAE a VQ-VAE yw bod yr olaf yn defnyddio cynrychioliad cudd arwahanol yn hytrach nag un di-dor. diagram o bensaernïaeth jiwcbocs AI ar gyfer amgodio a datgodio

Mae pob lefel VQ-VAE yn amgodio'r mewnbwn yn annibynnol. Mae'r amgodio lefel isaf yn cynhyrchu'r adluniad o'r ansawdd uchaf. Mae'r amgodio lefel uchaf yn cadw gwybodaeth gerddorol hanfodol.

Defnyddio Trawsnewidyddion

Mae jiwcbocs AI yn defnyddio trawsnewidyddion i gynhyrchu'r clip sain nesaf yn y trac

Nawr bod gennym y codau cerddoriaeth wedi'u hamgodio gan VQ-VAE, gallwn geisio cynhyrchu cerddoriaeth yn y gofod arwahanol cywasgedig hwn.

Defnyddiau jiwcbocs trawsnewidyddion autoregressive i greu'r allbwn sain. Mae trawsnewidyddion yn fath o rwydwaith niwral sy'n gweithio orau gyda data mewn dilyniant. O ystyried dilyniant o docynnau, bydd model trawsnewidydd yn ceisio rhagweld y tocyn nesaf.

Mae Jukebox yn defnyddio amrywiad wedi'i symleiddio o Transformers Prin. Unwaith y bydd yr holl fodelau blaenorol wedi'u hyfforddi, mae'r trawsnewidydd yn cynhyrchu codau cywasgedig sydd wedyn yn cael eu dadgodio yn ôl i sain amrwd gan ddefnyddio'r datgodydd VQ-VAE.

Cyflyru Artist a Genre mewn Jukebox

Mae model AI jiwcbocs cychwynnol yn ceisio deall sut mae cân yn swnio fel genre neu artist penodol

Gwneir model cynhyrchiol Jukebox yn fwy rheoladwy trwy ddarparu signalau amodol ychwanegol yn ystod y cam hyfforddi.

Darperir y modelau cyntaf gan artistiaid a labeli genre ar gyfer pob cân. Mae hyn yn lleihau entropi'r rhagfynegiad sain ac yn caniatáu i'r model gyflawni ansawdd gwell. Mae'r labeli hefyd yn ein galluogi i lywio'r model mewn arddull arbennig.

Heblaw am yr artist a'r genre, ychwanegir signalau amseru yn ystod amser hyfforddi. Mae'r signalau hyn yn cynnwys hyd y gân, amser cychwyn sampl penodol, a'r ffracsiwn o'r gân sydd wedi mynd heibio. Mae'r wybodaeth ychwanegol hon yn helpu'r model i ddeall patrymau sain sy'n dibynnu ar y strwythur cyffredinol.

Er enghraifft, efallai y bydd y model yn dysgu bod y gymeradwyaeth ar gyfer cerddoriaeth fyw yn digwydd ar ddiwedd cân. Gall y model hefyd ddysgu, er enghraifft, bod gan rai genres adrannau offerynnol hirach nag eraill.

Lyrics

Mae'r modelau cyflyru a grybwyllwyd yn yr adran flaenorol yn gallu cynhyrchu amrywiaeth o leisiau canu. Fodd bynnag, mae'r lleisiau hyn yn tueddu i fod yn ddigyswllt ac yn anadnabyddadwy.

Er mwyn rheoli'r model cynhyrchiol o ran cynhyrchu telynegion, mae'r ymchwilwyr yn darparu mwy o gyd-destun ar amser hyfforddi. Er mwyn helpu i fapio data telynegol i'r amseriad ar y sain wirioneddol, defnyddiodd yr ymchwilwyr Spleeter i dynnu lleisiau a Alinio AutoLyrics UCM i gael aliniadau lefel geiriau o'r geiriau.

Cyfyngiadau Model Jiwcbocs

Un o brif gyfyngiadau Jukebox yw ei ddealltwriaeth o strwythurau cerddorol mwy. Er enghraifft, efallai y bydd clip 20 eiliad byr o'r allbwn yn swnio'n drawiadol, ond bydd gwrandawyr yn sylwi nad yw strwythur cerddorol nodweddiadol cytganau a phenillion yn ailadrodd yn yr allbwn terfynol.

Mae'r model hefyd yn araf i'w rendro. Mae'n cymryd tua 9 awr i wneud un munud o sain yn llawn. Mae hyn yn cyfyngu ar nifer y caneuon y gellir eu cynhyrchu ac yn atal y model rhag cael ei ddefnyddio mewn cymwysiadau rhyngweithiol.

Yn olaf, mae'r ymchwilwyr wedi nodi bod y set ddata sampl yn Saesneg yn bennaf ac yn arddangos confensiynau cerddoriaeth y Gorllewin yn bennaf. Gall ymchwilwyr AI ganolbwyntio ymchwil yn y dyfodol ar gynhyrchu cerddoriaeth mewn ieithoedd eraill ac arddulliau cerddoriaeth y tu allan i'r Gorllewin.

Casgliad

Mae prosiect Jukebox yn amlygu gallu cynyddol modelau dysgu peirianyddol i greu cynrychioliadau cudd cywir o ddata cymhleth fel sain amrwd. Mae datblygiadau tebyg yn digwydd yn y testun, fel y gwelir mewn prosiectau fel GPT-3, a delweddau, fel y gwelir yn OpenAI's DALL-E2.

Er bod yr ymchwil yn y gofod hwn wedi bod yn drawiadol, mae pryderon o hyd ynghylch hawliau eiddo deallusol a’r effaith y gallai’r modelau hyn ei chael ar y diwydiannau creadigol yn gyffredinol. Dylai ymchwilwyr a phobl greadigol barhau i gydweithio'n agos i sicrhau y gall y modelau hyn barhau i wella.

Mae’n bosibl y bydd modelau cerddoriaeth gynhyrchiol yn y dyfodol yn gallu bod yn arf i gerddorion yn fuan neu fel cymhwysiad i bobl greadigol sydd angen cerddoriaeth wedi’i theilwra ar gyfer prosiectau.

Jukebox AI – Cynhyrchu Cerddoriaeth gan Ddefnyddio Rhwydweithiau Niwral

Beth yw Jukebox AI?