Jukebox AI – muusika genereerimine närvivõrkude abil

Sisukord[Peida][Näita]

Mis on Jukebox AI?
Kuidas Jukebox töötab?+-
Jukeboxi mudeli piirangud
Järeldus

Kas saate AI abil oma lemmikartistilt uue plaadi luua?

Hiljutised läbimurded masinõppes on näidanud, et mudelid on nüüd võimelised mõistma keerulisi andmeid, nagu tekst ja pildid. OpenAI Jukebox tõestab, et isegi muusikat saab täpselt modelleerida närvivõrgu abil.

Muusika on keeruline objekt, mida modelleerida. Arvesse tuleb võtta nii lihtsaid funktsioone, nagu tempo, valjus ja helikõrgus, kui ka keerukamaid funktsioone, nagu laulusõnad, instrumendid ja muusikaline struktuur.

Kasutades täiustatud masinõpe OpenAI on leidnud viisi toorheli teisendamiseks esituseks, mida teised mudelid saavad kasutada.

See artikkel selgitab, mida Jukebox suudab, kuidas see töötab ja tehnoloogia praeguseid piiranguid.

Mis on Jukebox AI?

Plaadiautomaat on OpenAI närvivõrgu mudel, mis suudab laulmisega muusikat genereerida. Mudel suudab toota muusikat erinevates žanrites ja kunstnike stiilides.

jukebox AI genereerib laule tuntud artistidelt

Näiteks võib Jukebox produtseerida Elvis Presley stiilis rokilaulu või Kanye Westi stiilis hiphopi. Saate seda külastada veebisait et uurida, kui tõhus on mudel teie lemmikmuusika artistide ja -žanrite helide jäädvustamisel.

Mudel nõuab sisendiks žanri, esitajat ja laulusõnu. See sisend juhib mudelit, mis on treenitud miljonite artistide ja laulusõnade põhjal.

Kuidas Jukebox töötab?

Vaatame, kuidas Jukeboxil õnnestub miljonite lugude peal treenitud mudelist uudset toorheli genereerida.

Kodeerimisprotsess

Kuigi mõned muusika genereerimise mudelid kasutavad MIDI-treeningandmeid, treenitakse Jukeboxi tegeliku toorhelifaili järgi. Heli diskreetsesse ruumi tihendamiseks kasutab Jukebox automaatset kodeerijat, mida tuntakse VQ-VAE nime all.

VQ-VAE tähistab Vector Quantized Variational Autoencoderit, mis võib tunduda pisut keeruline, nii et teeme selle lahti.

Kõigepealt proovime aru saada, mida me siin teha tahame. Laulusõnade või nootidega võrreldes on töötlemata helifail tunduvalt keerulisem. Kui tahame, et meie mudel "õppiks" lauludest, peame muutma selle kokkusurutud ja lihtsustatud esituseks. sisse masinõpe, nimetame seda aluseks olevat esitust a varjatud ruum.

latentne ruum on näidissisendi tihendatud versioon

An autoenkooder on järelevalveta õppetehnika, mis kasutab a Närvivõrgus et leida antud andmejaotuse jaoks mittelineaarseid varjatud esitusi. Autoenkooder koosneb kahest osast: kodeerijast ja dekoodrist.

. kodeerija püüab leida varjatud ruumi algandmete komplektist, samal ajal kui dekooder kasutab varjatud esitust, et proovida seda taastada algsesse vormingusse. Autoencoder õpib sisuliselt toorandmeid tihendama viisil, mis minimeerib rekonstrueerimisviga.

Nüüd, kui me teame, mida automaatkooder teeb, proovime mõista, mida me mõtleme "variatsioonilise" automaatse kodeerija all. Võrreldes tüüpiliste automaatkodeerijatega lisavad variatsioonilised automaatkodeerijad varjatud ruumile enne.

Ilma matemaatikasse sukeldumata hoiab tõenäosusliku priori lisamine varjatud jaotuse tihedalt tihendatuna. Peamine erinevus VAE ja VQ-VAE vahel on see, et viimane kasutab pigem diskreetset varjatud esitust kui pidevat. Jukeboxi AI arhitektuuri skeem kodeerimiseks ja dekodeerimiseks

Iga VQ-VAE tase kodeerib sisendi iseseisvalt. Alumise taseme kodeering loob kõrgeima kvaliteediga rekonstrueerimise. Tipptasemel kodeering säilitab olulise muusikalise teabe.

Transformerite kasutamine

jukebox AI kasutab trafosid loo järgmise heliklipi loomiseks

Nüüd, kui meil on VQ-VAE poolt kodeeritud muusikakoodid, võime proovida muusikat genereerida selles kokkusurutud diskreetses ruumis.

Jukebox kasutab autoregressiivsed trafod väljundheli loomiseks. Trafod on teatud tüüpi närvivõrk, mis töötab järjestatud andmetega kõige paremini. Arvestades märkide jada, proovib trafo mudel ennustada järgmist märki.

Jukebox kasutab Sparse Transformersi lihtsustatud varianti. Kui kõik varasemad mudelid on välja õpetatud, genereerib trafo kokkusurutud koodid, mis seejärel dekodeeritakse VQ-VAE dekooderi abil tagasi toorheliks.

Artisti ja žanri tingimine Jukeboxis

esialgne jukebox AI mudel püüab mõista, kuidas laul kõlab nagu konkreetne žanr või artist

Jukeboxi generatiivne mudel on muudetud paremini juhitavaks, pakkudes treeningetapis täiendavaid tingimuslikke signaale.

Esimesed mudelid pakuvad iga laulu jaoks esitajad ja žanrimärgised. See vähendab heliennustuse entroopiat ja võimaldab mudelil saavutada paremat kvaliteeti. Sildid võimaldavad meil ka mudelit kindlas stiilis juhtida.

Treeningu ajal lisatakse peale artisti ja žanri ka ajastussignaalid. Need signaalid hõlmavad loo pikkust, konkreetse sämpli algusaega ja möödunud loo osa. See lisateave aitab mudelil mõista helimustreid, mis põhinevad üldisel struktuuril.

Näiteks võib modell teada saada, et elava muusika aplaus kõlab laulu lõpus. Mudel võib ka näiteks õppida, et mõnel žanril on pikemad instrumentaallõigud kui teistel.

lüürika

Eelmises jaotises mainitud konditsioneeritud mudelid on võimelised genereerima erinevaid lauluhääli. Need hääled kipuvad aga olema ebajärjekindlad ja tundmatud.

Generatiivse mudeli juhtimiseks laulusõnade genereerimisel pakuvad teadlased koolituse ajal rohkem konteksti. Teadlased kasutasid lüüriliste andmete kaardistamiseks tegeliku heli ajastust Spleeter vokaali väljavõtmiseks ja NUS AutoLyricsAlign et saada laulusõnade sõnatasandil joondusi.

Jukeboxi mudeli piirangud

Jukeboxi üks peamisi piiranguid on suuremate muusikaliste struktuuride mõistmine. Näiteks lühike 20-sekundiline klipp väljundist võib kõlada muljetavaldavalt, kuid kuulajad märkavad, et refräänide ja värsside korduvate laulude tüüpiline muusikaline struktuur lõppväljundis puudub.

Mudeli renderdamine on samuti aeglane. Ühe minuti heli täielikuks renderdamiseks kulub umbes 9 tundi. See piirab loodavate lugude arvu ja takistab mudeli kasutamist interaktiivsetes rakendustes.

Lõpuks on teadlased märkinud, et näidisandmekogum on peamiselt inglise keeles ja kuvab peamiselt lääne muusika tavasid. Tehisintellekti teadlased saavad tulevased uuringud keskenduda muusika loomisele teistes keeltes ja mitte-lääne muusikastiilides.

Järeldus

Jukeboxi projekt tõstab esile masinõppemudelite kasvavat suutlikkust luua keerukate andmete (nt toorheli) täpseid varjatud esitusi. Sarnased läbimurded toimuvad tekstis, nagu on näha sellistes projektides nagu GPT-3, ja pilte, nagu on näha OpenAI-s DALL-E2.

Kuigi uuringud selles valdkonnas on olnud muljetavaldavad, on endiselt muret intellektuaalomandi õiguste ja nende mudelite mõju pärast loomemajandusele tervikuna. Teadlased ja loovisikud peaksid jätkama tihedat koostööd, et tagada nende mudelite edasine täiustamine.

Tulevased generatiivsed muusikamudelid võivad peagi toimida muusikute tööriistana või rakendusena loomingulistele inimestele, kes vajavad projektide jaoks kohandatud muusikat.

Jukebox AI – muusika loomine närvivõrkude abil

Mis on Jukebox AI?