Voitko käyttää tekoälyä luodaksesi uuden levyn suosikkiartististasi?
Viimeaikaiset läpimurrot koneoppimisessa ovat osoittaneet, että mallit pystyvät nyt ymmärtämään monimutkaista dataa, kuten tekstiä ja kuvia. OpenAI:n Jukebox todistaa, että jopa musiikkia voidaan mallintaa tarkasti hermoverkon avulla.
Musiikki on monimutkainen mallintava esine. Sinun on otettava huomioon sekä yksinkertaiset ominaisuudet, kuten tempo, äänenvoimakkuus ja sävelkorkeus, että monimutkaisemmat ominaisuudet, kuten sanoitukset, instrumentit ja musiikillinen rakenne.
Lisäasetusten käyttö koneoppiminen OpenAI on löytänyt tavan muuntaa raakaääntä esitykseksi, jota muut mallit voivat käyttää.
Tämä artikkeli selittää, mitä Jukebox voi tehdä, miten se toimii ja tekniikan nykyiset rajoitukset.
Mikä on Jukebox AI?
Levyautomaatti on OpenAI:n hermoverkkomalli, joka voi tuottaa musiikkia laulamalla. Malli voi tuottaa musiikkia useissa eri genreissä ja artistien tyyleissä.
Esimerkiksi Jukebox voi tuottaa rock-kappaleen Elvis Presleyn tyyliin tai hip hop -kappaleen Kanye Westin tyyliin. Voit vierailla tässä verkkosivusto tutkiaksesi kuinka tehokkaasti malli vangitsee suosikkimusiikkiartistesi ja -genresi äänen.
Malli vaatii syötteenä genren, artistin ja sanoitukset. Tämä syöte ohjaa mallia, joka on koulutettu miljoonien artistien ja sanoitustietojen perusteella.
Kuinka Jukebox toimii?
Katsotaanpa, kuinka Jukebox onnistuu luomaan uutta raakaääntä mallista, joka on koulutettu miljooniin kappaleisiin.
Koodausprosessi
Vaikka jotkin musiikin sukupolven mallit käyttävät MIDI-harjoitusdataa, Jukebox on koulutettu todelliseen raakaäänitiedostoon. Jukebox käyttää äänen pakkaamiseen erilliseen tilaan VQ-VAE-nimistä automaattista enkooderia.
VQ-VAE tarkoittaa Vector Quantized Variational Autoencoderia, joka saattaa kuulostaa hieman monimutkaiselta, joten puretaan se.
Yritetään ensin ymmärtää, mitä haluamme tehdä täällä. Verrattuna sanoituksiin tai nuotteihin raakaäänitiedosto on huomattavasti monimutkaisempi. Jos haluamme mallimme "oppivan" kappaleista, meidän on muutettava se tiivistetymmäksi ja yksinkertaistetuksi esitykseksi. Sisään koneoppiminen, kutsumme tätä taustalla olevaa esitystä a piilevä tila.
An automaattinen kooderi on ohjaamaton oppimistekniikka, joka käyttää a neuroverkkomallien löytääksesi epälineaarisia piileviä esityksiä tietylle datajakaumille. Autoenkooderi koostuu kahdesta osasta: enkooderista ja dekooderista.
- kooderi yrittää löytää piilevän tilan raakadatajoukosta, kun dekooderi käyttää piilevää esitystä yrittääkseen rekonstruoida sen takaisin alkuperäiseen muotoonsa. Autoencoder oppii olennaisesti pakkaamaan raakadataa tavalla, joka minimoi rekonstruktiovirheen.
Nyt kun tiedämme, mitä automaattinen kooderi tekee, yritetään ymmärtää, mitä tarkoitamme "muunnelmalla" autoenkooderilla. Verrattuna tyypillisiin autoenkooderiin variaatioautokooderit lisäävät piilevää tilaa ennen.
Sukeltamatta matematiikkaan todennäköisyyspriorien lisääminen pitää piilevän jakauman tiiviisti tiivistettynä. Suurin ero VAE:n ja VQ-VAE:n välillä on, että jälkimmäinen käyttää diskreettiä piilevää esitystä jatkuvan sijasta.
Jokainen VQ-VAE-taso koodaa tulon itsenäisesti. Alimman tason koodaus tuottaa laadukkaimman rekonstruoinnin. Huipputason koodaus säilyttää olennaiset musiikilliset tiedot.
Muuntajien käyttäminen
Nyt kun meillä on VQ-VAE:n koodaamat musiikkikoodit, voimme yrittää tuottaa musiikkia tässä tiivistetyssä erillisessä tilassa.
Jukeboksi käyttää autoregressiiviset muuntajat luodaksesi ulostuloäänen. Muuntajat ovat eräänlainen hermoverkko, joka toimii parhaiten sekvensoidun datan kanssa. Kun otetaan huomioon merkkijono, muuntajamalli yrittää ennustaa seuraavan merkin.
Jukebox käyttää yksinkertaistettua versiota Sparse Transformersista. Kun kaikki aiemmat mallit on koulutettu, muuntaja luo pakattuja koodeja, jotka sitten puretaan takaisin raakaääneksi VQ-VAE-dekooderilla.
Artistin ja genren säätö Jukeboxissa
Jukeboxin generatiivisesta mallista on tehty helpommin hallittava antamalla lisäehdollisia signaaleja harjoitusvaiheen aikana.
Ensimmäiset mallit ovat kunkin kappaleen esittäjät ja genre-merkit. Tämä vähentää äänen ennusteen entropiaa ja mahdollistaa mallin paremman laadun. Tarrojen avulla voimme myös ohjata mallia tiettyyn tyyliin.
Artistin ja genren lisäksi ajoitussignaalit lisätään harjoitusaikaan. Nämä signaalit sisältävät kappaleen pituuden, tietyn näytteen alkamisajan ja kappaleen kuluneen osan. Nämä lisätiedot auttavat mallia ymmärtämään äänikuvioita, jotka perustuvat yleiseen rakenteeseen.
Malli voi esimerkiksi oppia, että aplodit elävälle musiikille tapahtuu kappaleen lopussa. Malli voi myös oppia esimerkiksi, että joillakin genreillä on pidempiä instrumentaaliosia kuin toisissa.
sanat
Edellisessä osassa mainitut ehdolliset mallit pystyvät tuottamaan erilaisia lauluääniä. Nämä äänet ovat kuitenkin yleensä epäjohdonmukaisia ja tunnistamattomia.
Generatiivisen mallin hallitsemiseksi sanoitusten luomisen yhteydessä tutkijat tarjoavat enemmän kontekstia harjoitusaikana. Tutkijat käyttivät lyriikkatietojen kartoittamista todellisen äänen ajoitukseen Spleeter poimia laulua ja NUS AutoLyricsAlign saadaksesi sanoitusten sanatason tasaukset.
Jukebox-mallin rajoitukset
Yksi Jukeboxin tärkeimmistä rajoituksista on suurempien musiikillisten rakenteiden ymmärtäminen. Esimerkiksi lyhyt 20 sekunnin pätkä tuotosta voi kuulostaa vaikuttavalta, mutta kuuntelijat huomaavat, että tyypillinen musiikillinen rakenne, jossa kertosäkeet ja säkeet toistuvat, puuttuu lopputuloksesta.
Malli on myös hidas renderöidä. Yhden minuutin äänentoisto kestää noin 9 tuntia. Tämä rajoittaa syntyvien kappaleiden määrää ja estää mallin käytön interaktiivisissa sovelluksissa.
Lopuksi tutkijat ovat todenneet, että näyteaineisto on pääasiassa englanninkielinen ja näyttää ensisijaisesti länsimaisen musiikin käytäntöjä. Tekoälytutkijat voivat keskittää tulevaisuuden tutkimuksensa musiikin tuottamiseen muilla kielillä ja ei-länsimaisilla musiikkityyleillä.
Yhteenveto
Jukebox-projekti korostaa koneoppimismallien kasvavaa kykyä luoda tarkkoja piileviä esityksiä monimutkaisista tiedoista, kuten raakaäänestä. Samanlaisia läpimurtoja tapahtuu tekstissä, kuten näkyy projekteissa kuten GPT-3, ja kuvat, kuten OpenAI:ssa näkyy DALL-E2.
Vaikka tutkimus tällä alalla on ollut vaikuttavaa, on edelleen huolta immateriaalioikeuksista ja näiden mallien mahdollisista vaikutuksista luoviin aloihin kokonaisuudessaan. Tutkijoiden ja luovien tekijöiden tulisi jatkaa tiivistä yhteistyötä varmistaakseen, että nämä mallit voivat kehittyä edelleen.
Tulevat generatiiviset musiikkimallit voivat pian toimia työkaluna muusikoille tai sovelluksena luoville henkilöille, jotka tarvitsevat mukautettua musiikkia projekteihin.
Jätä vastaus