Pots utilitzar l'IA per crear un nou disc del teu artista preferit?
Els avenços recents en l'aprenentatge automàtic han demostrat que els models ara són capaços d'entendre dades complexes com ara text i imatges. El Jukebox d'OpenAI demostra que fins i tot la música es pot modelar amb precisió mitjançant una xarxa neuronal.
La música és un objecte complex de modelar. Heu de tenir en compte tant característiques simples com ara el tempo, la sonoritat i el to i característiques més complexes com ara lletres, instruments i estructura musical.
Ús avançat màquina d'aprenentatge tècniques, OpenAI ha trobat una manera de convertir l'àudio en brut en una representació que altres models poden utilitzar.
Aquest article explicarà què pot fer Jukebox, com funciona i les limitacions actuals de la tecnologia.
Què és Jukebox AI?
Jukebox és un model de xarxa neuronal d'OpenAI que pot generar música amb el cant. El model pot produir música en diversos gèneres i estils d'artistes.
Per exemple, Jukebox pot produir una cançó de rock a l'estil d'Elvis Presley o una melodia de hip hop a l'estil de Kanye West. Podeu visitar això per explorar com d'eficaç és el model per capturar el so dels teus artistes i gèneres musicals preferits.
El model requereix un gènere, un artista i una lletra com a entrada. Aquesta entrada guia un model format amb milions d'artistes i dades de lletres.
Com funciona Jukebox?
Vegem com Jukebox aconsegueix generar àudio en brut a partir d'un model format en milions de cançons.
Procés de codificació
Tot i que alguns models de generació de música utilitzen dades d'entrenament MIDI, Jukebox s'entrena amb el fitxer d'àudio en brut real. Per comprimir l'àudio en un espai discret, Jukebox utilitza un enfocament de codificació automàtica conegut com VQ-VAE.
VQ-VAE significa Vector Quantized Variational Autoencoder, que pot semblar una mica complicat, així que anem a desglossar-lo.
Primer, intentem entendre què volem fer aquí. En comparació amb les lletres o les partitures, un fitxer d'àudio en brut és molt més complex. Si volem que el nostre model “aprèn” de les cançons, haurem de transformar-lo en una representació més comprimida i simplificada. En màquina d'aprenentatge, anomenem aquesta representació subjacent a espai latent.
An codificador automàtic és una tècnica d'aprenentatge no supervisat que utilitza a xarxa neural per trobar representacions latents no lineals per a una distribució de dades determinada. L'autocodificador consta de dues parts: un codificador i un descodificador.
El codificador intenta trobar l'espai latent a partir d'un conjunt de dades en brut mentre el descodificador utilitza la representació latent per intentar reconstruir-la de nou al seu format original. L'autoencoder bàsicament aprèn a comprimir les dades en brut de manera que es minimitzi l'error de reconstrucció.
Ara que sabem què fa un codificador automàtic, intentem entendre què entenem per autocodificador "variacional". En comparació amb els codificadors automàtics típics, els autoencodificadors variacionals afegeixen un abans a l'espai latent.
Sense capbussar-se en les matemàtiques, afegir un prior probabilístic manté la distribució latent molt compacta. La principal diferència entre un VAE i un VQ-VAE és que aquest últim utilitza una representació latent discreta en lloc d'una de contínua.
Cada nivell VQ-VAE codifica l'entrada de manera independent. La codificació de nivell inferior produeix la reconstrucció de més alta qualitat. La codificació de primer nivell conserva la informació musical essencial.
Ús de transformadors
Ara que tenim els codis de música codificats per VQ-VAE, podem provar-ho generar música en aquest espai discret comprimit.
Usos de jukebox transformadors autoregressius per crear l'àudio de sortida. Els transformadors són un tipus de xarxa neuronal que funciona millor amb dades seqüenciades. Donada una seqüència de fitxes, un model de transformador intentarà predir el següent testimoni.
Jukebox utilitza una variant simplificada de Sparse Transformers. Un cop s'entrenen tots els models anteriors, el transformador genera codis comprimits que després es descodifiquen en àudio en brut mitjançant el descodificador VQ-VAE.
Condicionament d'artista i gènere a Jukebox
El model generatiu de Jukebox es fa més controlable proporcionant senyals condicionals addicionals durant el pas d'entrenament.
Els primers models els proporcionen artistes i segells de gènere per a cada cançó. Això redueix l'entropia de la predicció d'àudio i permet que el model aconsegueixi una millor qualitat. Les etiquetes també ens permeten dirigir el model en un estil particular.
A més de l'artista i el gènere, s'afegeixen senyals de cronometratge durant el temps d'entrenament. Aquests senyals inclouen la durada de la cançó, l'hora d'inici d'una mostra concreta i la fracció de la cançó que ha transcorregut. Aquesta informació addicional ajuda el model a comprendre els patrons d'àudio que es basen en l'estructura general.
Per exemple, el model pot saber que els aplaudiments de la música en directe es produeixen al final d'una cançó. El model també pot aprendre, per exemple, que alguns gèneres tenen seccions instrumentals més llargues que d'altres.
les lletres
Els models condicionats esmentats a l'apartat anterior són capaços de generar una varietat de veus cantants. Tanmateix, aquestes veus solen ser incoherents i irrecognoscibles.
Per controlar el model generatiu quan es tracta de la generació de lletres, els investigadors proporcionen més context en el moment de la formació. Per ajudar a mapar les dades de la lletra amb el temps de l'àudio real, van utilitzar els investigadors Esplèter per extreure veus i NUS AutoLyricsAlign per obtenir alineaments a nivell de paraula de la lletra.
Limitacions del model Jukebox
Una de les principals limitacions de Jukebox és la seva comprensió d'estructures musicals més grans. Per exemple, un clip breu de 20 segons de la sortida pot semblar impressionant, però els oients notaran que l'estructura musical típica de la repetició de cors i versos està absent a la sortida final.
El model també és lent de renderitzar. Es triguen aproximadament 9 hores a renderitzar completament un minut d'àudio. Això limita el nombre de cançons que es poden generar i evita que el model s'utilitzi en aplicacions interactives.
Finalment, els investigadors han observat que el conjunt de dades de mostra es troba principalment en anglès i mostra principalment convencions musicals occidentals. Els investigadors d'IA poden centrar les futures investigacions a generar música en altres idiomes i estils musicals no occidentals.
Conclusió
El projecte Jukebox destaca la capacitat creixent dels models d'aprenentatge automàtic per crear representacions latents precises de dades complexes com l'àudio en brut. Avenços similars s'estan produint en el text, com es veu en projectes com GPT-3, i imatges, tal com es veu a OpenAI DALL-E2.
Tot i que la investigació en aquest espai ha estat impressionant, encara hi ha preocupacions sobre els drets de propietat intel·lectual i l'impacte que aquests models poden tenir en les indústries creatives en conjunt. Els investigadors i els creatius haurien de continuar col·laborant estretament per garantir que aquests models puguin continuar millorant.
Els futurs models de música generativa aviat podran actuar com una eina per als músics o com una aplicació per als creatius que necessiten una música personalitzada per als projectes.
Deixa un comentari