Inhoudsopgave[Zich verstoppen][Laten zien]
Kun jij AI gebruiken om een nieuwe plaat van je favoriete artiest te maken?
Recente doorbraken in machine learning hebben aangetoond dat modellen nu in staat zijn complexe gegevens zoals tekst en afbeeldingen te begrijpen. OpenAI's Jukebox bewijst dat zelfs muziek nauwkeurig kan worden gemodelleerd door een neuraal netwerk.
Muziek is een complex object om te modelleren. Je moet rekening houden met zowel eenvoudige kenmerken zoals tempo, luidheid en toonhoogte als meer complexe kenmerken zoals songteksten, instrumenten en muzikale structuur.
Geavanceerd gebruiken machine learning technieken heeft OpenAI een manier gevonden om onbewerkte audio om te zetten in een representatie die andere modellen kunnen gebruiken.
Dit artikel legt uit wat Jukebox kan doen, hoe het werkt en wat de huidige beperkingen van de technologie zijn.
Wat is Jukebox AI?
Jukebox is een neuraal netmodel van OpenAI dat met zang muziek kan genereren. Het model kan muziek produceren in verschillende genres en artiestenstijlen.
Jukebox kan bijvoorbeeld een rocknummer produceren in de stijl van Elvis Presley of een hiphopnummer in de stijl van Kanye West. Deze kunt u bezoeken van de om te ontdekken hoe effectief het model is in het vastleggen van het geluid van uw favoriete muziekartiesten en -genres.
Het model vereist een genre, artiest en songteksten als input. Deze invoer leidt een model dat is getraind op miljoenen artiesten en songtekstgegevens.
Hoe werkt Jukebox?
Laten we eens kijken hoe Jukebox erin slaagt nieuwe onbewerkte audio te genereren van een model dat is getraind op miljoenen nummers.
Coderingsproces
Hoewel sommige modellen voor het genereren van muziek MIDI-trainingsgegevens gebruiken, wordt Jukebox getraind op het eigenlijke onbewerkte audiobestand. Om de audio in een discrete ruimte te comprimeren, gebruikt Jukebox een auto-encoderbenadering die bekend staat als VQ-VAE.
VQ-VAE staat voor Vector Quantized Variational Autoencoder, wat misschien een beetje ingewikkeld klinkt, dus laten we het opsplitsen.
Laten we eerst proberen te begrijpen wat we hier willen doen. In vergelijking met songteksten of bladmuziek is een onbewerkt audiobestand veel complexer. Als we willen dat ons model van liedjes "leert", zullen we het moeten transformeren in een meer gecomprimeerde en vereenvoudigde weergave. In machine learning, noemen we deze onderliggende representatie a latente ruimte.
An auto-encoder is een leertechniek zonder toezicht die gebruik maakt van een neuraal netwerk om niet-lineaire latente representaties te vinden voor een gegeven datadistributie. De autoencoder bestaat uit twee delen: een encoder en een decoder.
De encoder probeert de latente ruimte te vinden uit een set onbewerkte gegevens terwijl de decoder gebruikt de latente representatie om te proberen deze terug te reconstrueren naar zijn oorspronkelijke formaat. De autoencoder leert in wezen hoe de onbewerkte gegevens zodanig moeten worden gecomprimeerd dat reconstructiefouten worden geminimaliseerd.
Nu we weten wat een auto-encoder doet, gaan we proberen te begrijpen wat we bedoelen met een "variatie" auto-encoder. Vergeleken met typische auto-encoders, voegen variatie-auto-encoders een voorafgaande toe aan de latente ruimte.
Zonder in de wiskunde te duiken, houdt het toevoegen van een probabilistische prior de latente verdeling nauw samen. Het belangrijkste verschil tussen een VAE en een VQ-VAE is dat de laatste een discrete latente weergave gebruikt in plaats van een continue.
Elk VQ-VAE-niveau codeert onafhankelijk de invoer. De codering op het laagste niveau produceert reconstructie van de hoogste kwaliteit. De codering op het hoogste niveau behoudt essentiële muzikale informatie.
Transformatoren gebruiken
Nu we de muziekcodes hebben gecodeerd door VQ-VAE, kunnen we het proberen muziek genereren in deze gecomprimeerde discrete ruimte.
Jukebox gebruikt autoregressieve transformatoren om de uitvoeraudio te maken. Transformers zijn een type neuraal netwerk dat het beste werkt met gesequentiseerde gegevens. Gegeven een reeks tokens, zal een transformatormodel proberen het volgende token te voorspellen.
Jukebox gebruikt een vereenvoudigde variant van Sparse Transformers. Zodra alle eerdere modellen zijn getraind, genereert de transformator gecomprimeerde codes die vervolgens worden gedecodeerd tot onbewerkte audio met behulp van de VQ-VAE-decoder.
Artiest en genreconditionering in Jukebox
Het generatieve model van de Jukebox is beter beheersbaar gemaakt door aanvullende voorwaardelijke signalen te geven tijdens de trainingsstap.
De eerste modellen worden voor elk nummer geleverd door artiesten en genre-labels. Dit vermindert de entropie van de audiovoorspelling en zorgt ervoor dat het model een betere kwaliteit kan bereiken. De labels stellen ons ook in staat om het model in een bepaalde stijl te sturen.
Naast de artiest en het genre worden tijdens de training tijdsignalen toegevoegd. Deze signalen omvatten de lengte van het nummer, de starttijd van een bepaalde sample en het gedeelte van het nummer dat is verstreken. Deze aanvullende informatie helpt het model audiopatronen te begrijpen die afhankelijk zijn van de algehele structuur.
Het model kan bijvoorbeeld leren dat het applaus voor livemuziek aan het einde van een nummer plaatsvindt. Het model kan bijvoorbeeld ook leren dat sommige genres langere instrumentale secties hebben dan andere.
songtekst
De in de vorige paragraaf genoemde geconditioneerde modellen zijn in staat om verschillende zangstemmen te genereren. Deze stemmen zijn echter vaak onsamenhangend en onherkenbaar.
Om het generatieve model te beheersen als het gaat om het genereren van tekst, bieden de onderzoekers meer context tijdens de training. Om songtekstgegevens te helpen toewijzen aan de timing op de daadwerkelijke audio, gebruikten de onderzoekers spleeter om zang te extraheren en NUS AutoLyrics Align om uitlijning van de songtekst op woordniveau te verkrijgen.
Beperkingen van het Jukebox-model
Een van de belangrijkste beperkingen van Jukebox is het begrip van grotere muzikale structuren. Een korte clip van 20 seconden van de output klinkt misschien indrukwekkend, maar luisteraars zullen merken dat de typische muzikale structuur van herhalende refreinen en coupletten afwezig is in de uiteindelijke output.
Het model is ook traag om te renderen. Het duurt ongeveer 9 uur om één minuut audio volledig weer te geven. Dit beperkt het aantal nummers dat kan worden gegenereerd en voorkomt dat het model wordt gebruikt in interactieve toepassingen.
Ten slotte hebben de onderzoekers opgemerkt dat de voorbeelddataset voornamelijk in het Engels is en voornamelijk westerse muziekconventies weergeeft. AI-onderzoekers kunnen toekomstig onderzoek richten op het genereren van muziek in andere talen en niet-westerse muziekstijlen.
Conclusie
Het Jukebox-project benadrukt het groeiende vermogen van machine learning-modellen om nauwkeurige latente representaties te creëren van complexe gegevens, zoals onbewerkte audio. Soortgelijke doorbraken vinden plaats in de tekst, zoals te zien is in projecten als GPT-3, en afbeeldingen, zoals te zien in OpenAI's DALL-E2.
Hoewel het onderzoek op dit gebied indrukwekkend is geweest, zijn er nog steeds zorgen over intellectuele eigendomsrechten en de impact die deze modellen kunnen hebben op de creatieve industrie als geheel. Onderzoekers en creatieven moeten nauw blijven samenwerken om ervoor te zorgen dat deze modellen steeds beter kunnen worden.
Toekomstige modellen voor generatieve muziek kunnen binnenkort mogelijk fungeren als hulpmiddel voor muzikanten of als toepassing voor creatievelingen die aangepaste muziek nodig hebben voor projecten.
Laat een reactie achter