Kan jy KI gebruik om 'n nuwe rekord van jou gunsteling kunstenaar te skep?
Onlangse deurbrake in masjienleer het getoon dat modelle nou in staat is om komplekse data soos teks en beelde te verstaan. OpenAI se Jukebox bewys dat selfs musiek presies deur 'n neurale netwerk gemodelleer kan word.
Musiek is 'n komplekse voorwerp om te modelleer. Jy moet beide eenvoudige kenmerke soos tempo, hardheid en toonhoogte en meer komplekse kenmerke soos lirieke, instrumente en musikale struktuur in ag neem.
Gebruik gevorderde machine learning tegnieke, het OpenAI 'n manier gevind om rou klank om te skakel in 'n voorstelling wat ander modelle kan gebruik.
Hierdie artikel sal verduidelik wat Jukebox kan doen, hoe dit werk en die huidige beperkings van die tegnologie.
Wat is Jukebox AI?
Jukebox is 'n neurale net model deur OpenAI wat musiek kan genereer met sang. Die model kan musiek in 'n verskeidenheid genres en kunstenaarstyle produseer.
Jukebox kan byvoorbeeld 'n rockliedjie in die styl van Elvis Presley of 'n hiphop-deuntjie in die styl van Kanye West produseer. Jy kan hierdie besoek webwerf om te verken hoe effektief die model is om die klank van jou gunsteling musiekkunstenaars en -genres vas te vang.
Die model vereis 'n genre, kunstenaar en lirieke as insette. Hierdie insette lei 'n model wat opgelei is op miljoene kunstenaars en liriekdata.
Hoe werk Jukebox?
Kom ons kyk hoe Jukebox dit regkry om nuwe rou klank te genereer vanaf 'n model wat op miljoene liedjies opgelei is.
Enkoderingsproses
Terwyl sommige musiekgenerasiemodelle MIDI-opleidingsdata gebruik, word Jukebox opgelei op die werklike rou klanklêer. Om die oudio in 'n diskrete ruimte saam te druk, gebruik Jukebox 'n outo-enkodeerder-benadering bekend as VQ-VAE.
VQ-VAE staan vir Vector Quantized Variational Autoencoder, wat dalk 'n bietjie ingewikkeld kan klink, so kom ons breek dit af.
Kom ons probeer eers verstaan wat ons hier wil doen. In vergelyking met lirieke of bladmusiek, is 'n rou oudiolêer baie meer kompleks. As ons wil hê dat ons model uit liedjies moet “leer”, sal ons dit in ’n meer saamgeperste en vereenvoudigde voorstelling moet omskep. In machine learning, noem ons hierdie onderliggende voorstelling a latente ruimte.
An outo-enkodeer is 'n leertegniek sonder toesig wat gebruik maak van a neurale netwerk om nie-lineêre latente voorstellings vir 'n gegewe dataverspreiding te vind. Die outo-enkodeerder bestaan uit twee dele: 'n enkodeerder en dekodeerder.
Die encoder probeer om die latente spasie uit 'n stel rou data te vind terwyl die dekodeerder gebruik die latente voorstelling om te probeer om dit terug te rekonstrueer in sy oorspronklike formaat. Die outo-enkodeerder leer in wese hoe om die rou data saam te komprimeer op so 'n manier dat rekonstruksiefoute tot die minimum beperk word.
Noudat ons weet wat 'n outo-enkodeerder doen, kom ons probeer verstaan wat ons bedoel met 'n "variasionele" outo-enkodeerder. In vergelyking met tipiese outo-enkodeerders, voeg variasie-outo-enkodeerders 'n voor by die latente ruimte.
Sonder om in die wiskunde te duik, hou die byvoeging van 'n waarskynlikheidsvoorwaarde die latente verspreiding nou verdig. Die belangrikste verskil tussen 'n VAE en 'n VQ-VAE is dat laasgenoemde 'n diskrete latente voorstelling eerder as 'n kontinue een gebruik.
Elke VQ-VAE-vlak kodeer die invoer onafhanklik. Die onderste vlak enkodering produseer die hoogste gehalte rekonstruksie. Die topvlak-kodering behou noodsaaklike musikale inligting.
Die gebruik van Transformers
Noudat ons die musiekkodes het wat deur VQ-VAE geënkodeer is, kan ons probeer musiek genereer in hierdie saamgeperste diskrete ruimte.
Jukebox gebruik outoregressiewe transformators om die uitsetklank te skep. Transformators is 'n tipe neurale netwerk wat die beste werk met opeenvolgende data. Gegewe 'n volgorde van tekens, sal 'n transformatormodel probeer om die volgende teken te voorspel.
Jukebox gebruik 'n vereenvoudigde variant van Sparse Transformers. Sodra alle vorige modelle opgelei is, genereer die transformator saamgeperste kodes wat dan teruggedekodeer word in rou klank met behulp van die VQ-VAE-dekodeerder.
Kunstenaar en Genre Kondisionering in Jukebox
Jukebox se generatiewe model word meer beheerbaar gemaak deur bykomende voorwaardelike seine tydens die opleidingstap te verskaf.
Die eerste modelle word deur kunstenaars en genre-etikette vir elke liedjie verskaf. Dit verminder die entropie van die klankvoorspelling en laat die model toe om beter kwaliteit te behaal. Die etikette stel ons ook in staat om die model in 'n bepaalde styl te stuur.
Behalwe die kunstenaar en genre, word tydsberekeningseine bygevoeg tydens opleidingstyd. Hierdie seine sluit in die lengte van die liedjie, die begintyd van 'n spesifieke monster, en die fraksie van die liedjie wat verloop het. Hierdie bykomende inligting help die model om oudiopatrone te verstaan wat op die algehele struktuur staatmaak.
Die model kan byvoorbeeld leer dat die applous vir lewendige musiek aan die einde van 'n liedjie plaasvind. Die model kan byvoorbeeld ook leer dat sommige genres langer instrumentele afdelings as ander het.
lyrics
Die gekondisioneerde modelle wat in die vorige afdeling genoem is, is in staat om 'n verskeidenheid sangstemme te genereer. Hierdie stemme is egter geneig om onsamehangend en onherkenbaar te wees.
Om die generatiewe model te beheer wanneer dit by liriekgenerering kom, verskaf die navorsers meer konteks tydens opleiding. Om te help om lirieke data te karteer na die tydsberekening op die werklike klank, het die navorsers gebruik Spleeter koor te onttrek en NUS AutoLyricsAlign om woordvlakbelynings van die lirieke te verkry.
Beperkings van Jukebox Model
Een van die hoofbeperkings van Jukebox is sy begrip van groter musikale strukture. Byvoorbeeld, 'n kort snit van 20 sekondes van die uitset mag indrukwekkend klink, maar luisteraars sal agterkom dat die tipiese musikale struktuur van herhalende refreine en verse afwesig is in die finale uitset.
Die model is ook stadig om weer te gee. Dit neem ongeveer 9 uur om een minuut oudio volledig te lewer. Dit beperk die aantal liedjies wat gegenereer kan word en verhoed dat die model in interaktiewe toepassings gebruik word.
Laastens het die navorsers opgemerk dat die steekproefdatastel hoofsaaklik in Engels is en hoofsaaklik Westerse musiekkonvensies vertoon. KI-navorsers kan toekomstige navorsing daarop toespits om musiek in ander tale en nie-Westerse musiekstyle te genereer.
Gevolgtrekking
Die Jukebox-projek beklemtoon die groeiende vermoë van masjienleermodelle om akkurate latente voorstellings van komplekse data soos rou klank te skep. Soortgelyke deurbrake vind in die teks plaas, soos gesien in projekte soos GPT-3, en beelde, soos gesien in OpenAI's DALL-E2.
Alhoewel die navorsing in hierdie ruimte indrukwekkend was, is daar steeds kommer oor intellektuele eiendomsregte en die impak wat hierdie modelle op kreatiewe bedrywe as geheel kan hê. Navorsers en kreatiewe mense moet voortgaan om nou saam te werk om te verseker dat hierdie modelle kan aanhou verbeter.
Toekomstige generatiewe musiekmodelle sal dalk binnekort as 'n instrument vir musikante kan optree of as 'n toepassing vir kreatiewe mense wat 'n pasgemaakte musiek vir projekte benodig.
Lewer Kommentaar