Kënnt Dir AI benotzen fir en neie Rekord vun Ärem Liiblingskënschtler ze kreéieren?
Rezent Duerchbréch am Maschinnléieren hunn gewisen datt Modeller elo fäeg sinn komplex Donnéeën wéi Text a Biller ze verstoen. OpenAI's Jukebox beweist datt souguer Musek präzis vun engem neurale Netzwierk ka modelléiert ginn.
Musek ass e komplexen Objet fir ze modelléieren. Dir musst souwuel einfach Features wéi Tempo, Lautheet a Pitch a méi komplex Features wéi Texter, Instrumenter a musikalesch Struktur berücksichtegen.
Benotzt fortgeschratt Maschinn léieren Techniken, OpenAI huet e Wee fonnt fir rau Audio an eng Representatioun ze konvertéieren déi aner Modeller benotze kënnen.
Dësen Artikel wäert erklären wat Jukebox ka maachen, wéi et funktionnéiert, an déi aktuell Aschränkungen vun der Technologie.
Wat ass Jukebox AI?
Jukebox ass en neuralt Netzmodell vun OpenAI dee Musek mat Gesang generéiere kann. De Modell kann Musek a verschiddene Genren a Kënschtler Stiler produzéieren.
Zum Beispill kann Jukebox e Rocksong am Stil vum Elvis Presley oder en Hip Hop Melodie am Stil vum Kanye West produzéieren. Dir kënnt dëst besichen Websäit fir ze entdecken wéi effektiv de Modell ass fir den Sound vun Äre Liiblingsmusikalesch Kënschtler a Genren z'erhalen.
De Modell erfuerdert e Genre, Kënschtler, an Texter als Input. Dësen Input guidéiert e Modell trainéiert op Millioune Kënschtler a Lyresch Daten.
Wéi funktionéiert Jukebox?
Loosst eis kucken wéi d'Jukebox et fäerdeg bréngt en neien raw Audio vun engem Modell ze generéieren deen op Millioune vu Lidder trainéiert ass.
Kodéierung Prozess
Wärend e puer Museksgeneratiounsmodeller MIDI Trainingsdaten benotzen, gëtt Jukebox op déi aktuell rau Audiodatei trainéiert. Fir den Audio an en diskret Raum ze kompriméieren, benotzt Jukebox eng Auto-Encoder Approche bekannt als VQ-VAE.
VQ-VAE steet fir Vector Quantized Variational Autoencoder, wat vläicht e bësse komplizéiert kléngt, also loosst eis et opbriechen.
Als éischt probéieren mir ze verstoen wat mir hei maache wëllen. Am Verglach mat Texter oder Noten ass eng raw Audiodatei vill méi komplex. Wa mir wëllen datt eise Modell vu Lidder "léiert" musse mir et an eng méi kompriméiert a vereinfacht Representatioun transforméieren. An Maschinn léieren, mir nennen dës Basisvertriedung a latente Raum.
An autoencode ass eng net iwwerwaacht Léiertechnik déi benotzt a neural Netz fir net-linear latente Representatioune fir eng bestëmmten Dateverdeelung ze fannen. Den Autoencoder besteet aus zwee Deeler: en Encoder an Decoder.
d' encoder probéiert de latente Raum aus enger Rei vu Matière Daten ze fannen, während de Decoder benotzt déi latent Representatioun fir ze probéieren et zréck an säin originelle Format ze rekonstruéieren. Den Autoencoder léiert am Wesentlechen wéi d'Rohdaten esou kompriméiert ginn, datt de Rekonstruktiounsfehler miniméiert.
Elo wou mir wësse wat en Autoencoder mécht, loosst eis probéieren ze verstoen wat mir mat engem "variational" Autoencoder mengen. Am Verglach mat typesch Autoencoder addéiere Variatioun Autoencoder e virum latente Raum.
Ouni an d'Mathematik ze tauchen, e probabilistesche Prior ze addéieren hält déi latent Verdeelung enk kompakt. Den Haaptunterschied tëscht engem VAE an engem VQ-VAE ass datt déi lescht eng diskret latent Representatioun benotzt anstatt eng kontinuéierlech.
All VQ-VAE Niveau codéiert onofhängeg den Input. Den ënneschten Niveau Kodéierung produzéiert déi héchst Qualitéit Rekonstruktioun. Den Top-Niveau Kodéierung behält wesentlech musikalesch Informatioun.
Benotzt Transformers
Elo datt mir d'Musekcoden kodéiert vu VQ-VAE hunn, kënne mir probéieren Musek generéieren an dësem kompriméierten diskrete Raum.
Jukebox benotzt autoregressive Transformatoren fir den Output Audio ze kreéieren. Transformers sinn eng Zort neuralt Netzwierk dat am Beschten mat sequenzéierten Daten funktionnéiert. Gitt eng Sequenz vun Tokens, wäert en Transformatormodell probéieren déi nächst Token virauszesoen.
Jukebox benotzt eng vereinfacht Variant vu Sparse Transformers. Wann all virdru Modeller trainéiert sinn, generéiert den Transformator kompriméiert Coden, déi dann zréck an rau Audio decodéiert ginn mam VQ-VAE Decoder.
Kënschtler a Genre Konditioun an Jukebox
De generative Modell vum Jukebox gëtt méi kontrolléierbar gemaach andeems se zousätzlech bedingungssignaler während dem Trainingsschrëtt ubidden.
Déi éischt Modeller gi vu Kënschtler a Genre-Etiketten fir all Lidd geliwwert. Dëst reduzéiert d'Entropie vun der Audioprediktioun an erlaabt de Modell besser Qualitéit z'erreechen. D'Etiketten erlaben eis och de Modell an engem bestëmmte Stil ze steieren.
Nieft dem Kënschtler a Genre ginn Timing-Signaler während Trainingszäit bäigefüügt. Dës Signaler enthalen d'Längt vum Lidd, d'Startzäit vun enger bestëmmter Probe, an d'Fraktioun vum Lidd deen ofgelaaf ass. Dës zousätzlech Informatioun hëlleft dem Modell Audiomuster ze verstoen déi op d'Gesamtstruktur vertrauen.
Zum Beispill kann de Modell léieren datt den Applaus fir Live Musek um Enn vun engem Song geschitt. De Modell kann och léieren, zum Beispill, datt verschidde Genren méi instrumental Sektiounen hunn wéi anerer.
Lyrics
Déi bedingte Modeller, déi an der viregter Sektioun ernimmt sinn, si fäeg fir eng Vielfalt vu Gesangstëmmen ze generéieren. Wéi och ëmmer, dës Stëmmen tendéieren onkohärent an onerkennbar.
Fir de generativen Modell ze kontrolléieren wann et ëm d'lyresch Generatioun kënnt, bidden d'Fuerscher méi Kontext an der Trainingszäit. Fir d'lyresch Donnéeën op den Timing op den aktuellen Audio ze mapen, hunn d'Fuerscher benotzt Spleeter Gesang ze extrahieren an NUS AutoLyricsAlign fir Wuertniveau Ausriichtung vun den Texter ze kréien.
Aschränkungen vun Jukebox Model
Eng vun den Haaptbeschränkunge vu Jukebox ass säi Verständnis vu gréissere musikalesche Strukturen. Zum Beispill, e kuerzen 20-Sekonne Clip vum Output kléngt beandrockend, awer d'Nolauschterer bemierken datt déi typesch musikalesch Struktur vu Widderhuelung vu Chorusen a Verse fehlt am finalen Output.
De Modell ass och lues ze maachen. Et dauert ongeféier 9 Stonnen fir eng Minutt Audio komplett ze maachen. Dëst limitéiert d'Zuel vu Lidder déi generéiert kënne ginn a verhënnert datt de Modell an interaktiven Uwendungen benotzt gëtt.
Schlussendlech hunn d'Fuerscher bemierkt datt d'Probe-Datesaz haaptsächlech op Englesch ass an haaptsächlech westlech Musekskonventioune weist. AI Fuerscher kënnen zukünfteg Fuerschung konzentréieren fir Musek an anere Sproochen an net-westleche Musekstiler ze generéieren.
Konklusioun
De Jukebox-Projet beliicht d'wuessend Fäegkeet vu Maschinnléiermodeller fir eng korrekt latente Representatioune vu komplexen Donnéeën wéi rau Audio ze kreéieren. Ähnlech Duerchbréch geschéien am Text, wéi an Projeten wéi gesi gesinn GPT-3, a Biller, wéi an OpenAI's gesinn DALL-E2.
Wärend d'Fuerschung an dësem Raum beandrockend war, ginn et nach ëmmer Bedenken iwwer intellektuell Propriétéitsrechter an den Impakt déi dës Modeller op kreativ Industrien als Ganzt hunn. Fuerscher a Kreativer solle weider enk kollaboréieren fir sécherzestellen datt dës Modeller kënne weider verbesseren.
Zukünfteg generativ Museksmodeller kënne geschwënn als Instrument fir Museker handelen oder als Applikatioun fir Kreativer déi eng personaliséiert Musek fir Projete brauchen.
Hannerlooss eng Äntwert