Können Sie KI verwenden, um eine neue Platte Ihres Lieblingskünstlers zu erstellen?
Jüngste Durchbrüche beim maschinellen Lernen haben gezeigt, dass Modelle nun in der Lage sind, komplexe Daten wie Text und Bilder zu verstehen. Die Jukebox von OpenAI beweist, dass sogar Musik durch ein neuronales Netz präzise modelliert werden kann.
Musik ist ein komplexes Modellobjekt. Sie müssen sowohl einfache Merkmale wie Tempo, Lautstärke und Tonhöhe als auch komplexere Merkmale wie Texte, Instrumente und musikalische Struktur berücksichtigen.
Verwenden von Advanced Maschinelles Lernen Techniken hat OpenAI einen Weg gefunden, rohes Audio in eine Darstellung zu konvertieren, die andere Modelle verwenden können.
In diesem Artikel wird erläutert, was Jukebox kann, wie es funktioniert und welche aktuellen Einschränkungen die Technologie hat.
Was ist Jukebox-KI?
Musikbox ist ein neuronales Netzmodell von OpenAI, das Musik mit Gesang erzeugen kann. Das Modell kann Musik in einer Vielzahl von Genres und Künstlerstilen produzieren.
Beispielsweise kann Jukebox einen Rocksong im Stil von Elvis Presley oder einen Hip-Hop-Song im Stil von Kanye West produzieren. Diesen können Sie besichtigen Website um herauszufinden, wie effektiv das Modell den Sound Ihrer Lieblingskünstler und -genres einfängt.
Das Modell erfordert als Eingabe ein Genre, einen Künstler und einen Text. Diese Eingabe leitet ein Modell, das mit Millionen von Künstlern und Textdaten trainiert wurde.
Wie funktioniert Jukebox?
Schauen wir uns an, wie es Jukebox gelingt, neuartiges Rohaudio aus einem Modell zu generieren, das mit Millionen von Songs trainiert wurde.
Codiervorgang
Während einige Musikerzeugungsmodelle MIDI-Trainingsdaten verwenden, wird Jukebox mit der eigentlichen Audio-Rohdatei trainiert. Um das Audio in einen diskreten Raum zu komprimieren, verwendet Jukebox einen Auto-Encoder-Ansatz, der als VQ-VAE bekannt ist.
VQ-VAE steht für Vector Quantized Variational Autoencoder, was sich vielleicht etwas kompliziert anhört, also lassen Sie es uns aufschlüsseln.
Lassen Sie uns zunächst versuchen zu verstehen, was wir hier tun wollen. Im Vergleich zu Liedtexten oder Notenblättern ist eine rohe Audiodatei wesentlich komplexer. Wenn wir wollen, dass unser Modell von Liedern „lernt“, müssen wir es in eine komprimiertere und vereinfachte Darstellung umwandeln. Im Maschinelles Lernen, nennen wir diese zugrunde liegende Darstellung a latenter Raum.
An Autoencoder ist eine unbeaufsichtigte Lerntechnik, die a verwendet neuronale Netzwerk um nichtlineare latente Darstellungen für eine gegebene Datenverteilung zu finden. Der Autoencoder besteht aus zwei Teilen: einem Encoder und einem Decoder.
Das Encoder versucht, den latenten Speicherplatz aus einer Reihe von Rohdaten zu finden, während die Decoder verwendet die latente Repräsentation, um zu versuchen, sie wieder in ihr ursprüngliches Format zu rekonstruieren. Der Autoencoder lernt im Wesentlichen, die Rohdaten so zu komprimieren, dass Rekonstruktionsfehler minimiert werden.
Nachdem wir nun wissen, was ein Autoencoder tut, wollen wir versuchen zu verstehen, was wir mit einem „varianten“ Autoencoder meinen. Im Vergleich zu typischen Autoencodern fügen Variations-Autoencoder vor dem latenten Raum ein vorangestelltes hinzu.
Ohne in die Mathematik einzutauchen, hält das Hinzufügen eines probabilistischen Priors die latente Verteilung eng verdichtet. Der Hauptunterschied zwischen einer VAE und einer VQ-VAE besteht darin, dass letztere eher eine diskrete latente Repräsentation als eine kontinuierliche verwendet.
Jede VQ-VAE-Ebene codiert die Eingabe unabhängig voneinander. Die Codierung auf unterster Ebene erzeugt die Rekonstruktion mit der höchsten Qualität. Die Codierung auf oberster Ebene behält wesentliche musikalische Informationen bei.
Transformatoren verwenden
Nachdem wir nun die von VQ-VAE kodierten Musikcodes haben, können wir es versuchen Musik erzeugen in diesem komprimierten diskreten Raum.
Jukebox verwendet Autoregressive Transformatoren um das Ausgangsaudio zu erstellen. Transformer sind eine Art neuronales Netzwerk, das am besten mit sequenzierten Daten funktioniert. Ausgehend von einer Folge von Token versucht ein Transformer-Modell, das nächste Token vorherzusagen.
Jukebox verwendet eine vereinfachte Variante von Sparse Transformers. Sobald alle früheren Modelle trainiert sind, generiert der Transformer komprimierte Codes, die dann unter Verwendung des VQ-VAE-Decoders wieder in Rohaudio decodiert werden.
Künstler- und Genre-Konditionierung in der Jukebox
Das generative Modell von Jukebox wird kontrollierbarer gemacht, indem während des Trainingsschritts zusätzliche bedingte Signale bereitgestellt werden.
Die ersten Vorlagen werden von Künstlern und Genre-Labels für jeden Song bereitgestellt. Dies reduziert die Entropie der Audiovorhersage und ermöglicht dem Modell, eine bessere Qualität zu erreichen. Die Labels ermöglichen es uns auch, das Modell in einem bestimmten Stil zu steuern.
Neben Künstler und Genre werden während der Trainingszeit Zeitsignale hinzugefügt. Diese Signale umfassen die Länge des Songs, die Startzeit eines bestimmten Samples und den Bruchteil des Songs, der verstrichen ist. Diese zusätzlichen Informationen helfen dem Modell, Audiomuster zu verstehen, die von der Gesamtstruktur abhängen.
Beispielsweise kann das Modell lernen, dass der Applaus für Live-Musik am Ende eines Liedes erfolgt. Das Modell kann zum Beispiel auch lernen, dass einige Genres längere Instrumentalabschnitte haben als andere.
Text
Die im vorherigen Abschnitt erwähnten konditionierten Modelle sind in der Lage, eine Vielzahl von Singstimmen zu erzeugen. Diese Stimmen neigen jedoch dazu, inkohärent und nicht erkennbar zu sein.
Um das generative Modell bei der Textgenerierung zu kontrollieren, stellen die Forscher zur Trainingszeit mehr Kontext bereit. Um Textdaten dem Timing des tatsächlichen Audios zuzuordnen, verwendeten die Forscher Spleeter Gesang zu extrahieren und NUS AutoLyricsAlign um Ausrichtungen der Texte auf Wortebene zu erhalten.
Einschränkungen des Jukebox-Modells
Eine der Haupteinschränkungen von Jukebox ist das Verständnis größerer musikalischer Strukturen. Beispielsweise mag ein kurzer 20-Sekunden-Clip der Ausgabe beeindruckend klingen, aber die Zuhörer werden feststellen, dass die typische musikalische Struktur aus sich wiederholenden Refrains und Strophen in der endgültigen Ausgabe fehlt.
Das Modell wird auch langsam gerendert. Es dauert ungefähr 9 Stunden, um eine Minute Audio vollständig zu rendern. Dies begrenzt die Anzahl der generierbaren Songs und verhindert, dass das Modell in interaktiven Anwendungen verwendet wird.
Schließlich haben die Forscher festgestellt, dass der Beispieldatensatz hauptsächlich auf Englisch ist und hauptsächlich westliche Musikkonventionen widerspiegelt. KI-Forscher können sich in Zukunft auf die Generierung von Musik in anderen Sprachen und nicht-westlichen Musikstilen konzentrieren.
Zusammenfassung
Das Jukebox-Projekt unterstreicht die wachsende Fähigkeit von Modellen für maschinelles Lernen, genaue latente Darstellungen komplexer Daten wie Rohaudio zu erstellen. Ähnliche Durchbrüche finden im Text statt, wie in Projekten wie zu sehen ist GPT-3und Bilder, wie sie in OpenAIs zu sehen sind DALL-E2.
Obwohl die Forschung in diesem Bereich beeindruckend war, gibt es immer noch Bedenken hinsichtlich der Rechte an geistigem Eigentum und der Auswirkungen, die diese Modelle auf die Kreativwirtschaft insgesamt haben könnten. Forscher und Kreative sollten weiterhin eng zusammenarbeiten, um sicherzustellen, dass diese Modelle weiter verbessert werden können.
Zukünftige generative Musikmodelle könnten bald als Werkzeug für Musiker oder als Anwendung für Kreative fungieren, die eine maßgeschneiderte Musik für Projekte benötigen.
Hinterlassen Sie uns einen Kommentar