Czy możesz wykorzystać sztuczną inteligencję do stworzenia nowego albumu swojego ulubionego artysty?
Ostatnie przełomy w uczeniu maszynowym pokazały, że modele są teraz w stanie zrozumieć złożone dane, takie jak tekst i obrazy. Jukebox OpenAI udowadnia, że nawet muzykę można precyzyjnie modelować za pomocą sieci neuronowej.
Muzyka to złożony obiekt do modelowania. Musisz wziąć pod uwagę zarówno proste funkcje, takie jak tempo, głośność i wysokość, jak i bardziej złożone funkcje, takie jak teksty, instrumenty i struktura muzyczna.
Korzystanie z zaawansowanego uczenie maszynowe Techniki OpenAI znalazł sposób na przekształcenie surowego dźwięku w reprezentację, z której mogą korzystać inne modele.
W tym artykule wyjaśnimy, co Jukebox może zrobić, jak to działa i jakie są obecne ograniczenia tej technologii.
Co to jest sztuczna inteligencja Jukebox?
Szafa grająca to model sieci neuronowej OpenAI, który może generować muzykę ze śpiewem. Model może produkować muzykę w różnych gatunkach i stylach artystów.
Na przykład Jukebox może wyprodukować rockową piosenkę w stylu Elvisa Presleya lub hiphopową melodię w stylu Kanye Westa. Możesz to odwiedzić aby zbadać, jak skuteczny jest model w wychwytywaniu dźwięków ulubionych wykonawców i gatunków muzycznych.
Model wymaga podania gatunku, wykonawcy i tekstu. Te dane wejściowe prowadzą model wyszkolony na milionach artystów i danych tekstowych.
Jak działa Jukebox?
Przyjrzyjmy się, jak Jukebox udaje się wygenerować nowy surowy dźwięk z modelu wytrenowanego na milionach utworów.
Proces kodowania
Podczas gdy niektóre modele generowania muzyki wykorzystują dane szkoleniowe MIDI, Jukebox jest szkolony na rzeczywistym nieprzetworzonym pliku audio. Aby skompresować dźwięk do dyskretnej przestrzeni, Jukebox używa metody autokodera znanej jako VQ-VAE.
VQ-VAE to skrót od Vector Quantized Variational Autoencoder, który może brzmieć nieco skomplikowanie, więc podzielmy go.
Najpierw spróbujmy zrozumieć, co chcemy tutaj zrobić. W porównaniu do tekstów lub nut, nieprzetworzony plik audio jest znacznie bardziej złożony. Jeśli chcemy, aby nasz model „uczył się” z piosenek, będziemy musieli przekształcić go w bardziej skompresowaną i uproszczoną reprezentację. W uczenie maszynowe, nazywamy tę podstawową reprezentację a utajona przestrzeń.
An autokoder to nienadzorowana technika uczenia się, która wykorzystuje sieci neuronowe znaleźć nieliniowe utajone reprezentacje dla danego rozkładu danych. Autokoder składa się z dwóch części: kodera i dekodera.
Połączenia koder próbuje znaleźć ukrytą przestrzeń z zestawu surowych danych, podczas gdy dekoder wykorzystuje ukrytą reprezentację, aby spróbować zrekonstruować ją z powrotem do oryginalnego formatu. Autoenkoder zasadniczo uczy się, jak kompresować surowe dane w taki sposób, aby zminimalizować błąd rekonstrukcji.
Teraz, gdy wiemy już, co robi autoenkoder, spróbujmy zrozumieć, co rozumiemy przez „wariacyjny” autoenkoder. W porównaniu z typowymi autoenkoderami, autoenkodery wariacyjne dodają a przed przestrzenią utajoną.
Bez zagłębiania się w matematykę, dodanie probabilistycznego a priori utrzymuje utajony rozkład ściśle zwarty. Główna różnica między VAE a VQ-VAE polega na tym, że ta ostatnia wykorzystuje dyskretną ukrytą reprezentację, a nie ciągłą.
Każdy poziom VQ-VAE niezależnie koduje wejście. Kodowanie dolnego poziomu zapewnia rekonstrukcję najwyższej jakości. Kodowanie najwyższego poziomu zachowuje najważniejsze informacje muzyczne.
Korzystanie z transformatorów
Teraz, gdy mamy kody muzyczne zakodowane przez VQ-VAE, możemy spróbować generować muzykę w tej skompresowanej dyskretnej przestrzeni.
Zastosowania szafy grającej transformatory autoregresyjne aby utworzyć dźwięk wyjściowy. Transformatory to rodzaj sieci neuronowej, która najlepiej działa z danymi sekwencjonowanymi. Biorąc pod uwagę sekwencję tokenów, model transformatora spróbuje przewidzieć następny token.
Jukebox wykorzystuje uproszczony wariant Sparse Transformers. Po wytrenowaniu wszystkich poprzednich modeli transformator generuje skompresowane kody, które są następnie dekodowane z powrotem do surowego dźwięku za pomocą dekodera VQ-VAE.
Warunkowanie artystów i gatunków w szafie grającej
Model generatywny Jukebox jest bardziej kontrolowany przez dostarczanie dodatkowych sygnałów warunkowych podczas etapu uczenia.
Pierwsze modele są dostarczane przez artystów i wytwórnie gatunkowe dla każdej piosenki. Zmniejsza to entropię przewidywania dźwięku i pozwala modelowi osiągnąć lepszą jakość. Etykiety umożliwiają nam również sterowanie modelem w określonym stylu.
Poza wykonawcą i gatunkiem podczas treningu dodawane są sygnały czasowe. Sygnały te obejmują długość utworu, czas rozpoczęcia konkretnej próbki oraz część utworu, która upłynęła. Te dodatkowe informacje pomagają modelowi zrozumieć wzorce audio, które opierają się na ogólnej strukturze.
Na przykład modelka może dowiedzieć się, że oklaski dla muzyki na żywo mają miejsce pod koniec piosenki. Model może również dowiedzieć się, na przykład, że niektóre gatunki mają dłuższe sekcje instrumentalne niż inne.
teksty
Modele warunkowe wymienione w poprzedniej sekcji są w stanie generować różne głosy śpiewające. Jednak te głosy bywają niespójne i nierozpoznawalne.
Aby kontrolować model generatywny, jeśli chodzi o generowanie tekstów, naukowcy zapewniają więcej kontekstu w czasie treningu. Aby pomóc w zmapowaniu danych tekstowych z synchronizacją rzeczywistego dźwięku, naukowcy wykorzystali: Spleetera wydobywać wokale i NUS AutoTeksty Wyrównaj aby uzyskać wyrównanie tekstu na poziomie słów.
Ograniczenia modelu Jukebox
Jednym z głównych ograniczeń Jukebox jest zrozumienie większych struktur muzycznych. Na przykład krótki, 20-sekundowy klip wyjściowy może brzmieć imponująco, ale słuchacze zauważą, że w końcowym wyjściu nie ma typowej struktury muzycznej powtarzających się refrenów i zwrotek.
Renderowanie modelu jest również wolne. Pełne renderowanie jednej minuty dźwięku zajmuje około 9 godzin. Ogranicza to liczbę utworów, które można wygenerować i uniemożliwia wykorzystanie modelu w aplikacjach interaktywnych.
Wreszcie naukowcy zauważyli, że przykładowy zestaw danych jest głównie w języku angielskim i zawiera głównie konwencje muzyki zachodniej. Badacze AI mogą skoncentrować przyszłe badania na generowaniu muzyki w innych językach i niezachodnich stylach muzycznych.
Wnioski
Projekt Jukebox podkreśla rosnącą zdolność modeli uczenia maszynowego do tworzenia dokładnych ukrytych reprezentacji złożonych danych, takich jak surowy dźwięk. Podobne przełomy dzieją się w tekście, co widać w projektach takich jak GPT-3i obrazy, jak widać w OpenAI's DALL-E2.
Chociaż badania w tej dziedzinie są imponujące, nadal istnieją obawy dotyczące praw własności intelektualnej i wpływu, jaki te modele mogą mieć na branże kreatywne jako całość. Badacze i twórcy powinni kontynuować ścisłą współpracę, aby zapewnić, że modele te będą mogły się dalej ulepszać.
Przyszłe generatywne modele muzyczne mogą wkrótce być w stanie działać jako narzędzie dla muzyków lub jako aplikacja dla twórców, którzy potrzebują niestandardowej muzyki do projektów.
Dodaj komentarz