Можете ли да използвате AI, за да създадете нов запис от любимия си изпълнител?
Скорошни пробиви в машинното обучение показаха, че моделите вече са способни да разбират сложни данни като текст и изображения. Jukebox на OpenAI доказва, че дори музиката може да бъде моделирана прецизно от невронна мрежа.
Музиката е сложен обект за моделиране. Трябва да вземете предвид както прости характеристики като темпо, сила на звука и височина, така и по-сложни характеристики като текстове, инструменти и музикална структура.
Използване на разширени машинно обучение техники, OpenAI намери начин да преобразува необработения звук в представяне, което други модели могат да използват.
Тази статия ще обясни какво може да прави Jukebox, как работи и текущите ограничения на технологията.
Какво е Jukebox AI?
Jukebox е модел на невронна мрежа от OpenAI, който може да генерира музика с пеене. Моделът може да произвежда музика в различни жанрове и стилове на изпълнители.
Например Jukebox може да произведе рок песен в стила на Елвис Пресли или хип-хоп мелодия в стила на Кание Уест. Можете да посетите това уебсайт за да проучите колко ефективен е моделът при улавяне на звука на вашите любими музикални изпълнители и жанрове.
Моделът изисква вход, жанр, изпълнител и текст. Този вход ръководи модел, обучен върху милиони изпълнители и текстови данни.
Как работи Jukebox?
Нека да разгледаме как Jukebox успява да генерира ново необработено аудио от модел, обучен на милиони песни.
Процес на кодиране
Докато някои модели за генериране на музика използват данни за MIDI обучение, Jukebox се обучава върху действителния необработен аудио файл. За да компресира аудиото в отделно пространство, Jukebox използва подход за автоматично кодиране, известен като VQ-VAE.
VQ-VAE означава Vector Quantized Variational Autoencoder, което може да звучи малко сложно, така че нека го разбием.
Първо, нека се опитаме да разберем какво искаме да правим тук. В сравнение с текстове или ноти, необработеният аудио файл е много по-сложен. Ако искаме нашият модел да се „учи“ от песни, ще трябва да го трансформираме в по-компресирано и опростено представяне. в машинно обучение, ние наричаме това основно представяне a латентно пространство.
An автоенкодер е техника за обучение без надзор, която използва a невронна мрежа за намиране на нелинейни латентни представяния за дадено разпределение на данни. Автокодерът се състои от две части: енкодер и декодер.
- енкодер се опитва да намери латентното пространство от набор от необработени данни, докато декодер използва скритото представяне, за да се опита да го реконструира обратно в оригиналния му формат. Автоматичният енкодер по същество се научава как да компресира необработените данни по такъв начин, че минимизира грешката при реконструкцията.
Сега, след като знаем какво прави автоенкодерът, нека се опитаме да разберем какво имаме предвид под „вариационен“ автоенкодер. В сравнение с типичните автоенкодери, вариационните автоенкодери добавят преди към латентното пространство.
Без да се гмуркате в математиката, добавянето на вероятностен априор запазва латентното разпределение плътно уплътнено. Основната разлика между VAE и VQ-VAE е, че последният използва дискретно латентно представяне, а не непрекъснато.
Всяко VQ-VAE ниво независимо кодира входа. Кодирането на най-долното ниво създава най-висококачествена реконструкция. Кодирането от най-високо ниво запазва важна музикална информация.
Използване на трансформатори
Сега, когато имаме музикалните кодове, кодирани от VQ-VAE, можем да опитаме генерира музика в това компресирано дискретно пространство.
Jukebox използва авторегресивни трансформатори за създаване на изходно аудио. Трансформаторите са вид невронна мрежа, която работи най-добре с последователни данни. Като се има предвид поредица от токени, трансформаторният модел ще се опита да предскаже следващия токен.
Jukebox използва опростен вариант на Sparse Transformers. След като всички предишни модели са обучени, трансформаторът генерира компресирани кодове, които след това се декодират обратно в необработено аудио с помощта на VQ-VAE декодера.
Кондициониране на изпълнител и жанр в Jukebox
Генеративният модел на Jukebox е направен по-контролируем чрез предоставяне на допълнителни условни сигнали по време на стъпката на обучение.
Първите модели се предоставят от изпълнители и жанрови етикети за всяка песен. Това намалява ентропията на аудио прогнозата и позволява на модела да постигне по-добро качество. Етикетите също ни позволяват да насочим модела в определен стил.
Освен изпълнителя и жанра, по време на обучението се добавят сигнали за време. Тези сигнали включват дължината на песента, началния час на определена семпла и частта от песента, която е изтекла. Тази допълнителна информация помага на модела да разбере аудио модели, които разчитат на цялостната структура.
Например, моделът може да научи, че аплодисментите за музика на живо се случват в края на песен. Моделът може също да научи, например, че някои жанрове имат по-дълги инструментални части от други.
Текст на песен
Кондиционираните модели, споменати в предишния раздел, са в състояние да генерират различни пеещи гласове. Тези гласове обаче обикновено са несвързани и неразпознаваеми.
За да контролират генеративния модел, когато става дума за генериране на лирика, изследователите предоставят повече контекст по време на обучението. Изследователите използваха, за да съпоставят лиричните данни с времето на действителното аудио По-сладък за извличане на вокали и NUS AutoLyricsAlign за да получите подравняване на ниво дума на текстовете.
Ограничения на модела Jukebox
Едно от основните ограничения на Jukebox е разбирането му за по-големи музикални структури. Например кратък 20-секунден клип от изхода може да звучи впечатляващо, но слушателите ще забележат, че типичната музикална структура на повтарящи се припеви и куплети отсъства в крайния изход.
Моделът също се изобразява бавно. Отнема приблизително 9 часа, за да изобразите напълно една минута аудио. Това ограничава броя на песните, които могат да бъдат генерирани, и предотвратява използването на модела в интерактивни приложения.
И накрая, изследователите отбелязват, че примерният набор от данни е предимно на английски и показва предимно западните музикални конвенции. Изследователите на AI могат да съсредоточат бъдещите изследвания върху генерирането на музика на други езици и незападни музикални стилове.
Заключение
Проектът Jukebox подчертава нарастващата способност на моделите за машинно обучение да създават точни латентни представяния на сложни данни, като например необработено аудио. Подобни пробиви се случват в текста, както се вижда в проекти като GPT-3и изображения, както се вижда в OpenAI DALL-E2.
Въпреки че изследванията в тази област са впечатляващи, все още има опасения относно правата върху интелектуалната собственост и въздействието, което тези модели могат да имат върху творческите индустрии като цяло. Изследователите и творците трябва да продължат да си сътрудничат тясно, за да гарантират, че тези модели могат да продължат да се подобряват.
Бъдещите генеративни музикални модели може скоро да могат да действат като инструмент за музиканти или като приложение за творци, които се нуждаят от персонализирана музика за проекти.
Оставете коментар