Jukebox AI — Генерация музыки с использованием нейронных сетей

Содержание[Скрывать][Показывать]

Что такое музыкальный автомат с искусственным интеллектом?
Как работает музыкальный автомат?+-
Ограничения модели Jukebox
Заключение

Можете ли вы использовать ИИ для создания новой записи любимого исполнителя?

Недавние достижения в области машинного обучения показали, что модели теперь способны понимать сложные данные, такие как текст и изображения. Музыкальный автомат OpenAI доказывает, что даже музыку можно точно смоделировать с помощью нейронной сети.

Музыка — сложный объект для моделирования. Вы должны учитывать как простые характеристики, такие как темп, громкость и высота тона, так и более сложные характеристики, такие как слова, инструменты и музыкальная структура.

Использование расширенных обучение с помощью машины методов, OpenAI нашла способ конвертировать необработанный звук в представление, которое могут использовать другие модели.

В этой статье объясняется, на что способен Jukebox, как он работает, а также текущие ограничения технологии.

Что такое музыкальный автомат с искусственным интеллектом?

проигрыватель-автомат — это модель нейронной сети от OpenAI, которая может генерировать музыку с пением. Модель может воспроизводить музыку в различных жанрах и стилях исполнителей.

Jukebox AI генерирует песни известных исполнителей

Например, Jukebox может воспроизвести рок-песню в стиле Элвиса Пресли или мелодию в стиле хип-хоп в стиле Канье Уэста. Вы можете посетить это веб-сайт чтобы узнать, насколько эффективно модель передает звучание ваших любимых музыкальных исполнителей и жанров.

Модель требует ввода жанра, исполнителя и текста песни. Эти входные данные управляют моделью, обученной на миллионах исполнителей и текстовых данных.

Как работает музыкальный автомат?

Давайте посмотрим, как Jukebox удается генерировать новый необработанный звук из модели, обученной на миллионах песен.

Процесс кодирования

В то время как некоторые модели генерации музыки используют обучающие данные MIDI, Jukebox обучается на фактическом необработанном аудиофайле. Чтобы сжать звук в дискретное пространство, Jukebox использует подход автоматического кодирования, известный как VQ-VAE.

ВК-ВАЭ расшифровывается как Vector Quantized Variational Autoencoder, что может показаться немного сложным, поэтому давайте разберем его.

Во-первых, давайте попробуем понять, что мы хотим здесь сделать. По сравнению с текстами песен или нотами необработанный аудиофайл намного сложнее. Если мы хотим, чтобы наша модель «училась» на песнях, нам придется преобразовать ее в более сжатое и упрощенное представление. В обучение с помощью машины, мы называем это базовое представление скрытое пространство.

скрытое пространство - это сжатая версия образца ввода

An автоэнкодер метод обучения без учителя, в котором используется нейронной сети найти нелинейные скрытые представления для заданного распределения данных. Автоэнкодер состоит из двух частей: энкодера и декодера.

Ассоциация кодер пытается найти скрытое пространство из набора необработанных данных, в то время как декодер использует скрытое представление, чтобы попытаться восстановить его обратно в исходный формат. Автоэнкодер, по сути, учится сжимать необработанные данные таким образом, чтобы свести к минимуму ошибку реконструкции.

Теперь, когда мы знаем, что делает автоэнкодер, давайте попробуем понять, что мы подразумеваем под «вариационным» автоэнкодером. По сравнению с типичными автоэнкодерами вариационные автоэнкодеры добавляют перед скрытым пространством.

Не углубляясь в математику, добавление вероятностного априорного распределения сохраняет скрытое распределение плотно сжатым. Основное различие между VAE и VQ-VAE заключается в том, что последний использует дискретное скрытое представление, а не непрерывное. схема архитектуры музыкального автомата AI для кодирования и декодирования

Каждый уровень VQ-VAE независимо кодирует вход. Кодирование нижнего уровня обеспечивает реконструкцию самого высокого качества. Кодирование верхнего уровня сохраняет важную музыкальную информацию.

Использование трансформаторов

Jukebox AI использует преобразователи для создания следующего аудиоклипа на дорожке.

Теперь, когда у нас есть музыкальные коды, закодированные с помощью VQ-VAE, мы можем попытаться генерировать музыку в этом сжатом дискретном пространстве.

Музыкальный автомат использует авторегрессионные преобразователи для создания выходного звука. Преобразователи — это тип нейронной сети, который лучше всего работает с секвенированными данными. Учитывая последовательность токенов, модель преобразователя попытается предсказать следующий токен.

Jukebox использует упрощенный вариант Sparse Transformers. После обучения всех предыдущих моделей преобразователь генерирует сжатые коды, которые затем декодируются обратно в необработанный звук с помощью декодера VQ-VAE.

Оформление артиста и жанра в музыкальном автомате

начальная модель искусственного интеллекта музыкального автомата пытается понять, как песня звучит в определенном жанре или исполнителе

Генеративная модель Jukebox стала более управляемой благодаря дополнительным условным сигналам на этапе обучения.

Первые модели предоставляются исполнителями и жанровыми лейблами для каждой песни. Это снижает энтропию аудио-предсказания и позволяет модели достичь лучшего качества. Этикетки также позволяют нам управлять моделью в определенном стиле.

Помимо исполнителя и жанра, во время обучения добавляются временные сигналы. Эти сигналы включают продолжительность песни, время начала определенного семпла и прошедшую часть песни. Эта дополнительная информация помогает модели понять звуковые шаблоны, которые зависят от общей структуры.

Например, модель может узнать, что аплодисменты для живой музыки звучат в конце песни. Модель также может узнать, например, что в некоторых жанрах инструментальные части длиннее, чем в других.

лирика

Обусловленные модели, упомянутые в предыдущем разделе, способны генерировать различные певческие голоса. Однако эти голоса, как правило, бессвязны и неузнаваемы.

Чтобы контролировать генеративную модель, когда дело доходит до генерации текстов, исследователи предоставляют больше контекста во время обучения. Чтобы сопоставить текстовые данные с синхронизацией реального аудио, исследователи использовали Сплитер извлекать вокал и NUS AutoLyricsAlign чтобы получить выравнивание слов на уровне слов.

Ограничения модели Jukebox

Одним из основных ограничений Jukebox является понимание больших музыкальных структур. Например, короткий 20-секундный клип вывода может звучать впечатляюще, но слушатели заметят, что в финальном выводе отсутствует типичная музыкальная структура повторяющихся припевов и куплетов.

Модель также медленно рендерится. Для полного рендеринга одной минуты аудио требуется примерно 9 часов. Это ограничивает количество песен, которые могут быть сгенерированы, и предотвращает использование модели в интерактивных приложениях.

Наконец, исследователи отметили, что образец набора данных в основном составлен на английском языке и отображает в основном западные музыкальные традиции. Исследователи ИИ могут сосредоточить будущие исследования на создании музыки на других языках и в незападных музыкальных стилях.

Заключение

Проект Jukebox подчеркивает растущую способность моделей машинного обучения создавать точные скрытые представления сложных данных, таких как необработанный звук. Подобные прорывы происходят и в тексте, как видно в таких проектах, как GPT-3и изображения, как показано в OpenAI ДАЛЛ-Э 2.

Хотя исследования в этой области были впечатляющими, по-прежнему существуют опасения по поводу прав интеллектуальной собственности и влияния этих моделей на творческие отрасли в целом. Исследователи и креативщики должны продолжать тесно сотрудничать, чтобы эти модели могли продолжать совершенствоваться.

Будущие генеративные музыкальные модели вскоре смогут выступать в качестве инструмента для музыкантов или приложения для творческих людей, которым нужна нестандартная музыка для проектов.

Jukebox AI — создание музыки с использованием нейронных сетей

Что такое музыкальный автомат с искусственным интеллектом?