Можете ли вы использовать ИИ для создания новой записи любимого исполнителя?
Недавние достижения в области машинного обучения показали, что модели теперь способны понимать сложные данные, такие как текст и изображения. Музыкальный автомат OpenAI доказывает, что даже музыку можно точно смоделировать с помощью нейронной сети.
Музыка — сложный объект для моделирования. Вы должны учитывать как простые характеристики, такие как темп, громкость и высота тона, так и более сложные характеристики, такие как слова, инструменты и музыкальная структура.
Использование расширенных обучение с помощью машины методов, OpenAI нашла способ конвертировать необработанный звук в представление, которое могут использовать другие модели.
В этой статье объясняется, на что способен Jukebox, как он работает, а также текущие ограничения технологии.
Что такое музыкальный автомат с искусственным интеллектом?
проигрыватель-автомат — это модель нейронной сети от OpenAI, которая может генерировать музыку с пением. Модель может воспроизводить музыку в различных жанрах и стилях исполнителей.
Например, Jukebox может воспроизвести рок-песню в стиле Элвиса Пресли или мелодию в стиле хип-хоп в стиле Канье Уэста. Вы можете посетить это веб-сайт чтобы узнать, насколько эффективно модель передает звучание ваших любимых музыкальных исполнителей и жанров.
Модель требует ввода жанра, исполнителя и текста песни. Эти входные данные управляют моделью, обученной на миллионах исполнителей и текстовых данных.
Как работает музыкальный автомат?
Давайте посмотрим, как Jukebox удается генерировать новый необработанный звук из модели, обученной на миллионах песен.
Процесс кодирования
В то время как некоторые модели генерации музыки используют обучающие данные MIDI, Jukebox обучается на фактическом необработанном аудиофайле. Чтобы сжать звук в дискретное пространство, Jukebox использует подход автоматического кодирования, известный как VQ-VAE.
ВК-ВАЭ расшифровывается как Vector Quantized Variational Autoencoder, что может показаться немного сложным, поэтому давайте разберем его.
Во-первых, давайте попробуем понять, что мы хотим здесь сделать. По сравнению с текстами песен или нотами необработанный аудиофайл намного сложнее. Если мы хотим, чтобы наша модель «училась» на песнях, нам придется преобразовать ее в более сжатое и упрощенное представление. В обучение с помощью машины, мы называем это базовое представление скрытое пространство.
An автоэнкодер метод обучения без учителя, в котором используется нейронной сети найти нелинейные скрытые представления для заданного распределения данных. Автоэнкодер состоит из двух частей: энкодера и декодера.
Ассоциация кодер пытается найти скрытое пространство из набора необработанных данных, в то время как декодер использует скрытое представление, чтобы попытаться восстановить его обратно в исходный формат. Автоэнкодер, по сути, учится сжимать необработанные данные таким образом, чтобы свести к минимуму ошибку реконструкции.
Теперь, когда мы знаем, что делает автоэнкодер, давайте попробуем понять, что мы подразумеваем под «вариационным» автоэнкодером. По сравнению с типичными автоэнкодерами вариационные автоэнкодеры добавляют перед скрытым пространством.
Не углубляясь в математику, добавление вероятностного априорного распределения сохраняет скрытое распределение плотно сжатым. Основное различие между VAE и VQ-VAE заключается в том, что последний использует дискретное скрытое представление, а не непрерывное.
Каждый уровень VQ-VAE независимо кодирует вход. Кодирование нижнего уровня обеспечивает реконструкцию самого высокого качества. Кодирование верхнего уровня сохраняет важную музыкальную информацию.
Использование трансформаторов
Теперь, когда у нас есть музыкальные коды, закодированные с помощью VQ-VAE, мы можем попытаться генерировать музыку в этом сжатом дискретном пространстве.
Музыкальный автомат использует авторегрессионные преобразователи для создания выходного звука. Преобразователи — это тип нейронной сети, который лучше всего работает с секвенированными данными. Учитывая последовательность токенов, модель преобразователя попытается предсказать следующий токен.
Jukebox использует упрощенный вариант Sparse Transformers. После обучения всех предыдущих моделей преобразователь генерирует сжатые коды, которые затем декодируются обратно в необработанный звук с помощью декодера VQ-VAE.
Оформление артиста и жанра в музыкальном автомате
Генеративная модель Jukebox стала более управляемой благодаря дополнительным условным сигналам на этапе обучения.
Первые модели предоставляются исполнителями и жанровыми лейблами для каждой песни. Это снижает энтропию аудио-предсказания и позволяет модели достичь лучшего качества. Этикетки также позволяют нам управлять моделью в определенном стиле.
Помимо исполнителя и жанра, во время обучения добавляются временные сигналы. Эти сигналы включают продолжительность песни, время начала определенного семпла и прошедшую часть песни. Эта дополнительная информация помогает модели понять звуковые шаблоны, которые зависят от общей структуры.
Например, модель может узнать, что аплодисменты для живой музыки звучат в конце песни. Модель также может узнать, например, что в некоторых жанрах инструментальные части длиннее, чем в других.
лирика
Обусловленные модели, упомянутые в предыдущем разделе, способны генерировать различные певческие голоса. Однако эти голоса, как правило, бессвязны и неузнаваемы.
Чтобы контролировать генеративную модель, когда дело доходит до генерации текстов, исследователи предоставляют больше контекста во время обучения. Чтобы сопоставить текстовые данные с синхронизацией реального аудио, исследователи использовали Сплитер извлекать вокал и NUS AutoLyricsAlign чтобы получить выравнивание слов на уровне слов.
Ограничения модели Jukebox
Одним из основных ограничений Jukebox является понимание больших музыкальных структур. Например, короткий 20-секундный клип вывода может звучать впечатляюще, но слушатели заметят, что в финальном выводе отсутствует типичная музыкальная структура повторяющихся припевов и куплетов.
Модель также медленно рендерится. Для полного рендеринга одной минуты аудио требуется примерно 9 часов. Это ограничивает количество песен, которые могут быть сгенерированы, и предотвращает использование модели в интерактивных приложениях.
Наконец, исследователи отметили, что образец набора данных в основном составлен на английском языке и отображает в основном западные музыкальные традиции. Исследователи ИИ могут сосредоточить будущие исследования на создании музыки на других языках и в незападных музыкальных стилях.
Заключение
Проект Jukebox подчеркивает растущую способность моделей машинного обучения создавать точные скрытые представления сложных данных, таких как необработанный звук. Подобные прорывы происходят и в тексте, как видно в таких проектах, как GPT-3и изображения, как показано в OpenAI ДАЛЛ-Э 2.
Хотя исследования в этой области были впечатляющими, по-прежнему существуют опасения по поводу прав интеллектуальной собственности и влияния этих моделей на творческие отрасли в целом. Исследователи и креативщики должны продолжать тесно сотрудничать, чтобы эти модели могли продолжать совершенствоваться.
Будущие генеративные музыкальные модели вскоре смогут выступать в качестве инструмента для музыкантов или приложения для творческих людей, которым нужна нестандартная музыка для проектов.
Оставьте комментарий