Чи можете ви за допомогою штучного інтелекту створити нову платівку свого улюбленого виконавця?
Нещодавні прориви в машинному навчанні показали, що моделі тепер здатні розуміти складні дані, такі як текст і зображення. Jukebox від OpenAI доводить, що навіть музику можна точно моделювати за допомогою нейронної мережі.
Музика – складний об’єкт для моделювання. Ви повинні брати до уваги як прості характеристики, такі як темп, гучність і висота, так і складніші характеристики, такі як слова, інструменти та музична структура.
Використання розширеного навчання за допомогою машини OpenAI знайшов спосіб перетворити необроблений аудіо на представлення, яке можуть використовувати інші моделі.
У цій статті пояснюється, що може робити Jukebox, як він працює та поточні обмеження технології.
Що таке Jukebox AI?
Jukebox це модель нейронної мережі від OpenAI, яка може генерувати музику зі співом. Модель може створювати музику в різних жанрах і стилях виконавців.
Наприклад, Jukebox може створити рок-пісню в стилі Елвіса Преслі або хіп-хоп мелодію в стилі Каньє Веста. Ви можете відвідати це сайт щоб дослідити, наскільки ефективна модель для захоплення звучання ваших улюблених музичних виконавців і жанрів.
Модель потребує введення жанру, виконавця та тексту. Ці вхідні дані керують моделлю, навченою на мільйонах виконавців і даних пісень.
Як працює Jukebox?
Давайте подивимося, як Jukebox вдається генерувати новий необроблений аудіо з моделі, навченої на мільйонах пісень.
Процес кодування
У той час як деякі моделі створення музики використовують навчальні дані MIDI, Jukebox навчається на фактичному необробленому аудіофайлі. Щоб стиснути аудіо в окремий простір, Jukebox використовує підхід автоматичного кодування, відомий як VQ-VAE.
VQ-VAE означає Vector Quantized Variational Autoencoder, що може здатися дещо складним, тому давайте розберемо це.
По-перше, давайте спробуємо зрозуміти, що ми хочемо тут зробити. Порівняно з текстами пісень або нотами, необроблений аудіофайл є значно складнішим. Якщо ми хочемо, щоб наша модель «вчилася» на піснях, нам доведеться перетворити її на більш стиснуте та спрощене представлення. в навчання за допомогою машини, ми називаємо це базове представлення a латентний простір.
An автокодер це техніка навчання без нагляду, яка використовує a нейронної мережі знайти нелінійні приховані представлення для даного розподілу даних. Автокодер складається з двох частин: кодера та декодера.
Команда кодіровщік намагається знайти прихований простір із набору необроблених даних, поки декодер використовує латентне представлення, щоб спробувати реконструювати його назад у вихідний формат. По суті, автокодер вивчає, як стискати необроблені дані таким чином, щоб мінімізувати помилку реконструкції.
Тепер, коли ми знаємо, що робить автокодер, давайте спробуємо зрозуміти, що ми маємо на увазі під «варіаційним» автокодером. У порівнянні зі звичайними автокодерами, варіаційні автокодери додають перед латентним простором.
Не занурюючись у математику, додавання імовірнісного априору зберігає латентний розподіл ущільненим. Основна відмінність між VAE і VQ-VAE полягає в тому, що останній використовує дискретне приховане представлення, а не безперервне.
Кожен рівень VQ-VAE незалежно кодує вхідний сигнал. Кодування нижнього рівня забезпечує найякіснішу реконструкцію. Кодування верхнього рівня зберігає важливу музичну інформацію.
Використання трансформерів
Тепер, коли у нас є музичні коди, закодовані VQ-VAE, ми можемо спробувати створювати музику у цьому стиснутому дискретному просторі.
Jukebox використовує авторегресійні трансформатори щоб створити вихідний аудіо. Трансформери — це тип нейронної мережі, яка найкраще працює з послідовними даними. Маючи послідовність токенів, модель трансформатора намагатиметься передбачити наступний токен.
Jukebox використовує спрощений варіант Sparse Transformers. Після навчання всіх попередніх моделей трансформатор генерує стислі коди, які потім декодуються назад у необроблений аудіо за допомогою декодера VQ-VAE.
Виконавець і жанрові умови в Jukebox
Генеруюча модель Jukebox стала більш керованою за рахунок надання додаткових умовних сигналів під час кроку навчання.
Перші моделі надаються виконавцями та жанровими мітками для кожної пісні. Це зменшує ентропію аудіопрогнозування та дозволяє моделі досягти кращої якості. Етикетки також дозволяють нам керувати моделлю в певному стилі.
Окрім виконавця та жанру, під час навчання додаються сигнали часу. Ці сигнали включають тривалість пісні, час початку певного семплу та частину пісні, яка пройшла. Ця додаткова інформація допомагає моделі зрозуміти звукові шаблони, які залежать від загальної структури.
Наприклад, модель може дізнатися, що оплески живої музики відбуваються в кінці пісні. Модель також може дізнатися, наприклад, що деякі жанри мають довші інструментальні частини, ніж інші.
лірика
Умовні моделі, згадані в попередньому розділі, здатні генерувати різноманітні співочі голоси. Однак ці голоси, як правило, незв'язні та невпізнавані.
Щоб контролювати генеративну модель, коли йдеться про створення лірики, дослідники надають більше контексту під час навчання. Дослідники використовували, щоб допомогти зіставити дані лірики з часом фактичного аудіо Пишніше витягти вокал і NUS AutoLyricsAlign щоб отримати вирівнювання текстів пісень на рівні слів.
Обмеження моделі Jukebox
Одним із головних обмежень Jukebox є його розуміння більших музичних структур. Наприклад, короткий 20-секундний кліп виходу може звучати вражаюче, але слухачі помітять, що типова музична структура повторюваних приспівів і куплетів відсутня в кінцевому виході.
Модель також повільно рендериться. Щоб повністю відтворити одну хвилину аудіо, потрібно приблизно 9 годин. Це обмежує кількість пісень, які можна створити, і запобігає використанню моделі в інтерактивних програмах.
Нарешті, дослідники відзначили, що вибірка даних складається в основному англійською мовою та відображає переважно західні музичні конвенції. Дослідники ШІ можуть зосередити майбутні дослідження на створенні музики іншими мовами та незахідними музичними стилями.
Висновок
Проект Jukebox підкреслює зростаючу здатність моделей машинного навчання створювати точні приховані представлення складних даних, таких як необроблений аудіо. Подібні прориви відбуваються в тексті, як видно в таких проектах, як GPT-3та зображення, як це видно в OpenAI ВІД-Є 2.
Незважаючи на те, що дослідження в цій сфері були вражаючими, все ще існують занепокоєння щодо прав інтелектуальної власності та впливу, який ці моделі можуть мати на креативні галузі в цілому. Дослідники та творці повинні продовжувати тісно співпрацювати, щоб гарантувати подальше вдосконалення цих моделей.
Майбутні генеративні музичні моделі незабаром зможуть виступати як інструмент для музикантів або як додаток для творчих людей, яким потрібна власна музика для проектів.
залишити коментар