Дали можете да користите вештачка интелигенција за да создадете нова плоча од вашиот омилен изведувач?
Неодамнешните откритија во машинското учење покажаа дека моделите сега се способни да разберат сложени податоци како текст и слики. Џубоксот на OpenAI докажува дека дури и музиката може да се моделира прецизно со невронска мрежа.
Музиката е комплексен објект за моделирање. Треба да ги земете предвид и едноставните карактеристики како што се темпото, гласноста и тонот и посложените карактеристики како текстот, инструментите и музичката структура.
Користење на напредни машинско учење техники, OpenAI најде начин да го претвори необработеното аудио во претстава што може да ја користат другите модели.
Оваа статија ќе објасни што може да направи Џубокс, како функционира и тековните ограничувања на технологијата.
Што е Jukebox AI?
Џубокс е модел на нервна мрежа на OpenAI што може да генерира музика со пеење. Моделот може да произведува музика во различни жанрови и стилови на уметници.
На пример, Џубокс може да произведе рок песна во стилот на Елвис Присли или хип хоп мелодија во стилот на Канје Вест. Можете да го посетите ова да истражите колку е ефикасен моделот во снимањето на звукот на вашите омилени музички уметници и жанрови.
Моделот бара жанр, уметник и стихови како влез. Овој влез води модел кој е обучен на милиони уметници и лирски податоци.
Како функционира Џубокс?
Ајде да погледнеме како Џубокс успева да генерира нов необработен звук од модел обучен на милиони песни.
Процес на кодирање
Додека некои модели за генерирање музика користат податоци за обука на MIDI, Џубокс е обучен на вистинската необработена аудио датотека. За да го компресира звукот во дискретен простор, Jukebox користи пристап за авто-енкодер познат како VQ-VAE.
VQ-VAE е кратенка за Векторски квантизиран варијациски автоенкодер, што може да звучи малку комплицирано, па ајде да го разложиме.
Прво, да се обидеме да разбереме што сакаме да правиме овде. Во споредба со стиховите или листовите, необработената аудио датотека е многу посложена. Ако сакаме нашиот модел да „учи“ од песните, ќе мораме да го трансформираме во покомпресирано и поедноставно претставување. Во машинско учење, ние го нарекуваме ова основно претставување a латентен простор.
An автоенкодер е техника за учење без надзор која користи а невронска мрежа да се најдат нелинеарни латентни претстави за дадена дистрибуција на податоци. Автокодерот се состои од два дела: енкодер и декодер.
на енкодер се обидува да го пронајде латентниот простор од збир на необработени податоци додека декодер ја користи латентната претстава за да се обиде да ја реконструира назад во неговиот оригинален формат. Автоенкодерот во суштина учи како да ги компресира необработените податоци на таков начин што ќе ја минимизира грешката при реконструкција.
Сега кога знаеме што прави автоенкодерот, ајде да се обидеме да разбереме што подразбираме под „варијационален“ автоенкодер. Во споредба со типичните автоенкодери, варијационите автоенкодери додаваат пред латентниот простор.
Без нуркање во математиката, додавањето на веројатност пред ја одржува латентната дистрибуција тесно набиена. Главната разлика помеѓу VAE и VQ-VAE е тоа што вториот користи дискретно латентно претставување наместо континуирано.
Секое VQ-VAE ниво независно го кодира влезот. Кодирањето на долниот степен произведува реконструкција со највисок квалитет. Кодирањето од највисоко ниво ги задржува основните музички информации.
Користење на трансформатори
Сега кога ги имаме музичките кодови кодирани од VQ-VAE, можеме да се обидеме генерира музика во овој компримиран дискретен простор.
Џубокс користи авторегресивни трансформатори за да го креирате излезниот звук. Трансформаторите се тип на невронска мрежа која најдобро функционира со секвенционирани податоци. Со оглед на низа токени, трансформаторскиот модел ќе се обиде да го предвиди следниот токен.
Џубокс користи поедноставена варијанта на Sparse Transformers. Откако ќе се обучат сите претходни модели, трансформаторот генерира компресирани кодови кои потоа се декодираат назад во необработено аудио со помош на декодерот VQ-VAE.
Уметник и жанрско уредување во Џубокс
Генеративниот модел на Џубокс е поконтролиран со обезбедување дополнителни условни сигнали за време на чекорот за обука.
Првите модели се обезбедени од уметници и жанровски етикети за секоја песна. Ова ја намалува ентропијата на аудио предвидувањето и му овозможува на моделот да постигне подобар квалитет. Етикетите исто така ни овозможуваат да го управуваме моделот во одреден стил.
Покрај уметникот и жанрот, сигналите за тајминг се додаваат за време на тренингот. Овие сигнали ја вклучуваат должината на песната, времето на започнување на одреден примерок и делот од песната што поминала. Овие дополнителни информации му помагаат на моделот да ги разбере аудио обрасците што се потпираат на целокупната структура.
На пример, моделот може да научи дека аплаузот за музика во живо се случува на крајот од песната. Моделот исто така може да научи, на пример, дека некои жанрови имаат подолги инструментални делови од другите.
Коментари за оваа песна
Условните модели споменати во претходниот дел се способни да генерираат разновидни гласови за пеење. Сепак, овие гласови имаат тенденција да бидат некохерентни и непрепознатливи.
За да го контролираат генеративниот модел кога станува збор за генерирање на лирска, истражувачите обезбедуваат повеќе контекст за време на обуката. За да помогнат во мапирањето на лирските податоци со времето на вистинското аудио, истражувачите користеа Слејтер да извлече вокали и NUS AutoLyrics Align за да се добијат усогласувања на стиховите на ниво на збор.
Ограничувања на моделот Џубокс
Едно од главните ограничувања на Џубокс е неговото разбирање за поголемите музички структури. На пример, краток клип од 20 секунди од излезот може да звучи импресивно, но слушателите ќе забележат дека типичната музичка структура на рефрени и стихови што се повторуваат отсуствува во финалниот излез.
Моделот исто така бавно се рендерира. Потребни се приближно 9 часа за целосно прикажување на една минута звук. Ова го ограничува бројот на песни што може да се генерираат и го спречува моделот да се користи во интерактивни апликации.
Конечно, истражувачите забележаа дека примерокот на податоци е првенствено на англиски јазик и ги прикажува првенствено западните музички конвенции. Истражувачите на вештачката интелигенција можат да ги фокусираат идните истражувања на генерирање музика на други јазици и незападни музички стилови.
Заклучок
Проектот Џубокс ја нагласува растечката способност на моделите за машинско учење да создаваат точни латентни претстави на сложени податоци како што е необработениот звук. Слични откритија се случуваат во текстот, како што се гледа во проекти како GPT-3, и слики, како што се гледа во OpenAI's ДАЛ-Е2.
Иако истражувањето во овој простор беше импресивно, сè уште постои загриженост за правата на интелектуална сопственост и влијанието што овие модели може да го имаат врз креативните индустрии како целина. Истражувачите и креативците треба да продолжат тесно да соработуваат за да се осигураат дека овие модели можат да продолжат да се подобруваат.
Идните генеративни музички модели можеби наскоро ќе можат да дејствуваат како алатка за музичарите или како апликација за креативци на кои им е потребна приспособена музика за проекти.
Оставете Одговор