Можете ли да користите вештачку интелигенцију да креирате нову плочу од свог омиљеног извођача?
Недавна открића у машинском учењу показала су да су модели сада способни да разумеју сложене податке као што су текст и слике. ОпенАИ-јев џубокс доказује да чак и музику може прецизно моделовати неуронска мрежа.
Музика је сложен објекат за моделирање. Морате узети у обзир и једноставне карактеристике као што су темпо, гласноћа и висина и сложеније карактеристике као што су текстови, инструменти и музичка структура.
Коришћење напредних Машина учење ОпенАИ је пронашао начин да претвори сирови звук у репрезентацију коју други модели могу да користе.
Овај чланак ће објаснити шта Џубокс може да уради, како функционише и тренутна ограничења технологије.
Шта је Јукебок АИ?
Јукебок је ОпенАИ модел неуронске мреже који може да генерише музику певањем. Модел може да производи музику у различитим жанровима и стиловима уметника.
На пример, Џубокс може да произведе рок песму у стилу Елвиса Прислија или хип хоп мелодију у стилу Кање Веста. Можете посетити ово да истражите колико је модел ефикасан у снимању звука ваших омиљених музичких уметника и жанрова.
Модел захтева жанр, уметника и текстове као улаз. Овај унос води модел обучен на милионима уметника и података о стиховима.
Како функционише џубокс?
Хајде да погледамо како џубокс успева да генерише нови необрађени звук од модела обученог на милионима песама.
Процес кодирања
Док неки модели музичке генерације користе МИДИ податке за обуку, џубокс се обучава на стварној необрађеној аудио датотеци. За компримовање звука у дискретни простор, Јукебок користи приступ аутоматског кодирања познат као ВК-ВАЕ.
ВК-ВАЕ је скраћеница за Вецтор Куантизед Вариатион Аутоенцодер, што би могло звучати мало компликовано, па хајде да га разложимо.
Прво, хајде да покушамо да разумемо шта желимо да урадимо овде. У поређењу са текстовима или нотним записима, необрађени аудио фајл је много сложенији. Ако желимо да наш модел „учи“ из песама, мораћемо да га трансформишемо у компримованију и поједностављену репрезентацију. У Машина учење, ово основно представљање називамо а латентни простор.
An аутоенцодер је техника учења без надзора која користи а неуронска мрежа да пронађе нелинеарне латентне репрезентације за дату дистрибуцију података. Аутокодер се састоји од два дела: енкодера и декодера.
енкодер покушава да пронађе латентни простор из скупа необрађених података док се декодер користи латентну репрезентацију да покуша да је реконструише назад у оригинални формат. Аутокодер у суштини учи како да компримује необрађене податке на такав начин да минимизира грешку реконструкције.
Сада када знамо шта ради аутоматски кодер, покушајмо да разумемо шта подразумевамо под „варијационим“ аутокодером. У поређењу са типичним аутоматским кодерима, варијациони аутоматски енкодери додају пре латентном простору.
Без урањања у математику, додавање вероватноће претходно одржава латентну дистрибуцију блиско сабијеном. Главна разлика између ВАЕ и ВК-ВАЕ је у томе што овај други користи дискретну латентну репрезентацију, а не континуирану.
Сваки ВК-ВАЕ ниво независно кодира улаз. Кодирање доњег нивоа производи реконструкцију највишег квалитета. Кодирање највишег нивоа задржава битне музичке информације.
Коришћење трансформатора
Сада када имамо музичке кодове кодиране помоћу ВК-ВАЕ, можемо покушати генерише музику у овом компримованом дискретном простору.
Џубокс користи ауторегресивни трансформатори за креирање излазног звука. Трансформатори су врста неуронске мреже која најбоље функционише са секвенцираним подацима. С обзиром на низ токена, модел трансформатора ће покушати да предвиди следећи токен.
Џубокс користи поједностављену варијанту Спарсе Трансформерс. Када су сви претходни модели обучени, трансформатор генерише компресоване кодове који се затим декодирају назад у сирови звук помоћу ВК-ВАЕ декодера.
Уметник и жанровски условљавање у џубоксу
Генеративни модел Џубокса је учињен више контролисаним пружањем додатних условних сигнала током корака обуке.
Прве моделе обезбеђују уметници и жанровске етикете за сваку песму. Ово смањује ентропију аудио предвиђања и омогућава моделу да постигне бољи квалитет. Ознаке нам такође омогућавају да управљамо моделом у одређеном стилу.
Поред извођача и жанра, током тренинга се додају и временски сигнали. Ови сигнали укључују дужину песме, време почетка одређеног узорка и део песме који је прошао. Ове додатне информације помажу моделу да разуме аудио обрасце који се ослањају на целокупну структуру.
На пример, модел може научити да се аплауз за живу музику дешава на крају песме. Модел такође може научити, на пример, да неки жанрови имају дуже инструменталне деонице од других.
текстови
Условљени модели поменути у претходном одељку су способни да генеришу различите гласове за певање. Међутим, ови гласови имају тенденцију да буду некохерентни и непрепознатљиви.
Да би контролисали генеративни модел када је у питању генерисање лирике, истраживачи пружају више контекста током тренинга. Истраживачи су користили како би помогли у мапирању података о стиховима са временом на стварном звуку Сплеетер да извуче вокал и НУС АутоЛирицсАлигн да добијете поравнања стихова на нивоу речи.
Ограничења модела џубокса
Једно од главних ограничења џубокса је његово разумевање већих музичких структура. На пример, кратак 20-секундни снимак излаза може звучати импресивно, али слушаоци ће приметити да типична музичка структура рефрена и стихова који се понављају одсутна у коначном резултату.
Модел се такође споро приказује. Потребно је око 9 сати да се у потпуности прикаже један минут звука. Ово ограничава број песама које се могу генерисати и спречава да се модел користи у интерактивним апликацијама.
На крају, истраживачи су приметили да је скуп података узорка првенствено на енглеском и приказује првенствено западне музичке конвенције. Истраживачи вештачке интелигенције могу да фокусирају будућа истраживања на генерисање музике на другим језицима и незападњачким музичким стиловима.
Zakljucak
Пројекат Јукебок наглашава растућу способност модела машинског учења да креирају тачне латентне репрезентације сложених података као што је необрађени звук. Слични помаци се дешавају у тексту, што се види у пројектима попут РУЦЕНТЕР-КСНУМКС, и слике, као што се види у ОпенАИ ДАЛЛ-Е2.
Иако су истраживања у овом простору била импресивна, и даље постоји забринутост око права интелектуалне својине и утицаја који ови модели могу имати на креативне индустрије у целини. Истраживачи и креативци би требало да наставе да блиско сарађују како би осигурали да ови модели могу наставити да се побољшавају.
Будући генеративни музички модели ће ускоро моћи да делују као алат за музичаре или као апликација за креативце којима је потребна прилагођена музика за пројекте.
Ostavite komentar