Jukebox AI - Стварэнне музыкі з дапамогай нейронавых сетак

Змест[Схаваць][Паказаць]

Што такое Jukebox AI?
Як працуе Jukebox?+-
Абмежаванні мадэлі Jukebox
заключэнне

Ці можаце вы выкарыстоўваць штучны інтэлект, каб стварыць новы запіс вашага любімага выканаўцы?

Нядаўнія прарывы ў машынным навучанні паказалі, што цяпер мадэлі здольныя разумець такія складаныя даныя, як тэкст і выявы. Jukebox ад OpenAI даказвае, што нават музыку можна дакладна змадэляваць нейронавай сеткай.

Музыка - складаны аб'ект для мадэлявання. Вы павінны прыняць да ўвагі як простыя функцыі, такія як тэмп, гучнасць і вышыня, так і больш складаныя функцыі, такія як тэкст, інструменты і музычная структура.

Выкарыстанне перадавых навучанне з дапамогай машыны метадаў, OpenAI знайшоў спосаб пераўтварыць неапрацаваны аўдыё ў прадстаўленне, якое могуць выкарыстоўваць іншыя мадэлі.

У гэтым артыкуле будзе растлумачана, што можа рабіць Jukebox, як ён працуе і бягучыя абмежаванні тэхналогіі.

Што такое Jukebox AI?

Jukebox гэта мадэль нейроннай сеткі ад OpenAI, якая можа ствараць музыку са спевам. Мадэль можа ствараць музыку ў розных жанрах і стылях выканаўцаў.

jukebox AI стварае песні ад вядомых выканаўцаў

Напрыклад, Jukebox можа стварыць рок-песню ў стылі Элвіса Прэслі або хіп-хоп у стылі Канье Уэста. Вы можаце наведаць гэта сайт каб даведацца, наколькі эфектыўная гэтая мадэль для ўлоўлівання гуку вашых любімых музычных выканаўцаў і жанраў.

Мадэль патрабуе ўводу жанру, выканаўцы і тэксту. Гэтыя ўводныя дадзеныя накіроўваюць мадэль, падрыхтаваную на мільёнах выканаўцаў і даных тэкстаў песень.

Як працуе Jukebox?

Давайце паглядзім, як Jukebox атрымоўваецца ствараць новае неапрацаванае аўдыё з мадэлі, навучанай на мільёнах песень.

Працэс кадавання

У той час як некаторыя мадэлі генерацыі музыкі выкарыстоўваюць навучальныя дадзеныя MIDI, Jukebox навучаецца на рэальным неапрацаваным аўдыяфайле. Каб сціснуць аўдыё ў асобную прастору, Jukebox выкарыстоўвае падыход аўтаматычнага кадавальніка, вядомы як VQ-VAE.

VQ-VAE расшыфроўваецца як Vector Quantized Variational Autoencoder, што можа здацца крыху складаным, так што давайце разбярэм.

Спачатку давайце паспрабуем зразумець, што мы хочам тут зрабіць. У параўнанні з тэкстамі песень або нотамі, неапрацаваны аўдыяфайл значна больш складаны. Калі мы хочам, каб наша мадэль «вучылася» на песнях, нам давядзецца пераўтварыць яе ў больш сціснутае і спрошчанае ўяўленне. У навучанне з дапамогай машыны, мы называем гэта асноўнае прадстаўленне a латэнтная прастора.

латэнтная прастора - гэта сціснутая версія выбаркі ўводу

An аўтаматычнае кадзіраванне гэта некантраляваны метад навучання, які выкарыстоўвае a нейронных сеткі знайсці нелінейныя схаваныя ўяўленні для дадзенага размеркавання даных. Аўтакадавальнік складаецца з дзвюх частак: кадавальнік і дэкодэр.

,en кодэр спрабуе знайсці ўтоеную прастору з набору неапрацаваных даных, пакуль дэкодэр выкарыстоўвае схаванае прадстаўленне, каб паспрабаваць аднавіць яго назад у зыходны фармат. Аўтакадавальнік па сутнасці вучыцца сціскаць неапрацаваныя даныя такім чынам, каб мінімізаваць памылку рэканструкцыі.

Цяпер, калі мы ведаем, што робіць аўтакадавальнік, давайце паспрабуем зразумець, што мы маем на ўвазе пад «варыяцыйным» аўтакадавальнікам. У параўнанні з тыповымі аўтакадавальнікамі, варыяцыйныя аўтакадавальнікі дадаюць апрыор да схаванай прасторы.

Не паглыбляючыся ў матэматыку, даданне імавернаснага апрыорнага значэння захоўвае ўшчыльненае схаванае размеркаванне. Асноўнае адрозненне паміж VAE і VQ-VAE заключаецца ў тым, што апошні выкарыстоўвае дыскрэтнае схаванае прадстаўленне, а не бесперапыннае. схема архітэктуры штучнага інтэлектуальнага аўтамата для кадавання і дэкадавання

Кожны ўзровень VQ-VAE незалежна кадуе ўваход. Кадаванне ніжняга ўзроўню забяспечвае найбольш якасную рэканструкцыю. Кадзіроўка верхняга ўзроўню захоўвае важную музычную інфармацыю.

З дапамогай трансформераў

jukebox AI выкарыстоўвае трансфарматары для стварэння наступнага аўдыякліпа ў трэку

Цяпер, калі ў нас ёсць музычныя коды, закадаваныя VQ-VAE, мы можам паспрабаваць ствараць музыку у гэтай сціснутай дыскрэтнай прасторы.

Jukebox выкарыстоўвае авторегрессионные трансфарматары каб стварыць выхадны гук. Трансфарматары - гэта тып нейронных сетак, якія лепш за ўсё працуюць з паслядоўнымі дадзенымі. Улічваючы паслядоўнасць токенаў, мадэль трансфарматара паспрабуе прадказаць наступны токен.

Jukebox выкарыстоўвае спрошчаны варыянт Sparse Transformers. Пасля навучання ўсіх папярэдніх мадэляў трансфарматар генеруе сціснутыя коды, якія затым дэкадуюцца назад у неапрацаваны аўдыё з дапамогай дэкодэра VQ-VAE.

Выканаўца і жанравыя кандыцыі ў Jukebox

пачатковая мадэль AI jukebox спрабуе зразумець, як песня гучыць у пэўным жанры або выканаўцы

Генератыўная мадэль Jukebox стала больш кіраванай шляхам прадастаўлення дадатковых умоўных сігналаў на этапе навучання.

Першыя мадэлі прадстаўлены выканаўцамі і жанравымі этыкеткамі для кожнай песні. Гэта зніжае энтрапію прагназавання гуку і дазваляе мадэлі дасягнуць лепшай якасці. Этыкеткі таксама дазваляюць накіраваць мадэль у пэўны стыль.

Акрамя выканаўцы і жанру падчас навучання дадаюцца сігналы часу. Гэтыя сігналы ўключаюць працягласць песні, час пачатку пэўнага сэмпла і долю песні, якая прайшла. Гэтая дадатковая інфармацыя дапамагае мадэлі разумець аўдыяшаблоны, якія абапіраюцца на агульную структуру.

Напрыклад, мадэль можа даведацца, што апладысменты пад жывую музыку адбываюцца ў канцы песні. Мадэль таксама можа даведацца, напрыклад, што некаторыя жанры маюць больш доўгія інструментальныя часткі, чым іншыя.

лірыка

Умоўныя мадэлі, згаданыя ў папярэднім раздзеле, здольныя генераваць розныя спеўныя галасы. Аднак гэтыя галасы, як правіла, нязвязныя і непазнавальныя.

Каб кантраляваць генератыўную мадэль, калі справа даходзіць да стварэння лірыкі, даследчыкі даюць больш кантэксту падчас навучання. Даследчыкі выкарыстоўвалі, каб супаставіць тэкставыя даныя з часам фактычнага аўдыя Бліжэй для здабывання вакалу і NUS AutoLyricsAlign каб атрымаць выраўноўванне тэкстаў песень на ўзроўні слоў.

Абмежаванні мадэлі Jukebox

Адным з асноўных абмежаванняў Jukebox з'яўляецца яго разуменне больш шырокіх музычных структур. Напрыклад, кароткі 20-секундны кліп з выхаду можа здацца ўражлівым, але слухачы заўважаць, што ў канчатковым выніку адсутнічае тыповая музычная структура паўтаральных прыпеваў і куплетаў.

Мадэль таксама павольна рэндэрыруецца. Каб цалкам прайграць адну хвіліну аўдыя, патрабуецца каля 9 гадзін. Гэта абмяжоўвае колькасць песень, якія можна стварыць, і прадухіляе выкарыстанне мадэлі ў інтэрактыўных праграмах.

Нарэшце, даследчыкі адзначылі, што выбарка дадзеных у асноўным на англійскай мове і адлюстроўвае ў асноўным заходнія музычныя канвенцыі. Даследчыкі штучнага інтэлекту могуць сканцэнтраваць будучыя даследаванні на стварэнні музыкі на іншых мовах і ў незаходніх музычных стылях.

заключэнне

Праект Jukebox падкрэслівае растучую здольнасць мадэляў машыннага навучання ствараць дакладныя схаваныя прадстаўленні складаных даных, такіх як неапрацаваны аўдыя. Падобныя прарывы адбываюцца і ў тэксце, што можна ўбачыць у такіх праектах, як GPT-3, і выявы, як відаць у OpenAI АД-Е 2.

Нягледзячы на тое, што даследаванні ў гэтай галіне былі ўражлівымі, па-ранейшаму існуюць заклапочанасць наконт правоў інтэлектуальнай уласнасці і ўплыву гэтых мадэляў на творчыя індустрыі ў цэлым. Даследчыкі і творцы павінны працягваць цесна супрацоўнічаць, каб гарантаваць, што гэтыя мадэлі могуць працягваць удасканальвацца.

Будучыя генератыўныя музычныя мадэлі неўзабаве могуць служыць інструментам для музыкаў або праграмай для крэатыўных людзей, якім патрэбна спецыяльная музыка для праектаў.

Jukebox AI - стварэнне музыкі з дапамогай нейронавых сетак

Што такое Jukebox AI?