Сүйікті орындаушының жаңа жазбасын жасау үшін AI пайдалана аласыз ба?
Машиналық оқытудағы соңғы жетістіктер модельдер мәтін және кескіндер сияқты күрделі деректерді түсінуге қабілетті екенін көрсетті. OpenAI Jukebox тіпті музыканы нейрондық желі арқылы дәл модельдеуге болатындығын дәлелдейді.
Музыка – модельдеуге болатын күрделі объект. Темп, қаттылық және дыбыс биіктігі сияқты қарапайым мүмкіндіктерді де, мәтіндер, аспаптар және музыкалық құрылым сияқты күрделірек мүмкіндіктерді де ескеру қажет.
Жетілдірілген пайдалану машина оқыту әдістерін қолданып, OpenAI өңделмеген дыбысты басқа модельдер пайдалана алатын көрініске түрлендіру жолын тапты.
Бұл мақала Jukebox не істей алатынын, оның қалай жұмыс істейтінін және технологияның ағымдағы шектеулерін түсіндіреді.
Jukebox AI дегеніміз не?
Jukebox ән айту арқылы музыканы шығара алатын OpenAI компаниясының нейрондық желі моделі. Модель әр түрлі жанрларда және әртістер стилінде музыка шығара алады.
Мысалы, Jukebox Элвис Пресли стиліндегі рок әнін немесе Kanye West стиліндегі хип-хоп әуенін шығара алады. Сіз бұл жерге кіре аласыз сайтқа модельдің сүйікті музыкалық әртістеріңіз бен жанрларыңыздың дыбысын түсіруде қаншалықты тиімді екенін зерттеу.
Модель енгізу ретінде жанр, суретші және ән мәтінін талап етеді. Бұл кіріс миллиондаған әртістер мен лирикалық деректер бойынша дайындалған үлгіні бағыттайды.
Jukebox қалай жұмыс істейді?
Jukebox миллиондаған әндерге үйретілген модельден жаңа шикі дыбысты қалай жасай алатынын қарастырайық.
Кодтау процесі
Кейбір музыканы құру үлгілері MIDI оқыту деректерін пайдаланса, Jukebox нақты өңделмеген аудио файлында оқытылады. Дыбысты дискретті кеңістікке қысу үшін Jukebox VQ-VAE деп аталатын автоматты кодтау әдісін пайдаланады.
VQ-VAE Векторлық квантталған вариациялық автокодер дегенді білдіреді, ол сәл күрделі болып көрінуі мүмкін, сондықтан оны бөлшектеп көрейік.
Алдымен, мұнда не істегіміз келетінін түсінуге тырысайық. Ән мәтінімен немесе нотамен салыстырғанда, өңделмеген аудио файлы әлдеқайда күрделі. Егер біз үлгімізді әндерден «үйренуін» қаласақ, біз оны неғұрлым қысылған және жеңілдетілген бейнеге айналдыруымыз керек. жылы машина оқыту, біз бұл негізгі көріністі a деп атаймыз жасырын кеңістік.
An автокодер a қолданатын бақылаусыз оқыту әдісі болып табылады нейрондық желі берілген мәліметтерді тарату үшін сызықты емес жасырын көріністерді табу. Автокодер екі бөліктен тұрады: кодер және дешифратор.
The кодтаушы кезінде шикі деректер жинағынан жасырын кеңістікті табуға тырысады Декодер оны бастапқы пішіміне қайтаруға әрекет жасау үшін жасырын көріністі пайдаланады. Автокодер бастапқы деректерді қайта құру қатесін азайтатындай сығу жолын үйренеді.
Енді біз автокодер не істейтінін білген соң, «вариациялық» автокодер дегенді түсінуге тырысайық. Кәдімгі автокодерлермен салыстырғанда, вариациялық автокодерлер жасырын кеңістікке дейін қосады.
Математикаға сүңгусіз, ықтималдықты қосу жасырын үлестіруді тығыз тығыздатады. VAE мен VQ-VAE арасындағы негізгі айырмашылық мынада: соңғысы үздіксіз емес, дискретті жасырын көріністі пайдаланады.
Әрбір VQ-VAE деңгейі кірісті дербес кодтайды. Төменгі деңгейдегі кодтау жоғары сапалы қайта құруды береді. Жоғарғы деңгейлі кодтау маңызды музыкалық ақпаратты сақтайды.
Трансформаторларды қолдану
Енді бізде VQ-VAE арқылы кодталған музыкалық кодтар бар, біз әрекет жасай аламыз музыка жасау осы қысылған дискретті кеңістікте.
Jukebox пайдаланады авторегрессивті трансформаторлар шығыс дыбысын жасау үшін. Трансформаторлар – тізбектелген деректермен жақсы жұмыс істейтін нейрондық желінің түрі. Токендердің тізбегін ескере отырып, трансформатор үлгісі келесі таңбалауышты болжауға тырысады.
Jukebox Sparse Transformers бағдарламасының жеңілдетілген нұсқасын пайдаланады. Барлық алдыңғы үлгілер оқытылғаннан кейін, трансформатор сығылған кодтарды жасайды, содан кейін олар VQ-VAE декодері арқылы өңделмеген дыбысқа қайта декодталады.
Jukebox ішіндегі суретші мен жанрдың кондиционері
Jukebox генеративті моделі жаттығу қадамы кезінде қосымша шартты сигналдар беру арқылы басқарылатын болады.
Алғашқы үлгілерді әр ән үшін әртістер мен жанрлық белгілер береді. Бұл аудио болжамының энтропиясын азайтады және модельге жақсырақ сапаға қол жеткізуге мүмкіндік береді. Белгілер сонымен қатар үлгіні белгілі бір стильде басқаруға мүмкіндік береді.
Суретші мен жанрдан басқа, жаттығу уақытында уақыт сигналдары қосылады. Бұл сигналдар әннің ұзақтығын, белгілі бір үлгінің басталу уақытын және өткен әннің бөлігін қамтиды. Бұл қосымша ақпарат модельге жалпы құрылымға негізделген дыбыс үлгілерін түсінуге көмектеседі.
Мысалы, модель жанды музыка үшін шапалақ әннің соңында болатынын білуі мүмкін. Модель сонымен қатар, мысалы, кейбір жанрлардың басқаларға қарағанда ұзағырақ аспаптық бөлімдері бар екенін біле алады.
Lyrics
Алдыңғы бөлімде айтылған шартты модельдер әр түрлі ән айту дауыстарын жасауға қабілетті. Дегенмен, бұл дауыстар үйлесімсіз және танылмайтын болады.
Лирикалық генерацияға қатысты генеративті модельді басқару үшін зерттеушілер жаттығу уақытында көбірек контекст береді. Лирикалық деректерді нақты дыбыстағы уақытпен салыстыруға көмектесу үшін зерттеушілер қолданды Сүлеймен вокал шығару және NUS AutoLyricsAlign мәтіннің сөз деңгейіндегі туралануын алу.
Jukebox моделінің шектеулері
Jukebox-тың негізгі шектеулерінің бірі - оның үлкен музыкалық құрылымдарды түсінуі. Мысалы, шығарылымның 20 секундтық қысқа үзіндісі әсерлі естілуі мүмкін, бірақ тыңдаушылар соңғы шығарылымда қайталанатын хорлар мен өлеңдердің әдеттегі музыкалық құрылымы жоқ екенін байқайды.
Модельді көрсету де баяу. Бір минуттық дыбысты толығымен көрсету үшін шамамен 9 сағат қажет. Бұл жасалуы мүмкін әндердің санын шектейді және модельдің интерактивті қолданбаларда пайдаланылуына жол бермейді.
Соңында, зерттеушілер үлгі деректер жинағы негізінен ағылшын тілінде екенін және негізінен батыстық музыкалық конвенцияларды көрсететінін атап өтті. AI зерттеушілері болашақтағы зерттеулерді басқа тілдерде және батыстық емес музыка стильдерінде музыка жасауға бағыттай алады.
қорытынды
Jukebox жобасы өңделмеген аудио сияқты күрделі деректердің дәл жасырын көріністерін жасау үшін машиналық оқыту үлгілерінің өсіп келе жатқан мүмкіндігін көрсетеді. сияқты жобаларда көрінетіндей, мәтінде осындай серпілістер орын алуда GPT-3, және OpenAI-де көрсетілгендей кескіндер DALL-E2.
Бұл кеңістіктегі зерттеулер әсерлі болғанымен, зияткерлік меншік құқығы және бұл модельдердің жалпы шығармашылық салаларға әсері туралы алаңдаушылық әлі де бар. Зерттеушілер мен шығармашылық тұлғалар осы үлгілердің жетілдірілуін қамтамасыз ету үшін тығыз ынтымақтастықты жалғастыруы керек.
Болашақ генеративті музыка үлгілері жақын арада музыканттар үшін құрал немесе жобалар үшін теңшелетін музыканы қажет ететін шығармашылықтар үшін қолданба ретінде әрекет ете алады.
пікір қалдыру