Оё шумо метавонед AI-ро барои эҷод кардани сабти нав аз рассоми дӯстдоштаи худ истифода баред?
Пешрафтҳои охирин дар омӯзиши мошинҳо нишон доданд, ки моделҳо ҳоло қодиранд маълумоти мураккабро ба мисли матн ва тасвирҳо дарк кунанд. Jukebox-и OpenAI собит мекунад, ки ҳатто мусиқиро метавон маҳз тавассути шабакаи нейронӣ моделсозӣ кард.
Мусиқӣ як объекти мураккабест барои моделсозӣ. Шумо бояд ҳам хусусиятҳои оддиро, аз қабили суръат, баландӣ ва баландӣ ва хусусиятҳои мураккабтарро, ба монанди матн, асбобҳо ва сохтори мусиқиро ба назар гиред.
Истифодаи пешрафта омӯзиши машқҳо техника, OpenAI роҳи табдил додани аудиои хомро ба намоише ёфт, ки моделҳои дигар метавонанд истифода баранд.
Ин мақола шарҳ медиҳад, ки Jukebox чӣ кор карда метавонад, он чӣ гуна кор мекунад ва маҳдудиятҳои кунунии технология.
Jukebox AI чист?
Ҷукебокс модели шабакаи нейрон аз ҷониби OpenAI мебошад, ки метавонад бо суруд мусиқӣ эҷод кунад. Модел метавонад мусиқӣ дар жанрҳои гуногун ва услубҳои рассомон тавлид кунад.
Масалан, Jukebox метавонад як суруди рокро бо сабки Элвис Пресли ё оҳанги хип-хоп ба сабки Канье Вест эҷод кунад. Шумо метавонед ба ин дидан кунед сомона то бифаҳмед, ки модел дар гирифтани садои рассомон ва жанрҳои мусиқии дӯстдоштаи шумо то чӣ андоза самаранок аст.
Модел ҳамчун воридот жанр, рассом ва матнро талаб мекунад. Ин вуруд ба моделеро роҳнамоӣ мекунад, ки аз рӯи миллионҳо рассомон ва маълумоти лирикӣ таълим дода шудааст.
Jukebox чӣ гуна кор мекунад?
Биёед бубинем, ки чӣ тавр Jukebox метавонад аудиои хомро аз моделе, ки дар миллионҳо сурудҳо таълим дода шудааст, тавлид кунад.
Раванди рамзгузорӣ
Дар ҳоле ки баъзе моделҳои насли мусиқӣ маълумоти омӯзиши MIDI-ро истифода мебаранд, Jukebox дар файли воқеии хоми аудио таълим дода мешавад. Барои фишурдани аудио ба фазои дискретӣ, Jukebox равиши худкори рамзгузорро истифода мебарад, ки бо номи VQ-VAE маъруф аст.
VQ-VAE маънои Autoencoder Quantized Variational Vector аст, ки метавонад каме мураккаб садо диҳад, бинобар ин биёед онро вайрон кунем.
Аввалан, биёед бифаҳмем, ки мо дар ин ҷо чӣ кор кардан мехоҳем. Дар муқоиса бо матн ё варақ, файли аудиои хом хеле мураккабтар аст. Агар мо хоҳем, ки модели мо аз сурудҳо "омӯзад", мо бояд онро ба тасвири фишурдашуда ва соддатар табдил диҳем. Дар омӯзиши машқҳо, мо ин намояндагии асосиро а меномем фазои пинҳонӣ.
An автоматӣ код як техникаи омӯзишии беназорат аст, ки а шабакаи нейралӣ барои дарёфти намояндагиҳои ғайрихаттии ниҳонӣ барои тақсимоти додашуда. Автокодер аз ду қисм иборат аст: рамзгузор ва декодер.
Дар рамзгузор мекӯшад, ки фазои ниҳонӣ аз маҷмӯи маълумоти хом пайдо кунад, дар ҳоле ки декодер Намояндагии ниҳонӣ истифода мебарад, то кӯшиш кунад, ки онро ба формати аслии худ барқарор кунад. Автокодер аслан чӣ гуна фишурдани маълумоти хомро меомӯзад, то хатогиҳои барқароркуниро кам кунад.
Акнун, ки мо медонем, ки автоматикодер чӣ кор мекунад, биёед бифаҳмем, ки тавассути автоматикодери "вариатсионӣ" чиро дар назар дорем. Дар муқоиса бо автоинкодерҳои маъмулӣ, автоинкодерҳои вариатсионӣ пеш аз фазои ниҳонӣ илова мекунанд.
Бе ғарқшавӣ ба математика, илова кардани пешакии эҳтимолӣ тақсимоти ниҳонӣро зич зич нигоҳ медорад. Тафовути асосии байни VAE ва VQ-VAE дар он аст, ки охирин намояндагии дискретии ниҳонӣ, на як доимиро истифода мебарад.
Ҳар як сатҳи VQ-VAE вурудро мустақилона рамзгузорӣ мекунад. Рамзгузории сатҳи поёнӣ таҷдиди баландсифатро ба вуҷуд меорад. Рамзгузории сатҳи боло маълумоти муҳими мусиқиро нигоҳ медорад.
Истифодаи трансформаторҳо
Акнун, ки мо рамзҳои мусиқии аз ҷониби VQ-VAE рамзкунонидашуда дорем, мо метавонем кӯшиш кунем эҷод кардани мусиқӣ дар ин фазои дискретии фишурда.
Jukebox истифода мебарад трансформаторҳои авторегрессивӣ барои эҷоди аудиои баромад. Трансформаторҳо як намуди шабакаи нейронӣ мебошанд, ки бо маълумоти пайдарпай беҳтарин кор мекунанд. Бо назардошти пайдарпайии аломатҳо, модели трансформатор кӯшиш мекунад, ки аломати ояндаро пешгӯӣ кунад.
Jukebox як варианти соддашудаи Transformers Sparse -ро истифода мебарад. Пас аз омӯзонидани ҳама моделҳои қаблӣ, трансформатор рамзҳои фишурдашуда тавлид мекунад, ки пас аз он бо истифода аз декодери VQ-VAE дубора ба аудиои хом рамзкушоӣ карда мешаванд.
Кондитсионер ва жанр дар Jukebox
Модели тавлидкунандаи Jukebox тавассути таъмини сигналҳои шартии иловагӣ дар марҳилаи омӯзиш бештар идорашаванда мешавад.
Моделҳои аввал аз ҷониби рассомон ва тамғакоғазҳои жанр барои ҳар як суруд пешниҳод карда мешаванд. Ин энтропияи пешгӯии аудиоиро коҳиш медиҳад ва ба модел имкон медиҳад, ки сифати беҳтарро ба даст орад. Тамғакоғазҳо инчунин ба мо имкон медиҳанд, ки моделро бо услуби мушаххас идора кунем.
Ба ғайр аз рассом ва жанр, сигналҳои вақт дар вақти омӯзиш илова карда мешаванд. Ин сигналҳо дарозии суруд, вақти оғози намунаи мушаххас ва қисми суруди гузаштаро дар бар мегиранд. Ин маълумоти иловагӣ ба модел дар фаҳмидани шаклҳои аудио, ки ба сохтори умумӣ такя мекунанд, кӯмак мекунад.
Масалан, модел метавонад фаҳмад, ки чапакзании мусиқии зинда дар охири суруд сурат мегирад. Модел инчунин метавонад, масалан, фаҳмад, ки баъзе жанрҳо нисбат ба дигарон қисмҳои инструменталӣ дарозтар доранд.
Lyrics
Моделҳои шартие, ки дар боби қаблӣ зикр шудаанд, қодиранд, ки овозҳои гуногуни сурудхониро тавлид кунанд. Аммо, ин овозҳо одатан номувофиқ ва шинохтанашавандаанд.
Барои назорат кардани модели тавлидкунанда, вақте ки сухан дар бораи насли лирик меравад, муҳаққиқон дар вақти омӯзиш контексти бештар медиҳанд. Барои кӯмак расонидан дар харитаи маълумоти лирикӣ ба вақт дар аудиои воқеӣ, муҳаққиқон истифода карданд Хуштар барои баровардани вокал ва NUS AutoLyricsAlign барои ба даст овардани мувофиқати сатҳи калимаҳои матн.
Маҳдудиятҳои модели Jukebox
Яке аз маҳдудиятҳои асосии Jukebox фаҳмиши он дар бораи сохторҳои мусиқии калонтар аст. Масалан, як клипи кӯтоҳи 20 сония аз баромад метавонад таъсирбахш садо диҳад, аммо шунавандагон пай хоҳанд бурд, ки сохтори мусиқии такрории хорҳо ва байтҳо дар баромади ниҳоӣ мавҷуд нест.
Модел инчунин суст нишон дода мешавад. Барои пурра намоиш додани як дақиқаи аудио тақрибан 9 соат вақт лозим аст. Ин шумораи сурудҳои тавлидшавандаро маҳдуд мекунад ва аз истифодаи модел дар барномаҳои интерактивӣ пешгирӣ мекунад.
Ниҳоят, муҳаққиқон қайд карданд, ки маҷмӯи маълумотҳои намунавӣ асосан ба забони англисӣ буда, асосан конвенсияҳои мусиқии ғарбиро нишон медиҳанд. Муҳаққиқони AI метавонанд таҳқиқоти ояндаро ба тавлиди мусиқӣ бо забонҳои дигар ва услубҳои мусиқии ғайриғарбӣ равона кунанд.
хулоса
Лоиҳаи Jukebox қобилияти афзояндаи моделҳои омӯзиши мошинро барои эҷоди тасвири дақиқи ниҳони маълумоти мураккаб ба монанди аудиои хом таъкид мекунад. Пешрафтҳои шабеҳ дар матн ба амал меоянд, ки дар лоиҳаҳо ба монанди GPT-3, ва тасвирҳо, тавре ки дар OpenAI дида мешавад DALL-E2.
Гарчанде ки тадқиқот дар ин фазо таъсирбахш буд, ҳанӯз ҳам нигарониҳо дар бораи ҳуқуқи моликияти зеҳнӣ ва таъсири ин моделҳо ба соҳаҳои эҷодӣ дар маҷмӯъ вуҷуд доранд. Тадқиқотчиён ва эҷодкорон бояд ҳамкории зичро идома диҳанд, то ин моделҳо минбаъд такмил дода шаванд.
Моделҳои мусиқии тавлидкунандаи оянда метавонанд ба зудӣ ҳамчун асбоб барои навозандагон ё барномае барои эҷодкороне, ки ба мусиқии фармоишӣ барои лоиҳа ниёз доранд, амал кунанд.
Дин ва мазҳаб