Կարո՞ղ եք արհեստական ինտելեկտի միջոցով ստեղծել ձեր սիրելի արտիստից նոր ձայնագրություն:
Մեքենայական ուսուցման վերջին հայտնագործությունները ցույց են տվել, որ մոդելներն այժմ ունակ են հասկանալու բարդ տվյալներ, ինչպիսիք են տեքստը և պատկերները: OpenAI-ի Jukebox-ն ապացուցում է, որ նույնիսկ երաժշտությունը կարելի է ճշգրիտ մոդելավորել նեյրոնային ցանցի միջոցով:
Երաժշտությունը մոդելավորման բարդ առարկա է: Դուք պետք է հաշվի առնեք ինչպես պարզ առանձնահատկությունները, ինչպիսիք են տեմպը, բարձրությունը և բարձրությունը, և ավելի բարդ առանձնահատկությունները, ինչպիսիք են բառերը, գործիքները և երաժշտական կառուցվածքը:
Օգտագործելով առաջադեմ Machine Learning OpenAI-ն գտել է չմշակված ձայնը ներկայացման ձևը, որը կարող են օգտագործել այլ մոդելներ:
Այս հոդվածը կբացատրի, թե ինչ կարող է անել Jukebox-ը, ինչպես է այն աշխատում և տեխնոլոգիայի ներկայիս սահմանափակումները:
Ի՞նչ է Jukebox AI-ն:
Յուկեբոքս OpenAI-ի նեյրոնային ցանցի մոդելն է, որը կարող է երաժշտություն առաջացնել երգելով: Մոդելը կարող է երաժշտություն արտադրել տարբեր ժանրերի և արտիստների ոճերում:
Օրինակ, Jukebox-ը կարող է արտադրել ռոք երգ Էլվիս Փրեսլիի ոճով կամ հիփ հոփ մեղեդի Քանյե Ուեսթի ոճով։ Դուք կարող եք այցելել սա կայքը ուսումնասիրելու համար, թե մոդելը որքանով է արդյունավետ ձեր սիրած երաժշտական կատարողների և ժանրերի ձայնը գրավելու համար:
Մոդելը որպես ներդրում պահանջում է ժանր, նկարիչ և բառեր: Այս մուտքագրումն առաջնորդում է մոդելին, որը պատրաստված է միլիոնավոր արվեստագետների և քնարական տվյալների վրա:
Ինչպե՞ս է աշխատում Jukebox-ը:
Եկեք տեսնենք, թե ինչպես է Jukebox-ին հաջողվում ստեղծել նոր հում ձայնագրություն միլիոնավոր երգերի վրա մարզված մոդելից:
Կոդավորման գործընթաց
Մինչ երաժշտության արտադրության որոշ մոդելներ օգտագործում են MIDI ուսուցման տվյալներ, Jukebox-ը վերապատրաստվում է իրական չմշակված աուդիո ֆայլի վրա: Ձայնը դիսկրետ տարածության մեջ սեղմելու համար Jukebox-ն օգտագործում է ավտոմատ կոդավորիչի մոտեցում, որը հայտնի է որպես VQ-VAE:
VQ-VAE նշանակում է Vector Quantized Variational Autoencoder, որը կարող է մի փոքր բարդ հնչել, ուստի եկեք բաժանենք այն:
Նախ, եկեք փորձենք հասկանալ, թե ինչ ենք ուզում անել այստեղ: Համեմատած բառերի կամ թերթերի երաժշտության հետ՝ չմշակված աուդիո ֆայլը շատ ավելի բարդ է: Եթե մենք ուզում ենք, որ մեր մոդելը «սովորի» երգերից, մենք ստիպված կլինենք այն վերածել ավելի սեղմված և պարզեցված ներկայացման: Մեջ Machine Learning, մենք անվանում ենք այս հիմքում ընկած ներկայացումը ա թաքնված տարածություն.
An ինքնակոդավորում չվերահսկվող ուսուցման տեխնիկա է, որն օգտագործում է ա նյարդային ցանց գտնել ոչ գծային թաքնված ներկայացումներ տվյալ տվյալների բաշխման համար: Ավտոկոդավորիչը բաղկացած է երկու մասից՝ կոդավորիչ և ապակոդավորիչ:
The encoder փորձում է գտնել թաքնված տարածությունը չմշակված տվյալների մի շարքից, մինչդեռ decoder օգտագործում է թաքնված ներկայացումը` փորձելով այն վերակառուցել իր սկզբնական ձևաչափով: Ինքնակոդավորիչը հիմնականում սովորում է, թե ինչպես սեղմել չմշակված տվյալները այնպես, որ նվազագույնի հասցվի վերակառուցման սխալը:
Այժմ, երբ մենք գիտենք, թե ինչ է անում autoencoder-ը, եկեք փորձենք հասկանալ, թե ինչ նկատի ունենք «վարիացիոն» ինքնակոդավորիչ ասելով: Տիպիկ ավտոկոդավորիչների համեմատ, տատանողական ինքնակոդավորիչները ավելացնում են թաքնված տարածության առաջ:
Առանց մաթեմատիկայի մեջ խորասուզվելու, հավանականային նախօրեին ավելացնելը թույլ է տալիս թաքնված բաշխումը սերտորեն սեղմված պահել: VAE-ի և VQ-VAE-ի հիմնական տարբերությունն այն է, որ վերջինս օգտագործում է դիսկրետ լատենտ ներկայացում, այլ ոչ թե շարունակական:
Յուրաքանչյուր VQ-VAE մակարդակ ինքնուրույն կոդավորում է մուտքագրումը: Ներքևի մակարդակի կոդավորումն ապահովում է ամենաբարձր որակի վերակառուցումը: Բարձր մակարդակի կոդավորումը պահպանում է հիմնական երաժշտական տեղեկատվությունը:
Օգտագործելով տրանսֆորմատորներ
Այժմ, երբ մենք ունենք VQ-VAE-ով կոդավորված երաժշտական կոդերը, կարող ենք փորձել երաժշտություն առաջացնել այս սեղմված դիսկրետ տարածության մեջ:
Jukebox-ը օգտագործում է ավտոռեգեսիվ տրանսֆորմատորներ ելքային աուդիո ստեղծելու համար: Տրանսֆորմատորները նեյրոնային ցանցերի մի տեսակ են, որոնք լավագույնս աշխատում են հաջորդական տվյալների հետ: Հաշվի առնելով նշանների հաջորդականությունը, տրանսֆորմատորային մոդելը կփորձի գուշակել հաջորդ նշանը:
Jukebox-ը օգտագործում է Sparse Transformers-ի պարզեցված տարբերակը: Երբ բոլոր նախկին մոդելները վերապատրաստվեն, տրանսֆորմատորը ստեղծում է սեղմված կոդեր, որոնք այնուհետև վերծանվում են հում ձայնի մեջ՝ օգտագործելով VQ-VAE ապակոդավորիչը:
Արտիստ և ժանրային կոնդիցիոներ Ջուկբոքսում
Jukebox-ի գեներատիվ մոդելն ավելի կառավարելի է դառնում՝ լրացուցիչ պայմանական ազդանշաններ տրամադրելով մարզման քայլի ընթացքում:
Առաջին մոդելները տրամադրվում են արտիստների և ժանրային պիտակների կողմից յուրաքանչյուր երգի համար: Սա նվազեցնում է աուդիո կանխատեսման էնտրոպիան և թույլ է տալիս մոդելին հասնել ավելի լավ որակի: Պիտակները նաև հնարավորություն են տալիս մոդելը ղեկավարել որոշակի ոճով:
Բացի նկարիչից և ժանրից, պարապմունքների ժամանակ ավելացվում են ժամանակի ազդանշաններ: Այս ազդանշանները ներառում են երգի երկարությունը, որոշակի նմուշի մեկնարկի ժամանակը և երգի մասնաբաժինը, որն անցել է: Այս լրացուցիչ տեղեկատվությունը օգնում է մոդելին հասկանալ ձայնային օրինաչափությունները, որոնք հիմնված են ընդհանուր կառուցվածքի վրա:
Օրինակ, մոդելը կարող է իմանալ, որ կենդանի երաժշտության համար ծափահարությունները տեղի են ունենում երգի վերջում: Մոդելը կարող է նաև սովորել, օրինակ, որ որոշ ժանրեր ավելի երկար գործիքային բաժիններ ունեն, քան մյուսները:
Բառերը
Նախորդ բաժնում նշված պայմանական մոդելներն ի վիճակի են գեներացնել տարբեր երգող ձայներ: Այնուամենայնիվ, այս ձայները հակված են լինել անհամապատասխան և անճանաչելի:
Որպեսզի վերահսկեն գեներատիվ մոդելը, երբ խոսքը վերաբերում է քնարերգության ստեղծմանը, հետազոտողները տրամադրում են ավելի շատ համատեքստ վերապատրաստման ժամանակ: Որպեսզի օգնեն քնարական տվյալները քարտեզագրել իրական ձայնի ժամանակի հետ, հետազոտողները օգտագործել են Սպլիտեր վոկալ հանել և NUS AutoLyricsAlign երգերի բառերի մակարդակով հավասարեցումներ ստանալու համար:
Jukebox մոդելի սահմանափակումները
Jukebox-ի հիմնական սահմանափակումներից մեկը ավելի մեծ երաժշտական կառույցների իմացությունն է: Օրինակ, 20 վայրկյանանոց կարճ հոլովակը կարող է տպավորիչ հնչել, բայց ունկնդիրները կնկատեն, որ կրկնվող խմբերգերի և հատվածների բնորոշ երաժշտական կառուցվածքը բացակայում է վերջնական արդյունքում:
Մոդելը նույնպես դանդաղ է ցուցադրվում: Մոտավորապես 9 ժամ է պահանջվում աուդիո մեկ րոպեի ամբողջական մատուցման համար: Սա սահմանափակում է երգերի քանակը, որոնք կարող են ստեղծվել և թույլ չի տալիս մոդելի օգտագործումը ինտերակտիվ հավելվածներում:
Վերջապես, հետազոտողները նշել են, որ նմուշի տվյալների հավաքածուն հիմնականում անգլերեն է և ցուցադրում է հիմնականում արևմտյան երաժշտության կոնվենցիաները: AI հետազոտողները կարող են ապագա հետազոտությունները կենտրոնացնել այլ լեզուներով և ոչ արևմտյան երաժշտական ոճերի երաժշտություն ստեղծելու վրա:
Եզրափակում
Jukebox նախագիծը ընդգծում է մեքենայական ուսուցման մոդելների աճող կարողությունները՝ ստեղծելու բարդ տվյալների ճշգրիտ գաղտնի ներկայացումներ, ինչպիսիք են հում ձայնը: Նմանատիպ առաջընթացներ են տեղի ունենում տեքստում, ինչպես երևում է նման նախագծերում GPT-3և պատկերներ, ինչպես երևում է OpenAI-ում DALL-E2.
Թեև այս տարածքում հետազոտությունը տպավորիչ է եղել, այնուամենայնիվ, մտավոր սեփականության իրավունքների և այդ մոդելների ազդեցության վերաբերյալ, որպես ամբողջություն, ստեղծագործական արդյունաբերության վրա կան մտահոգություններ: Հետազոտողները և ստեղծագործողները պետք է շարունակեն սերտորեն համագործակցել՝ ապահովելու համար, որ այս մոդելները կարող են շարունակել կատարելագործվել:
Ապագա գեներատիվ երաժշտության մոդելները շուտով կարող են գործել որպես գործիք երաժիշտների համար կամ որպես հավելված ստեղծագործողների համար, ովքեր նախագծերի համար հատուկ երաժշտության կարիք ունեն:
Թողնել գրառում