Jukebox AI - Նյարդային ցանցերի միջոցով երաժշտություն ստեղծելը

Բառը[Թաքցնել][Ցուցադրում]

Ի՞նչ է Jukebox AI-ն:
Ինչպե՞ս է աշխատում Jukebox-ը:+-
Jukebox մոդելի սահմանափակումները
Եզրափակում

Կարո՞ղ եք արհեստական ինտելեկտի միջոցով ստեղծել ձեր սիրելի արտիստից նոր ձայնագրություն:

Մեքենայական ուսուցման վերջին հայտնագործությունները ցույց են տվել, որ մոդելներն այժմ ունակ են հասկանալու բարդ տվյալներ, ինչպիսիք են տեքստը և պատկերները: OpenAI-ի Jukebox-ն ապացուցում է, որ նույնիսկ երաժշտությունը կարելի է ճշգրիտ մոդելավորել նեյրոնային ցանցի միջոցով:

Երաժշտությունը մոդելավորման բարդ առարկա է: Դուք պետք է հաշվի առնեք ինչպես պարզ առանձնահատկությունները, ինչպիսիք են տեմպը, բարձրությունը և բարձրությունը, և ավելի բարդ առանձնահատկությունները, ինչպիսիք են բառերը, գործիքները և երաժշտական կառուցվածքը:

Օգտագործելով առաջադեմ Machine Learning OpenAI-ն գտել է չմշակված ձայնը ներկայացման ձևը, որը կարող են օգտագործել այլ մոդելներ:

Այս հոդվածը կբացատրի, թե ինչ կարող է անել Jukebox-ը, ինչպես է այն աշխատում և տեխնոլոգիայի ներկայիս սահմանափակումները:

Ի՞նչ է Jukebox AI-ն:

Յուկեբոքս OpenAI-ի նեյրոնային ցանցի մոդելն է, որը կարող է երաժշտություն առաջացնել երգելով: Մոդելը կարող է երաժշտություն արտադրել տարբեր ժանրերի և արտիստների ոճերում:

jukebox AI-ն ստեղծում է հայտնի արտիստների երգեր

Օրինակ, Jukebox-ը կարող է արտադրել ռոք երգ Էլվիս Փրեսլիի ոճով կամ հիփ հոփ մեղեդի Քանյե Ուեսթի ոճով։ Դուք կարող եք այցելել սա կայքը ուսումնասիրելու համար, թե մոդելը որքանով է արդյունավետ ձեր սիրած երաժշտական կատարողների և ժանրերի ձայնը գրավելու համար:

Մոդելը որպես ներդրում պահանջում է ժանր, նկարիչ և բառեր: Այս մուտքագրումն առաջնորդում է մոդելին, որը պատրաստված է միլիոնավոր արվեստագետների և քնարական տվյալների վրա:

Ինչպե՞ս է աշխատում Jukebox-ը:

Եկեք տեսնենք, թե ինչպես է Jukebox-ին հաջողվում ստեղծել նոր հում ձայնագրություն միլիոնավոր երգերի վրա մարզված մոդելից:

Կոդավորման գործընթաց

Մինչ երաժշտության արտադրության որոշ մոդելներ օգտագործում են MIDI ուսուցման տվյալներ, Jukebox-ը վերապատրաստվում է իրական չմշակված աուդիո ֆայլի վրա: Ձայնը դիսկրետ տարածության մեջ սեղմելու համար Jukebox-ն օգտագործում է ավտոմատ կոդավորիչի մոտեցում, որը հայտնի է որպես VQ-VAE:

VQ-VAE նշանակում է Vector Quantized Variational Autoencoder, որը կարող է մի փոքր բարդ հնչել, ուստի եկեք բաժանենք այն:

Նախ, եկեք փորձենք հասկանալ, թե ինչ ենք ուզում անել այստեղ: Համեմատած բառերի կամ թերթերի երաժշտության հետ՝ չմշակված աուդիո ֆայլը շատ ավելի բարդ է: Եթե մենք ուզում ենք, որ մեր մոդելը «սովորի» երգերից, մենք ստիպված կլինենք այն վերածել ավելի սեղմված և պարզեցված ներկայացման: Մեջ Machine Learning, մենք անվանում ենք այս հիմքում ընկած ներկայացումը ա թաքնված տարածություն.

թաքնված տարածությունը նմուշի մուտքագրման սեղմված տարբերակն է

An ինքնակոդավորում չվերահսկվող ուսուցման տեխնիկա է, որն օգտագործում է ա նյարդային ցանց գտնել ոչ գծային թաքնված ներկայացումներ տվյալ տվյալների բաշխման համար: Ավտոկոդավորիչը բաղկացած է երկու մասից՝ կոդավորիչ և ապակոդավորիչ:

The encoder փորձում է գտնել թաքնված տարածությունը չմշակված տվյալների մի շարքից, մինչդեռ decoder օգտագործում է թաքնված ներկայացումը` փորձելով այն վերակառուցել իր սկզբնական ձևաչափով: Ինքնակոդավորիչը հիմնականում սովորում է, թե ինչպես սեղմել չմշակված տվյալները այնպես, որ նվազագույնի հասցվի վերակառուցման սխալը:

Այժմ, երբ մենք գիտենք, թե ինչ է անում autoencoder-ը, եկեք փորձենք հասկանալ, թե ինչ նկատի ունենք «վարիացիոն» ինքնակոդավորիչ ասելով: Տիպիկ ավտոկոդավորիչների համեմատ, տատանողական ինքնակոդավորիչները ավելացնում են թաքնված տարածության առաջ:

Առանց մաթեմատիկայի մեջ խորասուզվելու, հավանականային նախօրեին ավելացնելը թույլ է տալիս թաքնված բաշխումը սերտորեն սեղմված պահել: VAE-ի և VQ-VAE-ի հիմնական տարբերությունն այն է, որ վերջինս օգտագործում է դիսկրետ լատենտ ներկայացում, այլ ոչ թե շարունակական: jukebox AI-ի ճարտարապետության դիագրամ կոդավորման և վերծանման համար

Յուրաքանչյուր VQ-VAE մակարդակ ինքնուրույն կոդավորում է մուտքագրումը: Ներքևի մակարդակի կոդավորումն ապահովում է ամենաբարձր որակի վերակառուցումը: Բարձր մակարդակի կոդավորումը պահպանում է հիմնական երաժշտական տեղեկատվությունը:

Օգտագործելով տրանսֆորմատորներ

jukebox AI-ն օգտագործում է տրանսֆորմատորներ՝ ուղու հաջորդ աուդիո հոլովակը ստեղծելու համար

Այժմ, երբ մենք ունենք VQ-VAE-ով կոդավորված երաժշտական կոդերը, կարող ենք փորձել երաժշտություն առաջացնել այս սեղմված դիսկրետ տարածության մեջ:

Jukebox-ը օգտագործում է ավտոռեգեսիվ տրանսֆորմատորներ ելքային աուդիո ստեղծելու համար: Տրանսֆորմատորները նեյրոնային ցանցերի մի տեսակ են, որոնք լավագույնս աշխատում են հաջորդական տվյալների հետ: Հաշվի առնելով նշանների հաջորդականությունը, տրանսֆորմատորային մոդելը կփորձի գուշակել հաջորդ նշանը:

Jukebox-ը օգտագործում է Sparse Transformers-ի պարզեցված տարբերակը: Երբ բոլոր նախկին մոդելները վերապատրաստվեն, տրանսֆորմատորը ստեղծում է սեղմված կոդեր, որոնք այնուհետև վերծանվում են հում ձայնի մեջ՝ օգտագործելով VQ-VAE ապակոդավորիչը:

Արտիստ և ժանրային կոնդիցիոներ Ջուկբոքսում

Ջուկբոքսի AI-ի սկզբնական մոդելը փորձում է հասկանալ, թե ինչպես է երգը հնչում կոնկրետ ժանրի կամ արտիստի նման

Jukebox-ի գեներատիվ մոդելն ավելի կառավարելի է դառնում՝ լրացուցիչ պայմանական ազդանշաններ տրամադրելով մարզման քայլի ընթացքում:

Առաջին մոդելները տրամադրվում են արտիստների և ժանրային պիտակների կողմից յուրաքանչյուր երգի համար: Սա նվազեցնում է աուդիո կանխատեսման էնտրոպիան և թույլ է տալիս մոդելին հասնել ավելի լավ որակի: Պիտակները նաև հնարավորություն են տալիս մոդելը ղեկավարել որոշակի ոճով:

Բացի նկարիչից և ժանրից, պարապմունքների ժամանակ ավելացվում են ժամանակի ազդանշաններ: Այս ազդանշանները ներառում են երգի երկարությունը, որոշակի նմուշի մեկնարկի ժամանակը և երգի մասնաբաժինը, որն անցել է: Այս լրացուցիչ տեղեկատվությունը օգնում է մոդելին հասկանալ ձայնային օրինաչափությունները, որոնք հիմնված են ընդհանուր կառուցվածքի վրա:

Օրինակ, մոդելը կարող է իմանալ, որ կենդանի երաժշտության համար ծափահարությունները տեղի են ունենում երգի վերջում: Մոդելը կարող է նաև սովորել, օրինակ, որ որոշ ժանրեր ավելի երկար գործիքային բաժիններ ունեն, քան մյուսները:

Բառերը

Նախորդ բաժնում նշված պայմանական մոդելներն ի վիճակի են գեներացնել տարբեր երգող ձայներ: Այնուամենայնիվ, այս ձայները հակված են լինել անհամապատասխան և անճանաչելի:

Որպեսզի վերահսկեն գեներատիվ մոդելը, երբ խոսքը վերաբերում է քնարերգության ստեղծմանը, հետազոտողները տրամադրում են ավելի շատ համատեքստ վերապատրաստման ժամանակ: Որպեսզի օգնեն քնարական տվյալները քարտեզագրել իրական ձայնի ժամանակի հետ, հետազոտողները օգտագործել են Սպլիտեր վոկալ հանել և NUS AutoLyricsAlign երգերի բառերի մակարդակով հավասարեցումներ ստանալու համար:

Jukebox մոդելի սահմանափակումները

Jukebox-ի հիմնական սահմանափակումներից մեկը ավելի մեծ երաժշտական կառույցների իմացությունն է: Օրինակ, 20 վայրկյանանոց կարճ հոլովակը կարող է տպավորիչ հնչել, բայց ունկնդիրները կնկատեն, որ կրկնվող խմբերգերի և հատվածների բնորոշ երաժշտական կառուցվածքը բացակայում է վերջնական արդյունքում:

Մոդելը նույնպես դանդաղ է ցուցադրվում: Մոտավորապես 9 ժամ է պահանջվում աուդիո մեկ րոպեի ամբողջական մատուցման համար: Սա սահմանափակում է երգերի քանակը, որոնք կարող են ստեղծվել և թույլ չի տալիս մոդելի օգտագործումը ինտերակտիվ հավելվածներում:

Վերջապես, հետազոտողները նշել են, որ նմուշի տվյալների հավաքածուն հիմնականում անգլերեն է և ցուցադրում է հիմնականում արևմտյան երաժշտության կոնվենցիաները: AI հետազոտողները կարող են ապագա հետազոտությունները կենտրոնացնել այլ լեզուներով և ոչ արևմտյան երաժշտական ոճերի երաժշտություն ստեղծելու վրա:

Եզրափակում

Jukebox նախագիծը ընդգծում է մեքենայական ուսուցման մոդելների աճող կարողությունները՝ ստեղծելու բարդ տվյալների ճշգրիտ գաղտնի ներկայացումներ, ինչպիսիք են հում ձայնը: Նմանատիպ առաջընթացներ են տեղի ունենում տեքստում, ինչպես երևում է նման նախագծերում GPT-3և պատկերներ, ինչպես երևում է OpenAI-ում DALL-E2.

Թեև այս տարածքում հետազոտությունը տպավորիչ է եղել, այնուամենայնիվ, մտավոր սեփականության իրավունքների և այդ մոդելների ազդեցության վերաբերյալ, որպես ամբողջություն, ստեղծագործական արդյունաբերության վրա կան մտահոգություններ: Հետազոտողները և ստեղծագործողները պետք է շարունակեն սերտորեն համագործակցել՝ ապահովելու համար, որ այս մոդելները կարող են շարունակել կատարելագործվել:

Ապագա գեներատիվ երաժշտության մոդելները շուտով կարող են գործել որպես գործիք երաժիշտների համար կամ որպես հավելված ստեղծագործողների համար, ովքեր նախագծերի համար հատուկ երաժշտության կարիք ունեն:

Jukebox AI – Ստեղծում է երաժշտություն՝ օգտագործելով նեյրոնային ցանցեր

Ի՞նչ է Jukebox AI-ն: