Գրադիենտ ծագման ալգորիթմի օրինակներ

Մենք բախվում ենք օպտիմիզացման խնդիրներին իրական աշխարհի բազմաթիվ հանգամանքներում, երբ մենք պետք է որոշենք ֆունկցիայի նվազագույնը կամ առավելագույնը:

Համարեք, որ ֆունկցիան հանդիսանում է համակարգի մաթեմատիկական ներկայացում, և դրա նվազագույնի կամ առավելագույնի որոշումը կարող է կարևոր լինել մի շարք ծրագրերի համար, ինչպիսիք են մեքենայական ուսուցումը, ճարտարագիտությունը, ֆինանսները և այլն:

Դիտարկենք բլուրներով և հովիտներով լանդշաֆտը, և մեր նպատակն է գտնել ամենացածր կետը (նվազագույնը), որպեսզի հնարավորինս արագ հասնենք մեր նպատակակետին:

Մենք հաճախ օգտագործում ենք գրադիենտ ծագման ալգորիթմներ՝ օպտիմիզացման նման մարտահրավերները լուծելու համար: Այս ալգորիթմները կրկնվող օպտիմիզացման մեթոդներ են՝ ֆունկցիան նվազագույնի հասցնելու համար՝ քայլեր ձեռնարկելով ամենից կտրուկ վայրէջքի ուղղությամբ (բացասական գրադիենտ):

Գրադիենտը արտացոլում է ուղղությունը՝ ֆունկցիայի ամենադաժան աճով, իսկ հակառակ ուղղությամբ ճանապարհորդելը մեզ տանում է նվազագույնի:

Ի՞նչ է իրականում գրադիենտ ծագման ալգորիթմը:

Գրադիենտ ծագումը տարածված կրկնվող օպտիմալացման մոտեցում է ֆունկցիայի նվազագույնը (կամ առավելագույնը) որոշելու համար:

Այն կարևոր գործիք է մի քանի ոլորտներում, այդ թվում Machine Learning, խորը ուսուցում, արհեստական ինտելեկտ, ճարտարագիտություն և ֆինանսներ։

Ալգորիթմի հիմնական սկզբունքը հիմնված է գրադիենտի օգտագործման վրա, որը ցույց է տալիս ֆունկցիայի արժեքի ամենասուր աճի ուղղությունը։

Ալգորիթմը արդյունավետ կերպով նավարկում է ֆունկցիայի լանդշաֆտը դեպի նվազագույնը` բազմիցս քայլեր կատարելով հակառակ ուղղությամբ, ինչպես գրադիենտը, կրկնելով լուծումը մինչև կոնվերգենցիան:

Ինչու՞ ենք մենք օգտագործում գրադիենտ ծագման ալգորիթմներ:

Սկզբի համար դրանք կարող են օգտագործվել օպտիմիզացման մի շարք խնդիրների լուծման համար, այդ թվում՝ մեծաչափ տարածություններով և բարդ ֆունկցիաներով:

Երկրորդ, նրանք կարող են արագ գտնել օպտիմալ լուծումներ, հատկապես, երբ վերլուծական լուծումն անհասանելի է կամ հաշվողականորեն թանկ է:

Գրադիենտ վայրէջքի տեխնիկան շատ լայնածավալ է և կարող է հաջողությամբ կարգավորել տվյալների հսկայական հավաքածուներ:

Արդյունքում, նրանք լայնորեն օգտագործվում են մեքենայի ուսուցման ալգորիթմներ ինչպես նեյրոնային ցանցերի վարժեցումը՝ տվյալներից սովորելու և դրանց պարամետրերը փոփոխելու՝ կանխատեսման սխալները նվազագույնի հասցնելու համար:

Գրադիենտ վայրէջքի աստիճանների մանրամասն օրինակ

Դիտարկենք ավելի մանրամասն օրինակ՝ գրադիենտ վայրէջքի տեխնիկան ավելի լավ հասկանալու համար:

Դիտարկենք f(x) = x2 2D ֆունկցիան, որն առաջացնում է հիմնական պարաբոլիկ կոր՝ նվազագույնը (0,0): Այս նվազագույն կետը որոշելու համար կօգտագործվի գրադիենտ վայրէջքի ալգորիթմը:

Քայլ 1. Նախնականացում

Գրադիենտ ծագման ալգորիթմը սկսվում է x փոփոխականի արժեքի սկզբնավորմամբ, որը ներկայացված է x0 տեսքով:

Սկզբնական արժեքը կարող է զգալի ազդեցություն ունենալ ալգորիթմի աշխատանքի վրա:

Պատահական սկզբնավորումը կամ խնդրի վերաբերյալ նախնական գիտելիքների օգտագործումը երկու ընդհանուր տեխնիկա են: Ենթադրենք, որ x₀ = 3 մեր գործի սկզբում:

Քայլ 2. Հաշվարկել գրադիենտը

F(x) ֆունկցիայի գրադիենտը ներկա x₀ դիրքում: այնուհետև պետք է հաշվարկվի:

Գրադիենտը ցույց է տալիս տվյալ դիրքում ֆունկցիայի թեքությունը կամ փոփոխության արագությունը:

Մենք հաշվում ենք x-ին վերաբերող ածանցյալը f(x) = x2 ֆունկցիայի համար, որն ապահովում է f'(x) = 2x: Մենք ստանում ենք գրադիենտ x0-ում որպես 2 * 3 = 6՝ գրադիենտի հաշվարկում փոխարինելով x₀ = 3:

Քայլ 3. Պարամետրերի թարմացում

Օգտագործելով գրադիենտ տեղեկատվությունը, մենք թարմացնում ենք x-ի արժեքը հետևյալ կերպ. x = x₀ – α * f'(x₀), որտեղ α (ալֆա) նշանակում է սովորելու արագությունը:

Ուսուցման արագությունը հիպերպարամետր է, որը որոշում է թարմացման գործընթացի յուրաքանչյուր քայլի չափը: Ուսուցման համապատասխան արագության սահմանումը շատ կարևոր է, քանի որ դանդաղ ուսուցման արագությունը կարող է առաջացնել ալգորիթմ չափից շատ կրկնություններ կատարել՝ նվազագույնին հասնելու համար:

Մյուս կողմից, ուսուցման բարձր մակարդակը կարող է հանգեցնել ալգորիթմի թռիչքի կամ չհամընկնելուն: Եկեք այս օրինակի համար ենթադրենք α = 0.1 ուսուցման արագություն:

Քայլ 4. Կրկնել

Այն բանից հետո, երբ մենք կունենանք x-ի թարմացված արժեքը, մենք կրկնում ենք 2-րդ և 3-րդ քայլերը կանխորոշված թվով կրկնությունների համար կամ մինչև x-ի փոփոխությունը դառնա նվազագույն՝ ցույց տալով կոնվերգենցիան:

Մեթոդը հաշվարկում է գրադիենտը, թարմացնում է x-ի արժեքը և շարունակում ընթացակարգը յուրաքանչյուր կրկնության ժամանակ՝ թույլ տալով մոտենալ նվազագույնին:

Քայլ 5. Կոնվերգենցիա

Տեխնիկան մի քանի կրկնություններից հետո համընկնում է մի կետի, որտեղ հետագա թարմացումները էականորեն չեն ազդում ֆունկցիայի արժեքի վրա:

Մեր դեպքում, քանի որ կրկնությունները շարունակվում են, x-ը կմոտենա 0-ին, որը f(x) = x^2-ի նվազագույն արժեքն է: Կոնվերգենցիայի համար անհրաժեշտ կրկնությունների քանակը որոշվում է այնպիսի գործոններով, ինչպիսիք են ընտրված ուսուցման արագությունը և օպտիմիզացված ֆունկցիայի բարդությունը:
Գրադիենտ ծագման օրինակ

Ուսուցման մակարդակի ընտրություն ()

Ուսուցման ընդունելի տեմպերի () ընտրությունը կարևոր է գրադիենտ ծագման ալգորիթմի արդյունավետության համար: Ինչպես նախկինում ասվեց, ուսուցման ցածր մակարդակը կարող է դանդաղ կոնվերգենցիա առաջացնել, մինչդեռ ուսուցման բարձր մակարդակը կարող է առաջացնել գերակատարում և չհամընկնել:

Համապատասխան հավասարակշռություն գտնելը կարևոր է ապահովելու համար, որ ալգորիթմը հնարավորինս արդյունավետ կերպով համընկնի նախատեսված նվազագույնին:

Ուսուցման մակարդակի կարգավորումը հաճախ գործնականում փորձարկման և սխալի ընթացակարգ է: Հետազոտողները և պրակտիկանտները պարբերաբար փորձարկում են ուսուցման տարբեր տեմպերով, որպեսզի տեսնեն, թե ինչպես են դրանք ազդում ալգորիթմի մերձեցման վրա իրենց կոնկրետ մարտահրավերի վրա:

Ոչ ուռուցիկ գործառույթների կառավարում

Մինչ նախորդ օրինակն ուներ պարզ ուռուցիկ ֆունկցիա, իրական աշխարհի օպտիմալացման շատ խնդիրներ ներառում են ոչ ուռուցիկ ֆունկցիաներ՝ բազմաթիվ տեղական նվազագույններով:

Նման դեպքերում գրադիենտ վայրէջք օգտագործելիս մեթոդը կարող է համընկնել տեղական նվազագույնի, այլ ոչ թե գլոբալ նվազագույնի:

Այս խնդիրը հաղթահարելու համար մշակվել են գրադիենտ վայրէջքի մի քանի առաջադեմ ձևեր: Stochastic Gradient Descent-ը (SGD) նման մեթոդներից մեկն է, որը ներկայացնում է պատահականությունը՝ ընտրելով տվյալների կետերի պատահական ենթաբազմություն (հայտնի է որպես մինի-խմբաքանակ)՝ գրադիենտը յուրաքանչյուր կրկնության ժամանակ հաշվարկելու համար:

Այս պատահական նմուշառումը թույլ է տալիս ալգորիթմին խուսափել տեղական նվազագույնից և ուսումնասիրել ֆունկցիայի տեղանքի նոր հատվածները՝ մեծացնելով ավելի լավ նվազագույնը հայտնաբերելու հնարավորությունները:

Ադամը (Adaptive Moment Estimation) ևս մեկ նշանավոր տարբերակ է, որը հարմարվողական ուսուցման արագության օպտիմալացման մոտեցում է, որը ներառում է ինչպես RMSprop-ի, այնպես էլ իմպուլսի առավելությունները:

Ադամը փոփոխում է յուրաքանչյուր պարամետրի ուսուցման արագությունը դինամիկ կերպով՝ հիմնվելով նախորդ գրադիենտ տեղեկատվության վրա, ինչը կարող է հանգեցնել ոչ ուռուցիկ ֆունկցիաների ավելի լավ կոնվերգենցիայի:

Այս բարդ գրադիենտ ծագման տատանումները ապացուցել են, որ արդյունավետ են ավելի ու ավելի բարդ գործառույթների հետ աշխատելու համար և դարձել են ստանդարտ գործիքներ մեքենայական ուսուցման և խորը ուսուցման մեջ, որտեղ ոչ ուռուցիկ օպտիմալացման խնդիրները սովորական են:

Քայլ 6. Պատկերացրեք ձեր առաջընթացը

Եկեք տեսնենք գրադիենտ ծագման ալգորիթմի առաջընթացը, որպեսզի ավելի լավ պատկերացում կազմենք դրա կրկնվող գործընթացի մասին: Դիտարկենք գրաֆիկ, որտեղ x-առանցքը ներկայացնում է կրկնություններ և y առանցք, որը ներկայացնում է f(x) ֆունկցիայի արժեքը:

Երբ ալգորիթմը կրկնվում է, x-ի արժեքը մոտենում է զրոյին, և արդյունքում ֆունկցիայի արժեքը նվազում է յուրաքանչյուր քայլի հետ: Երբ գծագրվում է գրաֆիկի վրա, սա կցուցաբերի հստակ նվազման միտում՝ արտացոլելով ալգորիթմի առաջընթացը նվազագույնին հասնելու ուղղությամբ:

Քայլ 7. Ուսուցման մակարդակի ճշգրտում

Ուսուցման արագությունը () ալգորիթմի աշխատանքի կարևոր գործոն է: Գործնականում, ուսուցման իդեալական մակարդակը որոշելը հաճախ պահանջում է փորձություն և սխալ:

Որոշ օպտիմալացման մեթոդներ, ինչպիսիք են ուսուցման արագության գրաֆիկները, կարող են դինամիկ կերպով փոխել ուսուցման արագությունը վերապատրաստման ընթացքում՝ սկսելով ավելի բարձր արժեքից և աստիճանաբար նվազեցնելով այն, երբ ալգորիթմը մոտենում է կոնվերգենցիայի:

Այս մեթոդը օգնում է հավասարակշռություն հաստատել սկզբում արագ զարգացման և օպտիմալացման գործընթացի ավարտին մոտ կայունության միջև:

Մեկ այլ օրինակ. Քառակուսային ֆունկցիայի նվազագույնի հասցնել

Դիտարկենք մեկ այլ օրինակ՝ գրադիենտ վայրէջքի մասին ավելի լավ հասկանալու համար:

Դիտարկենք g(x) = (x – 5)^2 երկչափ քառակուսի ֆունկցիան: x = 5-ում այս ֆունկցիան նույնպես ունի նվազագույնը: Այս նվազագույնը գտնելու համար մենք կկիրառենք գրադիենտ անկում:

1. Նախնականացում. եկեք սկսենք x0 = 8-ից որպես մեր ելակետ:

2. Հաշվե՛ք g(x) գրադիենտը՝ g'(x) = 2(x – 5): Երբ մենք փոխարինում ենք x0 = 8, գրադիենտը x0-ում 2 * (8 – 5) = 6 է:

3. Ուսուցման մակարդակով = 0.2, մենք թարմացնում ենք x-ը հետևյալ կերպ. x = x₀ – α * g'(x₀) = 8 – 0.2 * 6 = 6.8:

4. Կրկնել. Մենք կրկնում ենք 2-րդ և 3-րդ քայլերը այնքան անգամ, որքան անհրաժեշտ է, մինչև հասնենք կոնվերգենցիային: Յուրաքանչյուր ցիկլ x-ը մոտեցնում է 5-ին, g(x) = (x – 5)2 նվազագույն արժեքը:

5. Կոնվերգենցիա. մեթոդը ի վերջո կմիանա x = 5-ին, որը g(x) = (x – 5)2-ի նվազագույն արժեքն է:

Ուսուցման տեմպերի համեմատություն

Եկեք համեմատենք գրադիենտ վայրէջքի կոնվերգենցիայի արագությունը տարբեր ուսուցման տեմպերի համար, ասենք α = 0.1, α = 0.2 և α = 0.5 մեր նոր օրինակում: Մենք կարող ենք տեսնել, որ ուսուցման ավելի ցածր մակարդակը (օրինակ՝ = 0.1) կհանգեցնի ավելի երկար կոնվերգենցիայի, բայց ավելի ճշգրիտ նվազագույնի:

Ուսուցման ավելի բարձր տեմպը (օրինակ՝ = 0.5) ավելի արագ կմիանա, բայց կարող է գերազանցել կամ տատանվել նվազագույնի շուրջ, ինչը հանգեցնում է ավելի ցածր ճշգրտության:

Ոչ ուռուցիկ գործառույթների կառավարման մուլտիմոդալ օրինակ

Դիտարկենք h(x) = sin(x) + 0.5x, ոչ ուռուցիկ ֆունկցիա:

Այս ֆունկցիայի համար կան մի քանի տեղական նվազագույն և առավելագույն չափեր: Կախված մեկնարկային դիրքից և սովորելու արագությունից, մենք կարող ենք մերձենալ ցանկացած տեղական նվազագույնի` օգտագործելով ստանդարտ գրադիենտ վայրէջք:

Մենք կարող ենք լուծել դա՝ օգտագործելով ավելի առաջադեմ օպտիմալացման մեթոդներ, ինչպիսիք են Ադամը կամ ստոխաստիկ գրադիենտ ծագումը (SGD): Այս մեթոդները օգտագործում են ուսուցման հարմարվողական տեմպերը կամ պատահական ընտրանքը՝ ֆունկցիայի լանդշաֆտի տարբեր շրջանները ուսումնասիրելու համար՝ մեծացնելով ավելի լավ նվազագույնի հասնելու հավանականությունը:

Եզրափակում

Գրադիենտ ծագման ալգորիթմները օպտիմիզացման հզոր գործիքներ են, որոնք լայնորեն կիրառվում են ոլորտների լայն շրջանակում: Նրանք հայտնաբերում են ֆունկցիայի ամենացածրը (կամ առավելագույնը)՝ պարբերաբար թարմացնելով պարամետրերը՝ հիմնվելով գրադիենտի ուղղության վրա:

Ալգորիթմի կրկնվող բնույթի պատճառով այն կարող է կարգավորել մեծաչափ տարածություններն ու բարդ գործառույթները՝ դարձնելով այն անփոխարինելի մեքենայական ուսուցման և տվյալների մշակման մեջ:

Գրադիենտ ծագումը հեշտությամբ կարող է հաղթահարել իրական աշխարհի դժվարությունները և մեծապես նպաստել տեխնոլոգիայի աճին և տվյալների վրա հիմնված որոշումների կայացմանը՝ ուշադիր ընտրելով ուսուցման արագությունը և կիրառելով առաջադեմ տատանումներ, ինչպիսիք են ստոխաստիկ գրադիենտ ծագումը և Ադամը:

Գրադիենտ ծագման ալգորիթմի օրինակներ

Ի՞նչ է իրականում գրադիենտ ծագման ալգորիթմը:

Ինչու՞ ենք մենք օգտագործում գրադիենտ ծագման ալգորիթմներ: