Ամրապնդման ուսուցում. AI, որը սովորում է իր սխալներից

Բառը[Թաքցնել][Ցուցադրում]

Ի՞նչ է ուժեղացման ուսուցումը:
Պարզ օրինակ՝ 4×4 Ցանց+-
- Քաղաքականություն և պարգևներ
- Հետախուզում ընդդեմ շահագործման
Գործնական Ծրագրեր+-
Եզրափակում

Եկեք պատկերացնենք, որ դուք փորձում եք ռոբոտին սովորեցնել քայլել: Ի տարբերություն համակարգչին սովորեցնելու, թե ինչպես կանխատեսել բաժնետոմսերի գները կամ դասակարգել նկարները, մենք իրականում չունենք մեծ տվյալների բազա, որը կարող ենք օգտագործել մեր ռոբոտին մարզելու համար:

Թեև դա ձեզ համար բնական է, քայլելը իրականում շատ բարդ գործողություն է: Քայլ քայլելը սովորաբար ներառում է տասնյակ տարբեր մկանների համատեղ աշխատանք: Մի վայրից մյուսը քայլելու համար օգտագործվող ջանքերն ու տեխնիկան նույնպես կախված են մի շարք գործոններից, ներառյալ՝ արդյոք դուք ինչ-որ բան եք կրում, թե արդյոք կա թեքություն կամ խոչընդոտների այլ ձևեր:

Նման սցենարներում մենք կարող ենք օգտագործել մեթոդ, որը հայտնի է որպես ուժեղացման ուսուցում կամ RL: RL-ի միջոցով դուք կարող եք սահմանել կոնկրետ նպատակ, որը ցանկանում եք լուծել ձեր մոդելը և աստիճանաբար թույլ տալ, որ մոդելն ինքնուրույն սովորի, թե ինչպես դա իրականացնել:

Այս հոդվածում մենք կուսումնասիրենք ուժեղացման ուսուցման հիմունքները և ինչպես կարող ենք կիրառել RL-ի շրջանակը իրական աշխարհում մի շարք տարբեր խնդիրների համար:

Ի՞նչ է ուժեղացման ուսուցումը:

Ամրապնդման ուսուցումը վերաբերում է որոշակի ենթաբազմությանը Machine Learning որը կենտրոնանում է լուծումներ գտնելու վրա՝ պարգևատրելով ցանկալի վարքագիծը և պատժելով անցանկալի վարքագծին:

ամրապնդող ուսուցման շրջանակի դիագրամ

Ի տարբերություն վերահսկվող ուսուցման, ամրապնդման ուսուցման մեթոդը սովորաբար չունի վերապատրաստման տվյալների բազա, որն ապահովում է ճիշտ արդյունք տվյալ մուտքագրման համար: Վերապատրաստման տվյալների բացակայության դեպքում ալգորիթմը պետք է լուծումը գտնի փորձության և սխալի միջոցով: Ալգորիթմը, որը մենք սովորաբար անվանում ենք an գործակալ, պետք է լուծումը գտնի ինքնուրույն՝ շփվելով նրա հետ միջավայր.

Հետազոտողները որոշում են, թե կոնկրետ ինչ արդյունքների պարգեւ և այն, ինչ կարող է անել ալգորիթմը: Ամեն գործողություն ալգորիթմը կստանա հետադարձ կապի ինչ-որ ձև, որը գնահատում է, թե որքան լավ է գործում ալգորիթմը: Վերապատրաստման գործընթացի ընթացքում ալգորիթմը, ի վերջո, կգտնի որոշակի խնդիր լուծելու օպտիմալ լուծումը:

Պարզ օրինակ՝ 4×4 Ցանց

Եկեք նայենք մի խնդրի պարզ օրինակին, որը կարող ենք լուծել ուժեղացման ուսուցման միջոցով:

Ենթադրենք, որ մենք ունենք 4×4 ցանց որպես մեր միջավայր: Մեր գործակալը պատահականորեն տեղադրվում է հրապարակներից մեկում՝ մի քանի խոչընդոտների հետ միասին: Ցանցը պետք է պարունակի երեք «փոս» խոչընդոտներ, որոնք պետք է խուսափել, և մեկ «ադամանդ» պարգև, որը պետք է գտնի գործակալը: Մեր միջավայրի ամբողջական նկարագրությունը հայտնի է որպես շրջակա միջավայրի նկարագրություն էին.

ամրապնդման ուսուցումը հենվում է այնպիսի գործակալի վրա, որը փոխազդում է մոդելավորված միջավայրի հետ

Մեր RL մոդելում մեր գործակալը կարող է տեղափոխվել ցանկացած հարակից հրապարակ, քանի դեռ դրանք արգելափակող խոչընդոտներ չկան: Բոլոր վավեր գործողությունների ամբողջությունը տվյալ միջավայրում հայտնի է որպես գործողությունների տարածություն. Մեր գործակալի նպատակն է գտնել մրցանակի ամենակարճ ճանապարհը:

գործակալն ունի գործողության տարածք կամ վավեր գործողությունների հավաքածու տվյալ վիճակում

Մեր գործակալը կօգտագործի ամրապնդման ուսուցման մեթոդը՝ գտնելու ադամանդի ճանապարհը, որը պահանջում է նվազագույն քայլեր: Յուրաքանչյուր ճիշտ քայլ ռոբոտին պարգև կտա, իսկ յուրաքանչյուր սխալ քայլը կհանի ռոբոտի պարգևը: Մոդելը հաշվարկում է ընդհանուր պարգևը, երբ գործակալը հասնում է ադամանդին:

Այժմ, երբ մենք սահմանել ենք գործակալը և միջավայրը, մենք պետք է նաև սահմանենք կանոններ, որոնք պետք է օգտագործվեն հաջորդ գործողությունը որոշելու համար, որը գործակալը կկատարի՝ հաշվի առնելով նրա ներկայիս վիճակը և շրջակա միջավայրը:

Քաղաքականություն և պարգևներ

Ուսուցման ամրապնդման մոդելում ա քաղաքականություն վերաբերում է գործակալի կողմից իրենց նպատակներին հասնելու ռազմավարությանը: Գործակալի քաղաքականությունն այն է, որը որոշում է, թե ինչ պետք է անի գործակալը` հաշվի առնելով գործակալի ներկա վիճակը և նրա միջավայրը:

Գործակալը պետք է գնահատի բոլոր հնարավոր քաղաքականությունները՝ տեսնելու, թե որ քաղաքականությունն է օպտիմալ:

գնահատելով քաղաքականությունը

Մեր պարզ օրինակում դատարկ տարածության վրա վայրէջքը կվերադարձնի -1 արժեք: Երբ գործակալը վայրէջք է կատարում ադամանդի պարգևով տարածության վրա, նրանք կստանան 10 արժեք: Օգտագործելով այս արժեքները, մենք կարող ենք համեմատել տարբեր քաղաքականություններ՝ օգտագործելով a. օգտակար գործառույթ U.

Եկեք հիմա համեմատենք վերը նշված երկու քաղաքականության օգտակարությունը.

U(A) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

Արդյունքները ցույց են տալիս, որ Ա քաղաքականությունը լավագույն ուղին է պարգևը գտնելու համար: Այսպիսով, գործակալը կօգտագործի Ա ուղին Բ քաղաքականության փոխարեն:

Հետախուզում ընդդեմ շահագործման

Ամրապնդման ուսուցման մեջ հետախուզման և շահագործման փոխզիջման խնդիրը երկընտրանք է, որին պետք է բախվի գործակալը որոշումների կայացման գործընթացում:

Արդյո՞ք գործակալները պետք է կենտրոնանան նոր ուղիներ կամ տարբերակներ ուսումնասիրելու վրա, թե՞ պետք է շարունակեն օգտագործել այն տարբերակները, որոնք արդեն գիտեն:

Եթե գործակալը որոշի ուսումնասիրել, կա հնարավորություն, որ գործակալը գտնի ավելի լավ տարբերակ, բայց դա կարող է նաև վտանգել վատնել ժամանակն ու ռեսուրսները: Մյուս կողմից, եթե գործակալը ընտրի օգտագործել լուծումը, որն արդեն գիտի, նա կարող է բաց թողնել ավելի լավ տարբերակ:

Գործնական Ծրագրեր

Ահա մի քանի ուղիներ AI հետազոտողներ կիրառել են ամրապնդման ուսուցման մոդելներ իրական աշխարհի խնդիրները լուծելու համար.

Ուսուցման ուժեղացում ինքնակառավարվող մեքենաներում

Ուժեղացված ուսուցումը կիրառվել է ինքնակառավարվող մեքենաների համար՝ բարելավելու նրանց անվտանգ և արդյունավետ վարելու ունակությունը: Տեխնոլոգիան հնարավորություն է տալիս ինքնավար մեքենաներին դասեր քաղել իրենց սխալներից և շարունակաբար կարգավորել իրենց վարքագիծը՝ իրենց աշխատանքը օպտիմալացնելու համար:

ամրապնդման ուսուցում, որն օգտագործվում է ինքնուրույն վարելու համար

Օրինակ՝ լոնդոնյան AI ընկերությունը Ճանապարհ հաջողությամբ կիրառել է խորը ամրապնդման ուսուցման մոդել ինքնավար վարման համար: Իրենց փորձի ժամանակ նրանք օգտագործել են պարգևատրման ֆունկցիա, որը առավելագույնի է հասցնում մեքենայի վազքի ժամանակը, առանց վարորդի մուտքի:

RL մոդելները նաև օգնում են մեքենաներին որոշումներ կայացնել՝ հիմնվելով շրջակա միջավայրի վրա, ինչպես օրինակ՝ խուսափել խոչընդոտներից կամ միաձուլվել երթևեկությանը: Այս մոդելները պետք է ճանապարհ գտնեն փոխակերպելու մեքենան շրջապատող բարդ միջավայրը ներկայացուցչական վիճակի տարածքի, որը մոդելը կարող է հասկանալ:

Ուսուցում ռոբոտաշինության մեջ

Հետազոտողները նաև օգտագործում են ամրապնդման ուսուցում ռոբոտներ մշակելու համար, որոնք կարող են սովորել բարդ առաջադրանքներ: Այս RL մոդելների միջոցով ռոբոտները կարողանում են դիտարկել իրենց միջավայրը և որոշումներ կայացնել՝ հիմնվելով իրենց դիտարկումների վրա:

Օրինակ, հետազոտություն է արվել ամրապնդման ուսուցման մոդելների կիրառման վերաբերյալ, որոնք թույլ են տալիս երկոտանի ռոբոտներին սովորել, թե ինչպես քայլել ինքնուրույն:

ամրապնդման ուսուցում, որը սովորեցնում է ռոբոտին քայլել

Հետազոտողները RL-ն համարում են ռոբոտաշինության ոլորտում առանցքային մեթոդ: Ուժեղացման ուսուցումը ռոբոտային գործակալներին հնարավորություն է տալիս սովորելու բարդ գործողություններ, որոնք այլ կերպ կարող են դժվար լինել:

Ամրապնդման ուսուցում խաղերում

RL մոդելները նույնպես օգտագործվել են տեսախաղեր խաղալու սովորելու համար: Գործակալները կարող են ստեղծվել այնպես, որ դասեր քաղեն իրենց սխալներից և շարունակաբար բարելավեն իրենց խաղը:

Հետազոտողները արդեն մշակել են գործակալներ, որոնք կարող են խաղալ այնպիսի խաղեր, ինչպիսիք են շախմատը, Go-ն և պոկերը: 2013թ. DeepMind- ը օգտագործել է Deep Reinforcement Learning-ը, որպեսզի մոդելը սովորի Atari խաղեր խաղալ զրոյից:

Շատ սեղանի խաղեր և տեսախաղեր ունեն գործողությունների սահմանափակ տարածություն և հստակ սահմանված կոնկրետ նպատակ: Այս հատկանիշներն աշխատում են ի շահ RL մոդելի: RL մեթոդները կարող են արագ կրկնել միլիոնավոր սիմուլյացված խաղեր՝ սովորելու հաղթանակի հասնելու օպտիմալ ռազմավարությունները:

Եզրափակում

Անկախ նրանից, թե ինչպես քայլել, թե սովորել, թե ինչպես խաղալ տեսախաղեր, RL մոդելներն ապացուցված են, որ օգտակար AI շրջանակներ են բարդ որոշումների կայացում պահանջող խնդիրների լուծման համար:

Քանի որ տեխնոլոգիան շարունակում է զարգանալ, և՛ հետազոտողները, և՛ մշակողները կշարունակեն գտնել նոր հավելվածներ, որոնք կօգտվեն մոդելի ինքնաուսուցման կարողությունից:

Ձեր կարծիքով, ի՞նչ գործնական կիրառություններ կարող է օգնել ուժեղացման ուսուցումը:

Ամրապնդման ուսուցում. AI, որը սովորում է իր սխալներից

Ի՞նչ է ուժեղացման ուսուցումը: