Եկեք պատկերացնենք, որ դուք փորձում եք ռոբոտին սովորեցնել քայլել: Ի տարբերություն համակարգչին սովորեցնելու, թե ինչպես կանխատեսել բաժնետոմսերի գները կամ դասակարգել նկարները, մենք իրականում չունենք մեծ տվյալների բազա, որը կարող ենք օգտագործել մեր ռոբոտին մարզելու համար:
Թեև դա ձեզ համար բնական է, քայլելը իրականում շատ բարդ գործողություն է: Քայլ քայլելը սովորաբար ներառում է տասնյակ տարբեր մկանների համատեղ աշխատանք: Մի վայրից մյուսը քայլելու համար օգտագործվող ջանքերն ու տեխնիկան նույնպես կախված են մի շարք գործոններից, ներառյալ՝ արդյոք դուք ինչ-որ բան եք կրում, թե արդյոք կա թեքություն կամ խոչընդոտների այլ ձևեր:
Նման սցենարներում մենք կարող ենք օգտագործել մեթոդ, որը հայտնի է որպես ուժեղացման ուսուցում կամ RL: RL-ի միջոցով դուք կարող եք սահմանել կոնկրետ նպատակ, որը ցանկանում եք լուծել ձեր մոդելը և աստիճանաբար թույլ տալ, որ մոդելն ինքնուրույն սովորի, թե ինչպես դա իրականացնել:
Այս հոդվածում մենք կուսումնասիրենք ուժեղացման ուսուցման հիմունքները և ինչպես կարող ենք կիրառել RL-ի շրջանակը իրական աշխարհում մի շարք տարբեր խնդիրների համար:
Ի՞նչ է ուժեղացման ուսուցումը:
Ամրապնդման ուսուցումը վերաբերում է որոշակի ենթաբազմությանը Machine Learning որը կենտրոնանում է լուծումներ գտնելու վրա՝ պարգևատրելով ցանկալի վարքագիծը և պատժելով անցանկալի վարքագծին:
Ի տարբերություն վերահսկվող ուսուցման, ամրապնդման ուսուցման մեթոդը սովորաբար չունի վերապատրաստման տվյալների բազա, որն ապահովում է ճիշտ արդյունք տվյալ մուտքագրման համար: Վերապատրաստման տվյալների բացակայության դեպքում ալգորիթմը պետք է լուծումը գտնի փորձության և սխալի միջոցով: Ալգորիթմը, որը մենք սովորաբար անվանում ենք an գործակալ, պետք է լուծումը գտնի ինքնուրույն՝ շփվելով նրա հետ միջավայր.
Հետազոտողները որոշում են, թե կոնկրետ ինչ արդյունքների պարգեւ և այն, ինչ կարող է անել ալգորիթմը: Ամեն գործողություն ալգորիթմը կստանա հետադարձ կապի ինչ-որ ձև, որը գնահատում է, թե որքան լավ է գործում ալգորիթմը: Վերապատրաստման գործընթացի ընթացքում ալգորիթմը, ի վերջո, կգտնի որոշակի խնդիր լուծելու օպտիմալ լուծումը:
Պարզ օրինակ՝ 4×4 Ցանց
Եկեք նայենք մի խնդրի պարզ օրինակին, որը կարող ենք լուծել ուժեղացման ուսուցման միջոցով:
Ենթադրենք, որ մենք ունենք 4×4 ցանց որպես մեր միջավայր: Մեր գործակալը պատահականորեն տեղադրվում է հրապարակներից մեկում՝ մի քանի խոչընդոտների հետ միասին: Ցանցը պետք է պարունակի երեք «փոս» խոչընդոտներ, որոնք պետք է խուսափել, և մեկ «ադամանդ» պարգև, որը պետք է գտնի գործակալը: Մեր միջավայրի ամբողջական նկարագրությունը հայտնի է որպես շրջակա միջավայրի նկարագրություն էին.
Մեր RL մոդելում մեր գործակալը կարող է տեղափոխվել ցանկացած հարակից հրապարակ, քանի դեռ դրանք արգելափակող խոչընդոտներ չկան: Բոլոր վավեր գործողությունների ամբողջությունը տվյալ միջավայրում հայտնի է որպես գործողությունների տարածություն. Մեր գործակալի նպատակն է գտնել մրցանակի ամենակարճ ճանապարհը:
Մեր գործակալը կօգտագործի ամրապնդման ուսուցման մեթոդը՝ գտնելու ադամանդի ճանապարհը, որը պահանջում է նվազագույն քայլեր: Յուրաքանչյուր ճիշտ քայլ ռոբոտին պարգև կտա, իսկ յուրաքանչյուր սխալ քայլը կհանի ռոբոտի պարգևը: Մոդելը հաշվարկում է ընդհանուր պարգևը, երբ գործակալը հասնում է ադամանդին:
Այժմ, երբ մենք սահմանել ենք գործակալը և միջավայրը, մենք պետք է նաև սահմանենք կանոններ, որոնք պետք է օգտագործվեն հաջորդ գործողությունը որոշելու համար, որը գործակալը կկատարի՝ հաշվի առնելով նրա ներկայիս վիճակը և շրջակա միջավայրը:
Քաղաքականություն և պարգևներ
Ուսուցման ամրապնդման մոդելում ա քաղաքականություն վերաբերում է գործակալի կողմից իրենց նպատակներին հասնելու ռազմավարությանը: Գործակալի քաղաքականությունն այն է, որը որոշում է, թե ինչ պետք է անի գործակալը` հաշվի առնելով գործակալի ներկա վիճակը և նրա միջավայրը:
Գործակալը պետք է գնահատի բոլոր հնարավոր քաղաքականությունները՝ տեսնելու, թե որ քաղաքականությունն է օպտիմալ:
Մեր պարզ օրինակում դատարկ տարածության վրա վայրէջքը կվերադարձնի -1 արժեք: Երբ գործակալը վայրէջք է կատարում ադամանդի պարգևով տարածության վրա, նրանք կստանան 10 արժեք: Օգտագործելով այս արժեքները, մենք կարող ենք համեմատել տարբեր քաղաքականություններ՝ օգտագործելով a. օգտակար գործառույթ U.
Եկեք հիմա համեմատենք վերը նշված երկու քաղաքականության օգտակարությունը.
U(A) = -1 – 1 -1 + 10 = 7
U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5
Արդյունքները ցույց են տալիս, որ Ա քաղաքականությունը լավագույն ուղին է պարգևը գտնելու համար: Այսպիսով, գործակալը կօգտագործի Ա ուղին Բ քաղաքականության փոխարեն:
Հետախուզում ընդդեմ շահագործման
Ամրապնդման ուսուցման մեջ հետախուզման և շահագործման փոխզիջման խնդիրը երկընտրանք է, որին պետք է բախվի գործակալը որոշումների կայացման գործընթացում:
Արդյո՞ք գործակալները պետք է կենտրոնանան նոր ուղիներ կամ տարբերակներ ուսումնասիրելու վրա, թե՞ պետք է շարունակեն օգտագործել այն տարբերակները, որոնք արդեն գիտեն:
Եթե գործակալը որոշի ուսումնասիրել, կա հնարավորություն, որ գործակալը գտնի ավելի լավ տարբերակ, բայց դա կարող է նաև վտանգել վատնել ժամանակն ու ռեսուրսները: Մյուս կողմից, եթե գործակալը ընտրի օգտագործել լուծումը, որն արդեն գիտի, նա կարող է բաց թողնել ավելի լավ տարբերակ:
Գործնական Ծրագրեր
Ահա մի քանի ուղիներ AI հետազոտողներ կիրառել են ամրապնդման ուսուցման մոդելներ իրական աշխարհի խնդիրները լուծելու համար.
Ուսուցման ուժեղացում ինքնակառավարվող մեքենաներում
Ուժեղացված ուսուցումը կիրառվել է ինքնակառավարվող մեքենաների համար՝ բարելավելու նրանց անվտանգ և արդյունավետ վարելու ունակությունը: Տեխնոլոգիան հնարավորություն է տալիս ինքնավար մեքենաներին դասեր քաղել իրենց սխալներից և շարունակաբար կարգավորել իրենց վարքագիծը՝ իրենց աշխատանքը օպտիմալացնելու համար:
Օրինակ՝ լոնդոնյան AI ընկերությունը Ճանապարհ հաջողությամբ կիրառել է խորը ամրապնդման ուսուցման մոդել ինքնավար վարման համար: Իրենց փորձի ժամանակ նրանք օգտագործել են պարգևատրման ֆունկցիա, որը առավելագույնի է հասցնում մեքենայի վազքի ժամանակը, առանց վարորդի մուտքի:
RL մոդելները նաև օգնում են մեքենաներին որոշումներ կայացնել՝ հիմնվելով շրջակա միջավայրի վրա, ինչպես օրինակ՝ խուսափել խոչընդոտներից կամ միաձուլվել երթևեկությանը: Այս մոդելները պետք է ճանապարհ գտնեն փոխակերպելու մեքենան շրջապատող բարդ միջավայրը ներկայացուցչական վիճակի տարածքի, որը մոդելը կարող է հասկանալ:
Ուսուցում ռոբոտաշինության մեջ
Հետազոտողները նաև օգտագործում են ամրապնդման ուսուցում ռոբոտներ մշակելու համար, որոնք կարող են սովորել բարդ առաջադրանքներ: Այս RL մոդելների միջոցով ռոբոտները կարողանում են դիտարկել իրենց միջավայրը և որոշումներ կայացնել՝ հիմնվելով իրենց դիտարկումների վրա:
Օրինակ, հետազոտություն է արվել ամրապնդման ուսուցման մոդելների կիրառման վերաբերյալ, որոնք թույլ են տալիս երկոտանի ռոբոտներին սովորել, թե ինչպես քայլել ինքնուրույն:
Հետազոտողները RL-ն համարում են ռոբոտաշինության ոլորտում առանցքային մեթոդ: Ուժեղացման ուսուցումը ռոբոտային գործակալներին հնարավորություն է տալիս սովորելու բարդ գործողություններ, որոնք այլ կերպ կարող են դժվար լինել:
Ամրապնդման ուսուցում խաղերում
RL մոդելները նույնպես օգտագործվել են տեսախաղեր խաղալու սովորելու համար: Գործակալները կարող են ստեղծվել այնպես, որ դասեր քաղեն իրենց սխալներից և շարունակաբար բարելավեն իրենց խաղը:
Հետազոտողները արդեն մշակել են գործակալներ, որոնք կարող են խաղալ այնպիսի խաղեր, ինչպիսիք են շախմատը, Go-ն և պոկերը: 2013թ. DeepMind- ը օգտագործել է Deep Reinforcement Learning-ը, որպեսզի մոդելը սովորի Atari խաղեր խաղալ զրոյից:
Շատ սեղանի խաղեր և տեսախաղեր ունեն գործողությունների սահմանափակ տարածություն և հստակ սահմանված կոնկրետ նպատակ: Այս հատկանիշներն աշխատում են ի շահ RL մոդելի: RL մեթոդները կարող են արագ կրկնել միլիոնավոր սիմուլյացված խաղեր՝ սովորելու հաղթանակի հասնելու օպտիմալ ռազմավարությունները:
Եզրափակում
Անկախ նրանից, թե ինչպես քայլել, թե սովորել, թե ինչպես խաղալ տեսախաղեր, RL մոդելներն ապացուցված են, որ օգտակար AI շրջանակներ են բարդ որոշումների կայացում պահանջող խնդիրների լուծման համար:
Քանի որ տեխնոլոգիան շարունակում է զարգանալ, և՛ հետազոտողները, և՛ մշակողները կշարունակեն գտնել նոր հավելվածներ, որոնք կօգտվեն մոդելի ինքնաուսուցման կարողությունից:
Ձեր կարծիքով, ի՞նչ գործնական կիրառություններ կարող է օգնել ուժեղացման ուսուցումը:
Թողնել գրառում