Оқытуды күшейту: қателерінен үйренетін AI

Мазмұны[Жасыру][Көрсету]

Оқытуды күшейту дегеніміз не?
Қарапайым мысал: 4×4 тор+-
- Саясат және сыйақы
- Барлау және пайдалану
Тәжірибелік қосымшалар+-
қорытынды

Сіз роботқа жүруді үйреткіңіз келеді делік. Компьютерге акциялардың бағасын болжау немесе кескіндерді санаттауды үйретуден айырмашылығы, бізде роботты үйрету үшін пайдалана алатын үлкен деректер жинағы жоқ.

Бұл сізге табиғи түрде келуі мүмкін, бірақ жаяу жүру - бұл өте күрделі әрекет. Бір қадаммен жүру әдетте ондаған әртүрлі бұлшықеттердің бірге жұмыс істеуін қамтиды. Бір жерден екінші жерге жүру үшін қолданылатын күш пен техника әртүрлі факторларға, соның ішінде сіз бірдеңені алып жүресіз бе, еңіс немесе басқа да кедергілер бар ма, соған байланысты.

Осындай сценарийлерде біз оқытуды күшейту немесе RL деп аталатын әдісті пайдалана аламыз. RL көмегімен үлгіңіз шешкісі келетін нақты мақсатты анықтай аласыз және біртіндеп модельге оны орындау жолын өздігінен үйренуге мүмкіндік бере аласыз.

Бұл мақалада біз оқытуды күшейту негіздерін және RL құрылымын нақты әлемдегі әртүрлі мәселелерге қалай қолдануға болатынын зерттейміз.

Оқытуды күшейту дегеніміз не?

Оқытуды күшейту белгілі бір ішкі жиынына жатады машина оқыту ол қалаған мінез-құлықтарды марапаттау және қалаусыз әрекеттерді жазалау арқылы шешімдерді табуға бағытталған.

нығайтатын оқыту жүйесінің диаграммасы

Бақыланатын оқытудан айырмашылығы, күшейтілген оқыту әдісінде әдетте берілген кіріс үшін дұрыс нәтиже беретін оқу деректер жинағы болмайды. Жаттығу деректері болмаған жағдайда, алгоритм сынақ және қателер арқылы шешімді табуы керек. Алгоритм, біз оны әдетте ан деп атаймыз агент-мен әрекеттесу арқылы шешімін өзі табу керек қоршаған орта.

Зерттеушілер нақты қандай нәтиже беретінін шешеді сыйақы және алгоритм не істей алады. Әр іс-шаралар қабылдайтын алгоритм алгоритмнің қаншалықты жақсы орындалғанын көрсететін кері байланыстың қандай да бір түрін алады. Жаттығу процесі кезінде алгоритм белгілі бір мәселені шешудің оңтайлы шешімін табады.

Қарапайым мысал: 4×4 тор

Оқытуды күшейту арқылы шешуге болатын есептің қарапайым мысалын қарастырайық.

Бізде орта ретінде 4×4 тор бар делік. Біздің агент бірнеше кедергілермен бірге квадраттардың біріне кездейсоқ орналастырылған. Торда болдырмау керек үш «шұңқыр» кедергі және агент табуы тиіс бір «гауһар» сыйлығы болуы керек. Біздің қоршаған ортаның толық сипаттамасы қоршаған орта деп аталады мемлекет.

күшейтетін оқыту симуляцияланған ортамен әрекеттесетін агентке сүйенеді

Біздің RL үлгісінде біздің агент кез келген көрші шаршыға жылжи алады, егер оларды бөгейтін кедергілер болмаса. Берілген ортадағы барлық жарамды әрекеттер жиынтығы ретінде белгілі әрекет кеңістігі. Біздің агенттің мақсаты - марапатқа жетудің ең қысқа жолын табу.

агентте әрекет кеңістігі немесе берілген күйдегі жарамды әрекеттер жиынтығы бар

Біздің агент ең аз қадамдарды қажет ететін гауһарға апаратын жолды табу үшін күшейтілген оқыту әдісін пайдаланады. Әрбір дұрыс қадам роботқа сыйақы береді және әрбір қате қадам роботтың сыйлығын алып тастайды. Модель агент гауһарға жеткенде жалпы сыйақыны есептейді.

Агентті және ортаны анықтағандықтан, агент ағымдағы күйі мен ортаны ескере отырып, келесі әрекетті анықтау үшін қолданылатын ережелерді де анықтауымыз керек.

Саясат және сыйақы

Оқытуды күшейту үлгісінде, а саясат агент өз мақсаттарына жету үшін қолданатын стратегияны білдіреді. Агенттің саясаты агенттің және оның ортасының ағымдағы күйін ескере отырып, агенттің одан әрі не істеу керектігін шешеді.

Қай саясат оңтайлы екенін көру үшін агент барлық ықтимал саясаттарды бағалауы керек.

саясатын бағалау

Біздің қарапайым мысалда бос кеңістікке қону -1 мәнін қайтарады. Агент гауһар сыйлығы бар кеңістікке қонған кезде, олар 10 мәнін алады. Осы мәндерді пайдалана отырып, біз әртүрлі саясаттарды келесі арқылы салыстыра аламыз. қызметтік функция U.

Енді жоғарыда көрсетілген екі саясаттың пайдалылығын салыстырайық:

U(A) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

Нәтижелер A саясаты сыйақыны табудың ең жақсы жолы екенін көрсетеді. Осылайша, агент B саясатының үстінен А жолын пайдаланады.

Барлау және пайдалану

Оқытуды күшейтудегі барлау мен пайдалануды салыстыру мәселесі - шешім қабылдау барысында агент тап болатын дилемма.

Агенттер жаңа жолдарды немесе опцияларды зерттеуге назар аударуы керек пе немесе олар бұрыннан білетін опцияларды пайдалануды жалғастыру керек пе?

Егер агент зерттеуді таңдаса, агент үшін жақсырақ нұсқаны табу мүмкіндігі бар, бірақ ол уақыт пен ресурстарды ысырап ету қаупін де тудыруы мүмкін. Екінші жағынан, егер агент өзі білетін шешімді пайдалануды таңдаса, ол жақсырақ нұсқаны жіберіп алуы мүмкін.

Тәжірибелік қосымшалар

Міне, кейбір жолдар АИ зерттеушілері нақты проблемаларды шешу үшін оқытудың күшейту үлгілерін қолданды:

Өздігінен басқарылатын машиналарда оқытуды күшейту

Өздігінен басқарылатын көліктерге олардың қауіпсіз және тиімді жүргізу қабілетін жақсарту үшін күшейтілген оқыту қолданылды. Технология автономды көліктерге қателерінен сабақ алуға және өнімділігін оңтайландыру үшін мінез-құлқын үнемі реттеуге мүмкіндік береді.

өзін-өзі басқару үшін қолданылатын күшейту оқыту

Мысалы, Лондонда орналасқан AI компаниясы Wayve Автономды жүргізу үшін тереңдетілген оқыту моделін сәтті қолданды. Өз экспериментінде олар көліктің борттағы жүргізушісіз жұмыс істеу уақытын барынша арттыратын марапаттау функциясын пайдаланды.

RL үлгілері сонымен қатар автомобильдерге кедергілерді болдырмау немесе қозғалысқа қосылу сияқты қоршаған ортаға негізделген шешімдер қабылдауға көмектеседі. Бұл модельдер автомобильді қоршап тұрған күрделі ортаны модель түсінетін репрезентативті күй кеңістігіне түрлендіру жолын табуы керек.

Робототехникадағы оқытуды күшейту

Сондай-ақ зерттеушілер күрделі тапсырмаларды меңгере алатын роботтарды жасау үшін күшейтілген оқытуды пайдаланады. Осы RL үлгілері арқылы роботтар қоршаған ортаны бақылап, бақылаулары негізінде шешім қабылдай алады.

Мысалы, екі аяқты роботтарға үйренуге мүмкіндік беру үшін күшейтетін оқыту үлгілерін пайдалану бойынша зерттеулер жүргізілді жүру өз бетінше.

роботты жүруге үйретуді күшейту

Зерттеушілер RL робототехника саласындағы негізгі әдіс деп санайды. Оқытуды күшейту роботоагенттерге күрделі әрекеттерді үйрену үшін негіз береді, әйтпесе құрастыру қиын болуы мүмкін.

Ойындардағы оқытуды күшейту

RL үлгілері бейне ойындарды ойнауды үйрену үшін де пайдаланылды. Агенттерді өз қателерінен сабақ алу және ойындағы өнімділігін үнемі жақсарту үшін орнатуға болады.

Зерттеушілер шахмат, Go және покер сияқты ойындарды ойнай алатын агенттерді әзірледі. 2013 жылы, DeepMind Модельге Atari ойындарын нөлден бастап ойнауды үйренуге мүмкіндік беру үшін Deep Reinforcement Learning қолданылды.

Көптеген үстел ойындары мен бейне ойындардың шектеулі әрекет ету кеңістігі және нақты анықталған нақты мақсаты бар. Бұл белгілер RL үлгісінің артықшылығына жұмыс істейді. RL әдістері жеңіске жетудің оңтайлы стратегияларын үйрену үшін миллиондаған симуляцияланған ойындарды жылдам қайталай алады.

қорытынды

Жаяу жүруді үйрену немесе бейне ойындарды ойнауды үйрену болсын, RL модельдері күрделі шешім қабылдауды қажет ететін мәселелерді шешу үшін пайдалы AI құрылымдары екендігі дәлелденді.

Технология дамып келе жатқанда, зерттеушілер де, әзірлеушілер де модельдің өзін-өзі оқыту мүмкіндігін пайдаланатын жаңа қолданбаларды табуды жалғастырады.

Сіз қалай ойлайсыз, қандай практикалық қосымшаларды бекіту арқылы оқыту көмектеседі?

Оқытуды күшейту: қателерінен үйренетін AI

Оқытуды күшейту дегеніміз не?