Да замислиме дека се обидуваш да научиш робот како да оди. За разлика од учењето на компјутер како да се предвидат цените на акциите или да се категоризираат сликите, ние навистина немаме голема база на податоци што можеме да ја користиме за да го обучиме нашиот робот.
Иако може да ви дојде природно, пешачењето е всушност многу сложена акција. Одење чекор обично вклучува десетици различни мускули кои работат заедно. Напорот и техниките што се користат за одење од едно до друго место, исто така, зависат од различни фактори, вклучувајќи го и тоа дали носите нешто или дали има наклон или други форми на пречки.
Во сценарија како овие, можеме да користиме метод познат како учење за зајакнување или RL. Со RL, можете да дефинирате одредена цел што сакате да ја реши вашиот модел и постепено да му дозволите на моделот сам да научи како да ја постигне.
Во оваа статија, ќе ги истражиме основите на учењето за засилување и како можеме да ја примениме рамката RL на различни различни проблеми во реалниот свет.
Што е засилено учење?
Учењето со засилување се однесува на одредена подгрупа на машинско учење кој се фокусира на изнаоѓање решенија преку наградување на саканото однесување и казнување на несаканото однесување.
За разлика од надгледуваното учење, методот на засилено учење обично нема база на податоци за обука што го обезбедува вистинскиот излез за даден влез. Во отсуство на податоци за обука, алгоритмот мора да го најде решението преку обиди и грешки. Алгоритмот, кој обично го нарекуваме an агент, мора да го најде решението само по себе преку интеракција со животната средина.
Истражувачите одлучуваат за какви конкретни резултати награда и што алгоритмот е способен да направи. Секој акција алгоритмот ќе добие некаква форма на повратна информација која покажува колку добро работи алгоритмот. За време на процесот на обука, алгоритмот на крајот ќе го најде оптималното решение за решавање на одреден проблем.
Едноставен пример: 4×4 Решетка
Ајде да погледнеме едноставен пример за проблем што можеме да го решиме со засилено учење.
Да претпоставиме дека имаме мрежа 4×4 како средина. Нашиот агент е поставен по случаен избор на еден од плоштадите заедно со неколку пречки. Решетката треба да содржи три „јама“ пречки што мора да се избегнат и една награда „дијамант“ која агентот мора да ја најде. Целосниот опис на нашата средина е познат како животната средина беа.
Во нашиот RL модел, нашиот агент може да се пресели на кој било соседен плоштад се додека нема пречки што ги блокираат. Множеството од сите валидни дејства во дадена средина е познато како акционен простор. Целта на нашиот агент е да го најде најкраткиот пат до наградата.
Нашиот агент ќе го користи методот на учење за зајакнување за да го најде патот до дијамантот кој бара најмалку чекори. Секој правилен чекор ќе му даде награда на роботот, а секој погрешен чекор ќе ја одземе наградата на роботот. Моделот ја пресметува вкупната награда откако агентот ќе го достигне дијамантот.
Сега, кога ги дефиниравме агентот и околината, мора да ги дефинираме и правилата што ќе ги користиме за одредување на следното дејство што ќе го преземе агентот со оглед на неговата моментална состојба и околината.
Политики и награди
Во моделот за засилено учење, a политика се однесува на стратегијата што ја користи агентот за да ги постигне своите цели. Политиката на агентот е она што одлучува што агентот треба да прави следно со оглед на моменталната состојба на агентот и неговата околина.
Агентот мора да ги процени сите можни политики за да види која политика е оптимална.
Во нашиот едноставен пример, слетувањето на празен простор ќе врати вредност од -1. Кога агентот ќе слета на простор со дијамантска награда, тој ќе добие вредност од 10. Користејќи ги овие вредности, можеме да ги споредиме различните политики користејќи корисна функција U.
Ајде сега да ја споредиме корисноста на двете политики видени погоре:
U(A) = -1 – 1 -1 + 10 = 7
U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5
Резултатите покажуваат дека политиката А е подобриот пат до наоѓање на наградата. Така, агентот ќе ја користи патеката А преку политиката Б.
Истражување наспроти експлоатација
Проблемот за размена на истражување и експлоатација во учењето за засилување е дилема со која агентот мора да се соочи за време на процесот на одлучување.
Дали агентите треба да се фокусираат на истражување на нови патеки или опции или треба да продолжат да ги искористуваат опциите што веќе ги знаат?
Ако агентот избере да истражува, постои можност агентот да најде подобра опција, но исто така може да ризикува губење време и ресурси. Од друга страна, ако агентот избере да го искористи решението што веќе го знае, може да пропушти подобра опција.
практични апликации
Еве неколку начини Истражувачи на вештачка интелигенција примениле модели за зајакнување на учење за да ги решат проблемите од реалниот свет:
Засилено учење во самоуправувачки автомобили
Засилено учење е применето на самоуправувачките автомобили со цел да се подобри нивната способност за безбедно и ефикасно возење. Технологијата им овозможува на автономните автомобили да учат од своите грешки и постојано да го прилагодуваат своето однесување со цел да ги оптимизираат нивните перформанси.
На пример, лондонската компанија за вештачка интелигенција Вејв успешно примени модел за учење со длабоко засилување за автономно возење. Во нивниот експеримент, тие користеа функција за наградување што го максимизира времето на возење на возилото без возачот да дава информации.
Моделите RL, исто така, им помагаат на автомобилите да донесуваат одлуки врз основа на околината, како што се избегнување пречки или спојување во сообраќајот. Овие модели мора да најдат начин да ја претворат сложената околина околу автомобилот во репрезентативен простор што моделот може да го разбере.
Засилено учење во роботиката
Истражувачите, исто така, користеле учење за зајакнување за да развијат роботи кои можат да научат сложени задачи. Преку овие RL модели, роботите можат да ја набљудуваат својата околина и да донесуваат одлуки врз основа на нивните набљудувања.
На пример, направено е истражување за користење на модели за учење за зајакнување за да им се овозможи на двоножните роботи да научат како да одиме сами.
Истражувачите сметаат дека RL е клучен метод во областа на роботиката. Зајакнувачкото учење им дава на роботските агенти рамка да научат софистицирани дејства кои инаку може да бидат тешки за инженерство.
Засилено учење во игри
Моделите RL исто така се користени за да научат како да играат видео игри. Агентите може да се постават да учат од своите грешки и постојано да ги подобруваат своите перформанси во играта.
Истражувачите веќе развија агенти кои можат да играат игри како што се шах, Go и покер. Во 2013 година, Deepmind користеше Deep Reinforcement Learning за да му овозможи на моделот да научи како да игра Atari игри од нула.
Многу друштвени игри и видео игри имаат ограничен простор за акција и добро дефинирана конкретна цел. Овие карактеристики функционираат во корист на моделот RL. RL методите можат брзо да повторат преку милиони симулирани игри за да ги научат оптималните стратегии за постигнување победа.
Заклучок
Без разлика дали се работи за учење како да се оди или учење како да се играат видео игри, моделите RL се докажани како корисни рамки за вештачка интелигенција за решавање на проблеми кои бараат сложено донесување одлуки.
Како што технологијата продолжува да се развива, и истражувачите и програмерите ќе продолжат да пронаоѓаат нови апликации кои ги користат предностите на способноста за самоучење на моделот.
Што мислите, со какви практични апликации може да помогне учењето за зајакнување?
Оставете Одговор