Навучанне з падмацаваннем: ШІ, які вучыцца на сваіх памылках

Змест[Схаваць][Паказаць]

Што такое навучанне з падмацаваннем?
Просты прыклад: сетка 4×4+-
- Палітыкі і ўзнагароды
- Разведка супраць эксплуатацыі
Практычнае прымяненне+-
заключэнне

Давайце ўявім, што вы спрабуеце навучыць робата хадзіць. У адрозненне ад таго, каб навучыць камп'ютэр прагназаваць цэны на акцыі або класіфікаваць выявы, у нас насамрэч няма вялікага набору даных, які мы маглі б выкарыстоўваць для навучання нашага робата.

Хоць гэта можа здацца вам натуральным, хада - гэта вельмі складанае дзеянне. Хада крокам звычайна ўключае дзясяткі розных цягліц, якія працуюць разам. Намаганні і прыёмы, якія выкарыстоўваюцца для пераходу з аднаго месца ў іншае, таксама залежаць ад розных фактараў, у тым ліку ад таго, ці нясеце вы што-небудзь, ці ёсць ухіл або іншыя формы перашкод.

У падобных сцэнарыях мы можам выкарыстоўваць метад, вядомы як навучанне з падмацаваннем або RL. З дапамогай RL вы можаце вызначыць пэўную мэту, якую вы хочаце вырашыць сваёй мадэллю, і паступова дазваляць мадэлі самастойна вучыцца, як яе дасягнуць.

У гэтым артыкуле мы вывучым асновы навучання з падмацаваннем і тое, як мы можам прымяніць структуру RL да розных праблем у рэальным свеце.

Што такое навучанне з падмацаваннем?

Навучанне з падмацаваннем адносіцца да пэўнай падгрупы навучанне з дапамогай машыны які сканцэнтраваны на пошуку рашэнняў шляхам узнагароджання пажаданых паводзін і пакарання за непажаданыя.

дыяграма структуры навучання з падмацаваннем

У адрозненне ад навучання пад наглядам, метад навучання з падмацаваннем звычайна не мае навучальнага набору даных, які забяспечвае правільны вынік для дадзенага ўводу. Пры адсутнасці навучальных дадзеных алгарытм павінен знайсці рашэнне шляхам спроб і памылак. Алгарытм, які мы звычайна называем an агент, павінен знайсці рашэнне сам, узаемадзейнічаючы з навакольнае асяроддзе.

Даследчыкі вырашаюць, да якіх канкрэтных вынікаў ўзнагароджанне і што алгарытм здольны рабіць. Кожны дзеянне алгарытм атрымае зваротную сувязь, якая ацэньвае, наколькі добра працуе алгарытм. У працэсе навучання алгарытм у выніку знойдзе аптымальнае рашэнне для вырашэння пэўнай задачы.

Просты прыклад: сетка 4×4

Давайце паглядзім на просты прыклад праблемы, якую мы можам вырашыць з дапамогай навучання з падмацаваннем.

Выкажам здагадку, што наша асяроддзе мае сетку 4×4. Наш агент выпадковым чынам размяшчаецца ў адным з квадратаў разам з некалькімі перашкодамі. Сетка павінна ўтрымліваць тры «ямы», якіх трэба пазбягаць, і адзіную «алмазную» ўзнагароду, якую павінен знайсці агент. Поўнае апісанне нашага асяроддзя вядома як асяроддзе былі.

навучанне з падмацаваннем абапіраецца на агента, які ўзаемадзейнічае з змадэляваным асяроддзем

У нашай мадэлі RL наш агент можа перамяшчацца ў любую суседнюю клетку, пакуль няма перашкод, якія б блакавалі іх. Набор усіх сапраўдных дзеянняў у дадзеным асяроддзі вядомы як прастора дзеянняў. Мэта нашага агента - знайсці самы кароткі шлях да ўзнагароды.

агент мае прастору дзеянняў або набор сапраўдных дзеянняў у дадзеным стане

Наш агент будзе выкарыстоўваць метад навучання з падмацаваннем, каб знайсці шлях да алмаза, які патрабуе найменшай колькасці крокаў. Кожны правільны крок дасць робату ўзнагароду, а кожны няправільны - адніме ўзнагароду робата. Мадэль разлічвае агульную ўзнагароду, як толькі агент дасягне алмаза.

Цяпер, калі мы вызначылі агента і асяроддзе, мы павінны таксама вызначыць правілы, якія будуць выкарыстоўвацца для вызначэння наступнага дзеяння, якое будзе выконваць агент, улічваючы яго бягучы стан і асяроддзе.

Палітыкі і ўзнагароды

У мадэлі навучання з падмацаваннем, a палітыка адносіцца да стратэгіі, якую выкарыстоўвае агент для дасягнення сваіх мэтаў. Палітыка агента - гэта тое, што вырашае, што агент павінен рабіць далей, улічваючы бягучы стан агента і яго асяроддзя.

Агент павінен ацаніць усе магчымыя палітыкі, каб убачыць, якая палітыка аптымальная.

ацэнка палітыкі

У нашым простым прыкладзе прызямленне на пустое месца верне значэнне -1. Калі агент трапляе ў поле з алмазнай узнагародай, ён атрымлівае значэнне 10. Выкарыстоўваючы гэтыя значэнні, мы можам параўнаць розныя палітыкі з дапамогай функцыя карыснасці U.

Давайце зараз параўнаем карыснасць дзвюх палітык, паказаных вышэй:

U(A) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

Вынікі паказваюць, што палітыка А - гэта лепшы шлях да атрымання ўзнагароды. Такім чынам, агент будзе выкарыстоўваць шлях A замест палітыкі B.

Разведка супраць эксплуатацыі

Праблема кампрамісу вывучэння супраць эксплуатацыі ў навучанні з падмацаваннем - гэта дылема, з якой агент павінен сутыкнуцца ў працэсе прыняцця рашэння.

Ці павінны агенты сканцэнтравацца на вывучэнні новых шляхоў або варыянтаў, ці яны павінны працягваць выкарыстоўваць варыянты, якія яны ўжо ведаюць?

Калі агент выбірае даследаванне, у агента ёсць магчымасць знайсці лепшы варыянт, але гэта таксама можа прывесці да рызыкі марнавання часу і рэсурсаў. З іншага боку, калі агент вырашыў выкарыстаць рашэнне, якое яму ўжо вядома, ён можа прапусціць лепшы варыянт.

Практычнае прымяненне

Вось некалькі спосабаў Даследчыкі ІІ ужылі мадэлі навучання з падмацаваннем для вырашэння рэальных задач:

Навучанне з падмацаваннем у беспілотных аўтамабілях

Навучанне з падмацаваннем прымянялася да беспілотных аўтамабіляў, каб палепшыць іх здольнасць кіраваць бяспечна і эфектыўна. Тэхналогія дазваляе аўтаномным аўтамабілям вучыцца на сваіх памылках і пастаянна карэктаваць свае паводзіны, каб аптымізаваць свае характарыстыкі.

навучанне з падмацаваннем, якое выкарыстоўваецца для самастойнага кіравання

Напрыклад, лонданская кампанія AI Wayve паспяхова прымяніў мадэль глыбокага навучання з падмацаваннем для аўтаномнага кіравання. У сваім эксперыменце яны выкарыстоўвалі функцыю ўзнагароджання, якая максімальна павялічвае колькасць часу, на працягу якога транспартны сродак працуе без удзелу кіроўцы.

Мадэлі RL таксама дапамагаюць аўтамабілям прымаць рашэнні ў залежнасці ад навакольнага асяроддзя, напрыклад, ухіляцца ад перашкод або ўлівацца ў рух. Гэтыя мадэлі павінны знайсці спосаб пераўтварыць складанае асяроддзе, якое атачае аўтамабіль, у прадстаўнічую прастору стану, якую мадэль можа зразумець.

Навучанне з падмацаваннем у робататэхніцы

Даследчыкі таксама выкарыстоўваюць навучанне з падмацаваннем для распрацоўкі робатаў, якія могуць навучацца складаным задачам. З дапамогай гэтых мадэляў RL робаты могуць назіраць за навакольным асяроддзем і прымаць рашэнні на аснове сваіх назіранняў.

Напрыклад, былі праведзены даследаванні па выкарыстанні мадэляў навучання з падмацаваннем, якія дазваляюць двухногім робатам навучыцца хадзіць самастойна.

навучанне з падмацаваннем навучанне робата хадзе

Даследчыкі лічаць RL ключавым метадам у галіне робататэхнікі. Навучанне з падмацаваннем дае рабатызаваным агентам аснову для вывучэння складаных дзеянняў, якія ў адваротным выпадку можа быць цяжка распрацаваць.

Навучанне з падмацаваннем у гульнях

Мадэлі RL таксама выкарыстоўваліся, каб навучыцца гуляць у відэагульні. Агентаў можна наладзіць так, каб яны вучыліся на сваіх памылках і пастаянна паляпшалі сваю прадукцыйнасць у гульні.

Даследчыкі ўжо распрацавалі агенты, якія могуць гуляць у такія гульні, як шахматы, го і покер. У 2013 г. Deepmind выкарыстаў Deep Reinforcement Learning, каб дазволіць мадэлі навучыцца гуляць у гульні Atari з нуля.

Многія настольныя гульні і відэагульні маюць абмежаваную прастору дзеяння і дакладна акрэсленую канкрэтную мэту. Гэтыя рысы працуюць на карысць мадэлі RL. Метады RL могуць хутка перабіраць мільёны змадэляваных гульняў, каб вывучыць аптымальныя стратэгіі для дасягнення перамогі.

заключэнне

Будзь гэта навучанне хадзе або навучанне гульні ў відэагульні, мадэлі RL апынуліся карыснымі структурамі штучнага інтэлекту для вырашэння задач, якія патрабуюць складанага прыняцця рашэнняў.

Па меры таго, як тэхналогія працягвае развівацца, і даследчыкі, і распрацоўшчыкі будуць працягваць знаходзіць новыя прыкладанні, якія выкарыстоўваюць перавагі здольнасці мадэлі да саманавучання.

Якія практычныя прымянення, на вашу думку, могуць дапамагчы навучанне з падмацаваннем?

Навучанне з падмацаваннем: штучны інтэлект, які вучыцца на сваіх памылках

Што такое навучанне з падмацаваннем?