Учење са појачањем: вештачка интелигенција која учи на својим грешкама

Преглед садржаја[Сакрити][Прикажи]

Шта је учење са појачањем?
Једноставан пример: мрежа 4×4+-
- Политике и награде
- Истраживање против експлоатације
praktična примена+-
Zakljucak

Замислимо да покушавате да научите робота како да хода. За разлику од подучавања рачунара како да предвиди цене акција или категорише слике, ми заправо немамо велики скуп података који можемо да користимо за обуку нашег робота.

Иако вам може доћи природно, ходање је заправо веома сложена радња. Ходање кораком обично укључује десетине различитих мишића који раде заједно. Напор и технике које се користе за ходање од једног места до другог такође зависе од различитих фактора, укључујући да ли нешто носите или постоји нагиб или други облици препрека.

У оваквим сценаријима, можемо користити метод познат као учење са појачањем или РЛ. Помоћу РЛ-а можете дефинисати одређени циљ који желите да ваш модел реши и постепено пустите модел да сам научи како да га постигне.

У овом чланку ћемо истражити основе учења са појачањем и како можемо да применимо РЛ оквир на низ различитих проблема у стварном свету.

Шта је учење са појачањем?

Учење са појачањем се односи на одређени подскуп Машина учење који се фокусира на проналажење решења награђивањем жељеног понашања и кажњавањем нежељених понашања.

дијаграм оквира учења са поткрепљењем

За разлику од учења под надзором, метода учења са појачањем обично нема скуп података за обуку који обезбеђује прави излаз за дати улаз. У недостатку података за обуку, алгоритам мора пронаћи решење путем покушаја и грешака. Алгоритам, који обично називамо ан заступник, мора сам пронаћи решење у интеракцији са околина.

Истраживачи одлучују о томе који ће конкретни исходи бити наградити и шта је алгоритам способан да уради. Сваки акција алгоритам ће добити неки облик повратне информације која оцењује колико добро алгоритам ради. Током процеса обуке, алгоритам ће на крају пронаћи оптимално решење за решавање одређеног проблема.

Једноставан пример: мрежа 4×4

Хајде да погледамо једноставан пример проблема који можемо да решимо учењем са појачањем.

Претпоставимо да имамо мрежу 4×4 као наше окружење. Наш агент је насумично постављен у један од квадрата заједно са неколико препрека. Мрежа ће садржати три препреке „јаме“ које се морају избећи и једну „дијамантску“ награду коју агент мора пронаћи. Потпуни опис нашег окружења познат је као окружење били су.

учење са појачањем се ослања на агента који ступа у интеракцију са симулираним окружењем

У нашем РЛ моделу, наш агент може да се помери на било који суседни квадрат све док нема препрека које га блокирају. Скуп свих важећих радњи у датом окружењу је познат као акциони простор. Циљ нашег агента је да пронађе најкраћи пут до награде.

агент има акциони простор или скуп важећих акција у датом стању

Наш агент ће користити метод учења појачања да пронађе пут до дијаманта који захтева најмање корака. Сваки прави корак ће дати роботу награду, а сваки погрешан корак ће одузети награду робота. Модел израчунава укупну награду када агент стигне до дијаманта.

Сада када смо дефинисали агента и окружење, морамо такође дефинисати правила која ће се користити за одређивање следеће акције коју ће агент предузети с обзиром на његово тренутно стање и окружење.

Политике и награде

У моделу учења са поткрепљењем, а политика односи се на стратегију коју агент користи да оствари своје циљеве. Политика агента је оно што одлучује шта агент треба да уради следеће с обзиром на тренутно стање агента и његовог окружења.

Агент мора да процени све могуће политике да би видео која је политика оптимална.

евалуација политика

У нашем једноставном примеру, слетање на празан простор ће вратити вредност од -1. Када агент слети на простор са наградом дијаманта, добиће вредност од 10. Користећи ове вредности, можемо да упоредимо различите политике користећи функција корисности U.

Хајде сада да упоредимо корисност две горе наведене политике:

У(А) = -1 – 1 -1 + 10 = 7

У(Б) = -1 – 1 – 1 – 1 – 1 + 10 = 5

Резултати показују да је политика А бољи пут до проналажења награде. Дакле, агент ће користити путању А преко политике Б.

Истраживање против експлоатације

Проблем компромиса између истраживања и експлоатације у учењу са појачањем је дилема са којом се агент мора суочити током процеса одлучивања.

Да ли агенти треба да се фокусирају на истраживање нових путева или опција или да наставе да користе опције које већ познају?

Ако агент одлучи да истражује, постоји могућност да агент пронађе бољу опцију, али такође може да ризикује губитак времена и ресурса. С друге стране, ако агент одлучи да искористи решење које већ познаје, можда ће пропустити бољу опцију.

praktična примена

Ево неколико начина Истраживачи вештачке интелигенције применили су моделе учења уз помоћ да би решили проблеме из стварног света:

Учење са појачањем у самовозећим аутомобилима

Учење са појачањем је примењено на аутомобиле који се сами возе како би се побољшала њихова способност да возе безбедно и ефикасно. Технологија омогућава аутономним аутомобилима да уче из својих грешака и стално прилагођавају своје понашање како би оптимизовали своје перформансе.

учење са појачањем које се користи за самовожњу

На пример, компанија за вештачку интелигенцију са седиштем у Лондону Ваиве је успешно применио модел учења дубоког појачања за аутономну вожњу. У свом експерименту, они су користили функцију награђивања која максимизира време које возило ради а да возач не даје информације.

РЛ модели такође помажу аутомобилима да доносе одлуке на основу окружења, као што је избегавање препрека или укључивање у саобраћај. Ови модели морају пронаћи начин да претворе сложено окружење које окружује аутомобил у репрезентативни простор стања који модел може да разуме.

Учење с појачањем у роботици

Истраживачи су такође користили учење са појачањем да би развили роботе који могу научити сложене задатке. Кроз ове РЛ моделе, роботи су у стању да посматрају своје окружење и доносе одлуке на основу својих запажања.

На пример, спроведено је истраживање о коришћењу модела учења са појачањем како би се омогућило двоножним роботима да науче како да то раде ходати сами.

учење с појачањем подучавање робота да хода

Истраживачи сматрају да је РЛ кључни метод у области роботике. Учење са појачањем даје роботским агентима оквир за учење софистицираних радњи које би иначе биле тешке за пројектовање.

Учење са појачањем у играма

РЛ модели су такође коришћени за учење како да играју видео игрице. Агенти се могу подесити да уче из својих грешака и да стално побољшавају своје перформансе у игри.

Истраживачи су већ развили агенте који могу да играју игре као што су шах, Го и покер. 2013, ДеепМинд користио је Дееп Реинфорцемент Леарнинг како би омогућио моделу да научи како да игра Атари игре од нуле.

Многе друштвене игре и видео игре имају ограничен акциони простор и добро дефинисан конкретан циљ. Ове особине раде у предности РЛ модела. РЛ методе могу брзо итерирати милионе симулираних игара како би научили оптималне стратегије за постизање победе.

Zakljucak

Било да се ради о учењу ходања или учењу играња видео игрица, РЛ модели су се показали као корисни оквири вештачке интелигенције за решавање проблема који захтевају сложено доношење одлука.

Како технологија наставља да се развија, и истраживачи и програмери ће наставити да проналазе нове апликације које искориштавају способност самоподучавања модела.

У којим практичним применама мислите да учење са појачањем може помоћи?

Учење са појачањем: вештачка интелигенција која учи на својим грешкама

Шта је учење са појачањем?