Биёед тасаввур кунем, ки шумо кӯшиш мекунед, ки ба робот чӣ гуна роҳ рафтанро омӯзед. Баръакси таълим додани компютер чӣ гуна пешгӯии нархҳои саҳмияҳо ё гурӯҳбандии тасвирҳо, мо аслан маҷмӯаи бузурги додаҳо надорем, ки мо метавонем роботи худро омӯзем.
Гарчанде ки ин ба шумо табиатан омада метавонад, роҳ рафтан дар асл як амали хеле мураккаб аст. Қадам қадам задан одатан даҳҳо мушакҳои гуногунро дар бар мегирад, ки якҷоя кор мекунанд. Кӯшиш ва усулҳое, ки барои аз як ҷо ба ҷои дигар рафтан истифода мешаванд, инчунин аз омилҳои гуногун вобаста аст, аз он ҷумла оё шумо чизеро бардошта истодаед ё майл ё дигар монеаҳо вуҷуд дорад.
Дар сенарияҳои ба ин монанд, мо метавонем усулеро истифода барем, ки ҳамчун омӯзиши тақвият ё RL маъруф аст. Бо RL, шумо метавонед ҳадафи мушаххасеро, ки мехоҳед модели шумо ҳал кунад, муайян кунед ва тадриҷан ба модел иҷозат диҳед, ки чӣ тавр иҷро кардани онро мустақилона омӯзад.
Дар ин мақола, мо асосҳои омӯзиши тақвиятро меомӯзем ва чӣ гуна мо чаҳорчӯбаи RL-ро ба мушкилоти мухталифи ҷаҳони воқеӣ татбиқ карда метавонем.
Омӯзиши мустаҳкамкунӣ чист?
Омӯзиши таҳким ба як зергурӯҳи мушаххаси омӯзиши машқҳо ки ба дарёфти роҳҳои ҳал тавассути мукофотонидани рафтори дилхоҳ ва ҷазо додани рафтори номатлуб равона шудааст.
Баръакси омӯзиши назоратшаванда, усули омӯзиши такмилдиҳӣ одатан маҷмӯаи маълумоти омӯзишӣ надорад, ки натиҷаи дурустро барои вуруди додашуда таъмин кунад. Дар сурати мавҷуд набудани маълумотҳои омӯзишӣ, алгоритм бояд ҳалли худро тавассути озмоиш ва хатогӣ пайдо кунад. Алгоритм, ки мо одатан онро ҳамчун як агенти, бояд худаш роҳи ҳалли худро бо ҳамкориҳо пайдо кунад муҳит.
Муҳаққиқон тасмим мегиранд, ки кадом натиҷаҳоро ба даст меоранд мукофот ва алгоритм ба чӣ қодир аст. Хар амал алгоритми гирифташуда як намуди фикру мулоҳизаҳоро мегирад, ки то чӣ андоза хуб кор кардани алгоритмро нишон медиҳад. Дар ҷараёни таълим, алгоритм дар ниҳоят роҳи ҳалли оптималии ҳалли масъалаи муайянро пайдо мекунад.
Мисоли оддӣ: 4×4 Grid
Биёед мисоли оддии масъалаеро дида бароем, ки мо метавонем бо омӯзиши мустаҳкамкунӣ ҳал кунем.
Фарз мекунем, ки мо як шабакаи 4 × 4 ҳамчун муҳити мо дорем. Агенти мо ба таври тасодуфӣ дар яке аз майдонҳо дар якҷоягӣ бо чанд монеа ҷойгир карда мешавад. Шабака бояд се монеаи "чоҳ" дошта бошад, ки бояд пешгирӣ карда шавад ва як мукофоти "алмос", ки агент бояд пайдо кунад. Тавсифи пурраи муҳити мо ҳамчун муҳити зист маълум аст давлат.
Дар модели RL-и мо, агенти мо метавонад ба дилхоҳ майдони ҳамсоя ҳаракат кунад, то даме ки ҳеҷ гуна монеа ба онҳо халал нарасонад. Маҷмӯи ҳамаи амалҳои дуруст дар муҳити додашуда бо номи маълум фазои амал. Мақсади агенти мо ёфтани роҳи кӯтоҳтарин ба мукофот аст.
Агенти мо усули омӯзиши тақвиятро барои дарёфти роҳи алмос, ки миқдори камтарини қадамҳоро талаб мекунад, истифода мебарад. Ҳар як қадами дуруст ба робот мукофот медиҳад ва ҳар як қадами нодуруст мукофоти роботро кам мекунад. Модел мукофоти умумиро пас аз расидани агент ба алмос ҳисоб мекунад.
Акнун, ки мо агент ва муҳити зистро муайян кардем, мо бояд инчунин қоидаҳоеро муайян кунем, ки барои муайян кардани амали навбатии агент бо назардошти ҳолати кунунии он ва муҳити зист истифода мешавад.
Сиёсат ва мукофотҳо
Дар модели омӯзиши тақвият, а сиёсати ба стратегияе дахл дорад, ки агент барои ноил шудан ба ҳадафҳои худ истифода мебарад. Сиёсати агент он чизест, ки бо назардошти вазъи кунунии агент ва муҳити он агент бояд чӣ кор кунад.
Агент бояд тамоми сиёсатҳои имконпазирро арзёбӣ кунад, то бубинад, ки кадом сиёсат беҳтарин аст.
Дар мисоли оддии мо, фуруд омадан ба фазои холӣ арзиши -1-ро бармегардонад. Вақте ки агент ба фазои дорои мукофоти алмос меафтад, онҳо арзиши 10-ро мегиранд. Бо истифода аз ин арзишҳо, мо метавонем сиёсатҳои гуногунро бо истифода аз Функсияи коммуналӣ U.
Акнун биёед фоидаи ду сиёсати дар боло дидашударо муқоиса кунем:
U(A) = -1 – 1 -1 + 10 = 7
U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5
Натиҷаҳо нишон медиҳанд, ки Сиёсати А роҳи беҳтарини дарёфти мукофот аст. Ҳамин тариқ, агент роҳи Аро бар сиёсати B истифода хоҳад кард.
Тадқиқот ва истисмор
Мушкилоти мубодилаи иктишоф ва истисмор дар омӯзиши тақвият як дилеммаест, ки агент бояд ҳангоми қабули қарор дучор шавад.
Оё агентҳо бояд ба омӯхтани роҳҳо ё имконоти нав тамаркуз кунанд ё онҳо бояд истифодаи имконотҳоеро, ки аллакай медонанд, идома диҳанд?
Агар агент барои кашф кардан интихоб кунад, барои агент имкони пайдо кардани варианти беҳтар вуҷуд дорад, аммо он метавонад инчунин хатари беҳуда сарф кардани вақт ва захираҳоро дошта бошад. Аз тарафи дигар, агар агент барои истифодаи ҳалли он, ки аллакай медонад, интихоб кунад, он метавонад интихоби беҳтарро аз даст диҳад.
Барномаҳои амалӣ
Дар ин ҷо баъзе роҳҳо ҳастанд Муҳаққиқони AI моделҳои такмили омӯзиширо барои ҳалли мушкилоти воқеии ҷаҳонӣ истифода кардаанд:
Омӯзиши мустаҳкамкунӣ дар мошинҳои худкор
Омӯзиши такмилдиҳӣ ба мошинҳои худгард бо мақсади баланд бардоштани қобилияти рондани бехатар ва самаранок истифода карда шуд. Технология ба мошинҳои мустақил имкон медиҳад, ки аз хатогиҳои худ дарс гиранд ва рафтори худро пайваста танзим кунанд, то кори онҳоро беҳтар созанд.
Масалан, ширкати AI дар Лондон Wayve модели омӯзиши амиқро барои ронандагии мустақил бомуваффақият татбиқ кардааст. Дар озмоиши худ, онҳо як функсияи мукофотро истифода бурданд, ки вақти ҳаракати мошинро бидуни ворид кардани ронанда дар борт ба ҳадди аксар мерасонад.
Моделҳои RL инчунин ба мошинҳо дар қабули қарорҳо дар асоси муҳити зист кӯмак мекунанд, ба монанди канорагирӣ аз монеаҳо ё муттаҳид шудан ба трафик. Ин моделҳо бояд роҳи табдил додани муҳити мураккаби атрофи мошинро ба фазои намояндагии давлатӣ, ки модел фаҳманд, пайдо кунанд.
Омӯзиши таҳким дар робототехника
Муҳаққиқон инчунин омӯзиши тақвиятро барои таҳияи роботҳое истифода мебаранд, ки вазифаҳои мураккабро омӯхта метавонанд. Тавассути ин моделҳои RL, роботҳо метавонанд муҳити худро мушоҳида кунанд ва дар асоси мушоҳидаҳои худ қарор қабул кунанд.
Масалан, тадқиқот оид ба истифодаи моделҳои омӯзиши тақвият дода шудааст, то ба роботҳои дупоя имкон диҳад, ки чӣ гуна кор карданро омӯзанд рафтор кунед дар бораи худ.
Муҳаққиқон RL-ро як усули калидӣ дар соҳаи робототехника медонанд. Омӯзиши тақвият ба агентҳои роботӣ чаҳорчӯба медиҳад, ки амалҳои мураккаберо омӯзанд, ки дар акси ҳол муҳандисии онҳо душвор буда метавонанд.
Омӯзиши таҳким дар бозӣ
Моделҳои RL инчунин барои омӯхтани бозиҳои видеоӣ истифода шудаанд. Агентҳо метавонанд таъсис дода шаванд, ки аз хатогиҳои худ омӯхта шаванд ва фаъолияти худро дар бозӣ пайваста такмил диҳанд.
Тадқиқотчиён аллакай агентҳоеро таҳия кардаанд, ки метавонанд бозиҳо ба монанди шоҳмот, Go ва покер бозӣ кунанд. Дар соли 2013, Ақли амиқ Омӯзиши Deep Reinforcement-ро истифода бурд, то ба модел имкон диҳад, ки чӣ тавр аз сифр бозӣ кардани бозиҳои Atari-ро омӯзад.
Бисёре аз бозиҳои мизи корӣ ва бозиҳои видеоӣ фазои маҳдуди амал ва ҳадафи мушаххаси мушаххас доранд. Ин хислатҳо ба бартарии модели RL кор мекунанд. Усулҳои RL метавонанд ба зудӣ беш аз миллионҳо бозиҳои симулятсияшударо такрор кунанд, то стратегияҳои оптималии ба даст овардани ғалабаро омӯзанд.
хулоса
Новобаста аз он ки он омӯхтани роҳ рафтан ё омӯхтани бозиҳои видеоӣ мебошад, моделҳои RL собит шудаанд, ки чаҳорчӯбаи муфиди AI барои ҳалли мушкилоте мебошанд, ки қабули қарорҳои мураккабро талаб мекунанд.
Вақте ки технология таҳаввулро идома медиҳад, ҳам тадқиқотчиён ва ҳам таҳиягарон пайдо кардани замимаҳои наверо, ки аз қобилияти худомӯзии модел истифода мебаранд, идома медиҳанд.
Ба фикри шумо, омӯзиши таҳким дар кадом барномаҳои амалӣ метавонад ба кӯмак расонад?
Дин ва мазҳаб