Mundarija[Yashirish][Show]
Tasavvur qilaylik, siz robotga qanday yurishni o'rgatmoqchisiz. Kompyuterga aksiyalar narxini bashorat qilishni yoki tasvirlarni toifalarga ajratishni o'rgatishdan farqli o'laroq, bizda robotimizni o'rgatish uchun foydalana oladigan katta ma'lumotlar to'plami yo'q.
Bu sizga tabiiy bo'lishi mumkin bo'lsa-da, yurish aslida juda murakkab harakatdir. Bir qadam yurish odatda o'nlab turli mushaklarning birgalikda ishlashini o'z ichiga oladi. Bir joydan ikkinchi joyga yurish uchun qo'llaniladigan harakatlar va texnikalar ham turli omillarga, jumladan, siz biror narsa olib yurasizmi yoki qiyalik yoki boshqa to'siqlar mavjudmi-yo'qligiga bog'liq.
Bunday stsenariylarda biz mustahkamlashni o'rganish yoki RL deb nomlanuvchi usuldan foydalanishimiz mumkin. RL yordamida siz modelingiz hal qilishni istagan aniq maqsadni belgilashingiz va asta-sekin modelga uni qanday amalga oshirishni o'rganishiga imkon berishingiz mumkin.
Ushbu maqolada biz mustahkamlashni o'rganish asoslarini va real dunyoda turli xil muammolarga RL tizimini qanday qo'llashimiz mumkinligini o'rganamiz.
Mustahkamlashni o'rganish nima?
Mustahkamlovchi o'rganish ma'lum bir kichik to'plamini anglatadi kompyuterni o'rganish bu kerakli xatti-harakatlarni mukofotlash va istalmagan xatti-harakatlarni jazolash orqali echimlarni topishga qaratilgan.
Nazorat ostidagi ta'limdan farqli o'laroq, mustahkamlashni o'rganish usuli odatda berilgan kirish uchun to'g'ri natijani ta'minlaydigan o'quv ma'lumotlar to'plamiga ega emas. O'quv ma'lumotlari bo'lmasa, algoritm sinov va xatolik yo'li bilan yechim topishi kerak. Biz odatda a deb ataladigan algoritm agent, bilan oʻzaro taʼsirlashib, oʻz-oʻzidan yechim topishi kerak atrof-muhit.
Tadqiqotchilar aniq natijalarga qaror qilishadi sovrin va algoritm nimaga qodir. Har harakat Qabul qilingan algoritm algoritm qanchalik yaxshi ishlayotganligini baholovchi qandaydir fikr-mulohazalarni oladi. Mashg'ulot jarayonida algoritm pirovardida ma'lum bir masalani yechish uchun optimal yechim topadi.
Oddiy misol: 4×4 panjara
Keling, mustahkamlashni o'rganish orqali hal qilishimiz mumkin bo'lgan oddiy misolni ko'rib chiqaylik.
Aytaylik, bizning muhitimiz sifatida 4 × 4 panjara mavjud. Bizning agentimiz tasodifiy ravishda kvadratlardan biriga bir nechta to'siqlar bilan birga joylashtirilgan. To'rda oldini olish kerak bo'lgan uchta "chuqur" to'siq va agent topishi kerak bo'lgan bitta "olmos" mukofoti bo'lishi kerak. Bizning atrof-muhitning to'liq tavsifi atrof-muhit deb nomlanadi Davlat.
Bizning RL modelimizda agentimiz ularni to'sib qo'yadigan hech qanday to'siq bo'lmasa, istalgan qo'shni kvadratga o'tishi mumkin. Muayyan muhitdagi barcha amallar to'plami deyiladi harakat maydoni. Bizning agentimizning maqsadi mukofot sari eng qisqa yo'lni topishdir.
Bizning agentimiz eng kam qadamlarni talab qiladigan olmosga boradigan yo'lni topish uchun mustahkamlashni o'rganish usulidan foydalanadi. Har bir to'g'ri qadam robotga mukofot beradi va har bir noto'g'ri qadam robotning mukofotini olib tashlaydi. Model agent olmosga yetib borgach, umumiy mukofotni hisoblab chiqadi.
Endi biz agent va muhitni aniqlaganimizdan so'ng, agentning joriy holati va atrof-muhitni hisobga olgan holda keyingi harakatini aniqlashda foydalanish qoidalarini ham belgilashimiz kerak.
Siyosat va mukofotlar
Mustahkamlovchi ta'lim modelida a siyosat o'z maqsadlariga erishish uchun agent tomonidan qo'llaniladigan strategiyani anglatadi. Agentning siyosati agentning hozirgi holati va uning muhitini hisobga olgan holda agent keyingi nima qilishi kerakligini hal qiladigan narsadir.
Qaysi siyosat optimal ekanligini aniqlash uchun agent barcha mumkin bo'lgan siyosatlarni baholashi kerak.
Bizning oddiy misolimizda, bo'sh joyga qo'nish -1 qiymatini qaytaradi. Agent olmos mukofoti bo'lgan joyga tushganda, ular 10 qiymatiga ega bo'ladilar. Ushbu qiymatlardan foydalanib, biz turli xil siyosatlarni taqqoslashimiz mumkin. foydali funksiya U.
Keling, yuqorida ko'rsatilgan ikkita siyosatning foydasini solishtiramiz:
U(A) = -1 – 1 -1 + 10 = 7
U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5
Natijalar shuni ko'rsatadiki, A siyosati mukofotni topishning eng yaxshi yo'lidir. Shunday qilib, agent A yo'lidan B siyosatidan foydalanadi.
Qidiruv va ekspluatatsiya
Ta'limni mustahkamlashda qidiruv va ekspluatatsiyani o'zaro almashish muammosi agent qaror qabul qilish jarayonida duch kelishi kerak bo'lgan dilemmadir.
Agentlar yangi yo'llar yoki variantlarni o'rganishga e'tibor qaratishlari kerakmi yoki ular allaqachon bilgan variantlardan foydalanishda davom etishlari kerakmi?
Agar agent o'rganishni tanlasa, agent uchun yaxshiroq variantni topish imkoniyati mavjud, ammo u vaqt va resurslarni behuda sarflash xavfi ham bo'lishi mumkin. Boshqa tomondan, agar agent o'zi bilgan yechimdan foydalanishni tanlasa, u yaxshiroq variantni o'tkazib yuborishi mumkin.
Amaliy dasturlar
Mana bir necha usullar AI tadqiqotchilari Haqiqiy muammolarni hal qilish uchun mustahkamlashni o'rganish modellarini qo'lladilar:
O'z-o'zidan boshqariladigan avtomobillarda mustahkamlashni o'rganish
Xavfsiz va samarali haydash qobiliyatini yaxshilash uchun o'z-o'zidan boshqariladigan avtomobillarga mustahkamlashni o'rganish qo'llanildi. Texnologiya avtonom avtomashinalarga xatolaridan saboq olish va ish faoliyatini optimallashtirish uchun doimiy ravishda xatti-harakatlarini sozlash imkonini beradi.
Masalan, Londonda joylashgan AI kompaniyasi Wayve avtonom haydash uchun chuqur mustahkamlashni o'rganish modelini muvaffaqiyatli qo'lladi. Tajribalarida ular mukofotlash funksiyasidan foydalanganlar, bu esa avtomobilning bortda haydovchisiz ishlagan vaqtini maksimal darajada oshiradi.
RL modellari, shuningdek, avtomobillarga to'siqlardan qochish yoki tirbandlikka qo'shilish kabi atrof-muhitga asoslangan qarorlar qabul qilishda yordam beradi. Ushbu modellar avtomobilni o'rab turgan murakkab muhitni model tushunadigan vakillik holatiga aylantirish yo'lini topishi kerak.
Robototexnika bo'yicha o'rganishni kuchaytirish
Tadqiqotchilar, shuningdek, murakkab vazifalarni o'rgana oladigan robotlarni ishlab chiqish uchun mustahkamlashni o'rganishdan foydalanishdi. Ushbu RL modellari orqali robotlar atrof-muhitni kuzatishi va kuzatishlari asosida qaror qabul qilishlari mumkin.
Misol uchun, ikki oyoqli robotlarga qanday qilishni o'rganishga imkon berish uchun mustahkamlashni o'rganish modellaridan foydalanish bo'yicha tadqiqotlar olib borildi yurish o'z-o'zidan.
Tadqiqotchilar RLni robototexnika sohasidagi asosiy usul deb hisoblashadi. Kuchaytirish o'rganish robot agentlariga murakkab harakatlarni o'rganish uchun asos beradi, aks holda muhandislik qilish qiyin bo'lishi mumkin.
O'yinda o'rganishni mustahkamlash
RL modellari video o'yinlarni o'ynashni o'rganish uchun ham ishlatilgan. Agentlar o'z xatolaridan saboq olish va o'yindagi faoliyatini doimiy ravishda yaxshilash uchun tashkil etilishi mumkin.
Tadqiqotchilar allaqachon shaxmat, Go va poker kabi o'yinlarni o'ynay oladigan agentlarni ishlab chiqishgan. 2013 yilda, DeepMind Modelga Atari o'yinlarini noldan o'ynashni o'rganish imkonini berish uchun Deep Reinforcement Learning dasturidan foydalangan.
Ko'pgina stol o'yinlari va video o'yinlari cheklangan harakat maydoniga va aniq belgilangan aniq maqsadga ega. Bu xususiyatlar RL modelining afzalliklariga ishlaydi. RL usullari g'alaba qozonish uchun optimal strategiyalarni o'rganish uchun millionlab simulyatsiya qilingan o'yinlarni tezda takrorlashi mumkin.
Xulosa
Yurishni o'rganish yoki video o'yinlarni o'ynashni o'rganish bo'ladimi, RL modellari murakkab qarorlar qabul qilishni talab qiladigan muammolarni hal qilish uchun foydali AI ramkalari ekanligi isbotlangan.
Texnologiya rivojlanishda davom etar ekan, tadqiqotchilar ham, ishlab chiquvchilar ham modelning o‘zini o‘zi o‘qitish qobiliyatidan foydalanadigan yangi ilovalarni topishda davom etadilar.
Sizningcha, mustahkamlashni o'rganish qanday amaliy dasturlarda yordam berishi mumkin?
Leave a Reply