Talaan ng nilalaman[Tago][Ipakita]
Isipin natin na sinusubukan mong turuan ang isang robot kung paano maglakad. Hindi tulad ng pagtuturo sa isang computer kung paano hulaan ang mga presyo ng stock o ikategorya ang mga larawan, wala talaga kaming malaking dataset na magagamit namin para sanayin ang aming robot.
Bagama't maaaring natural itong dumating sa iyo, ang paglalakad ay talagang isang napakakomplikadong aksyon. Ang paglalakad ng isang hakbang ay karaniwang nagsasangkot ng dose-dosenang iba't ibang mga kalamnan na nagtutulungan. Ang pagsusumikap at mga diskarte na ginagamit sa paglalakad mula sa isang lugar patungo sa isa pa ay nakasalalay din sa iba't ibang mga kadahilanan, kabilang ang kung ikaw ay may dalang isang bagay o kung mayroong isang sandal o iba pang mga anyo ng mga hadlang.
Sa mga ganitong sitwasyon, maaari tayong gumamit ng paraan na kilala bilang reinforcement learning o RL. Sa RL, maaari mong tukuyin ang isang partikular na layunin na gusto mong lutasin ng iyong modelo at unti-unting hayaan ang modelo na matuto nang mag-isa kung paano ito maisakatuparan.
Sa artikulong ito, i-explore natin ang mga pangunahing kaalaman sa reinforcement learning at kung paano natin mailalapat ang RL framework sa iba't ibang problema sa totoong mundo.
Ano ang reinforcement learning?
Ang reinforcement learning ay tumutukoy sa isang partikular na subset ng machine learning na nakatutok sa paghahanap ng mga solusyon sa pamamagitan ng pagbibigay ng reward sa mga gustong gawi at pagpaparusa sa mga hindi gustong gawi.
Hindi tulad ng pinangangasiwaang pag-aaral, ang paraan ng reinforcement learning ay karaniwang walang dataset ng pagsasanay na nagbibigay ng tamang output para sa isang ibinigay na input. Sa kawalan ng data ng pagsasanay, dapat mahanap ng algorithm ang solusyon sa pamamagitan ng pagsubok at pagkakamali. Ang algorithm, na karaniwan naming tinutukoy bilang isang ahente, ay dapat mahanap ang solusyon sa pamamagitan ng kanyang sarili sa pamamagitan ng pakikipag-ugnayan sa kapaligiran.
Ang mga mananaliksik ay nagpapasya sa kung anong partikular na mga resulta gantimpalaan at kung ano ang kayang gawin ng algorithm. Bawat aksyon ang kinukuha ng algorithm ay makakatanggap ng ilang uri ng feedback na nagbibigay ng marka kung gaano kahusay ang ginagawa ng algorithm. Sa panahon ng proseso ng pagsasanay, ang algorithm sa kalaunan ay makakahanap ng pinakamainam na solusyon upang malutas ang isang partikular na problema.
Isang Simpleng Halimbawa: 4×4 Grid
Tingnan natin ang isang simpleng halimbawa ng problemang malulutas natin sa reinforcement learning.
Ipagpalagay na mayroon tayong 4×4 grid bilang ating kapaligiran. Ang aming ahente ay random na inilalagay sa isa sa mga parisukat kasama ang ilang mga hadlang. Ang grid ay dapat maglaman ng tatlong "pit" obstacles na dapat iwasan at isang solong "diamond" reward na dapat mahanap ng ahente. Ang kumpletong paglalarawan ng ating kapaligiran ay kilala bilang ang kapaligiran ay.
Sa aming RL model, ang aming ahente ay maaaring lumipat sa anumang katabing parisukat hangga't walang mga hadlang na humaharang sa kanila. Ang hanay ng lahat ng wastong pagkilos sa isang partikular na kapaligiran ay kilala bilang ang puwang ng pagkilos. Ang layunin ng aming ahente ay mahanap ang pinakamaikling landas patungo sa reward.
Gagamitin ng aming ahente ang paraan ng pag-aaral ng reinforcement upang mahanap ang landas patungo sa brilyante na nangangailangan ng pinakamaliit na hakbang. Ang bawat tamang hakbang ay magbibigay sa robot ng reward at sa bawat maling hakbang ay mababawasan ang reward ng robot. Kinakalkula ng modelo ang kabuuang reward kapag naabot ng ahente ang brilyante.
Ngayong natukoy na natin ang ahente at kapaligiran, dapat din nating tukuyin ang mga panuntunang gagamitin para sa pagtukoy sa susunod na aksyon na gagawin ng ahente dahil sa kasalukuyang kalagayan nito at sa kapaligiran.
Mga Patakaran at Gantimpala
Sa isang reinforcement learning model, a patakaran ay tumutukoy sa diskarte na ginagamit ng isang ahente upang maisakatuparan ang kanilang mga layunin. Ang patakaran ng ahente ay kung ano ang magpapasya kung ano ang susunod na dapat gawin ng ahente dahil sa kasalukuyang kalagayan ng ahente at kapaligiran nito.
Dapat suriin ng ahente ang lahat ng posibleng patakaran upang makita kung aling patakaran ang pinakamainam.
Sa aming simpleng halimbawa, ang pag-landing sa isang bakanteng espasyo ay magbabalik ng halaga na -1. Kapag napunta ang ahente sa isang puwang na may reward na diyamante, makakatanggap sila ng halagang 10. Gamit ang mga halagang ito, maihahambing natin ang iba't ibang patakaran gamit ang isang function ng utility U.
Ihambing natin ngayon ang utility ng dalawang patakarang nakikita sa itaas:
U(A) = -1 – 1 -1 + 10 = 7
U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5
Ipinapakita ng mga resulta na ang Patakaran A ay ang mas mahusay na landas sa paghahanap ng reward. Kaya, gagamitin ng ahente ang Path A kaysa sa Patakaran B.
Paggalugad kumpara sa Pagsasamantala
Ang eksplorasyon kumpara sa pagsasamantala na trade-off na problema sa reinforcement learning ay isang dilemma na dapat harapin ng isang ahente sa panahon ng proseso ng desisyon.
Dapat bang tumuon ang mga ahente sa paggalugad ng mga bagong landas o opsyon o dapat nilang ipagpatuloy ang pagsasamantala sa mga opsyon na alam na nila?
Kung pipiliin ng ahente na mag-explore, may posibilidad na makahanap ang ahente ng mas mahusay na opsyon, ngunit maaari rin itong mag-aaksaya ng oras at mapagkukunan. Sa kabilang banda, kung pipiliin ng ahente na pagsamantalahan ang solusyon na alam na nito, maaaring mawalan ito ng mas magandang opsyon.
praktikal Aplikasyon
Narito ang ilang paraan Mga mananaliksik ng AI ay naglapat ng mga modelo ng reinforcement learning upang malutas ang mga problema sa totoong mundo:
Reinforcement Learning sa Self-Driving Cars
Inilapat ang reinforcement learning sa mga self-driving na kotse upang mapahusay ang kanilang kakayahang magmaneho nang ligtas at mahusay. Ang teknolohiya ay nagbibigay-daan sa mga autonomous na kotse na matuto mula sa kanilang mga pagkakamali at patuloy na ayusin ang kanilang pag-uugali upang ma-optimize ang kanilang pagganap.
Halimbawa, ang kumpanyang AI na nakabase sa London Wayve ay matagumpay na naglapat ng deep reinforcement learning model para sa autonomous na pagmamaneho. Sa kanilang eksperimento, gumamit sila ng reward function na nag-maximize sa dami ng oras na tumatakbo ang sasakyan nang hindi nagbibigay ng input ang driver na nakasakay.
Tinutulungan din ng mga modelo ng RL ang mga kotse na gumawa ng mga desisyon batay sa kapaligiran, tulad ng pag-iwas sa mga hadlang o pagsasama sa trapiko. Ang mga modelong ito ay dapat na makahanap ng isang paraan upang i-convert ang kumplikadong kapaligiran na nakapalibot sa isang kotse sa isang kinatawan ng puwang ng estado na mauunawaan ng modelo.
Reinforcement Learning sa Robotics
Gumagamit din ang mga mananaliksik ng reinforcement learning upang bumuo ng mga robot na maaaring matuto ng mga kumplikadong gawain. Sa pamamagitan ng mga modelong RL na ito, napagmamasdan ng mga robot ang kanilang kapaligiran at nakapagpapasya batay sa kanilang mga obserbasyon.
Halimbawa, ang pananaliksik ay ginawa sa paggamit ng mga modelo ng reinforcement learning upang payagan ang mga bipedal na robot na matutunan kung paano maglakad sa kanilang sariling.
Itinuturing ng mga mananaliksik na ang RL ay isang pangunahing pamamaraan sa larangan ng robotics. Ang reinforcement learning ay nagbibigay sa mga robotic agent ng isang framework para matuto ng mga sopistikadong aksyon na maaaring mahirap i-engineer.
Reinforcement Learning sa Gaming
Ginamit din ang mga modelo ng RL upang matutunan kung paano maglaro ng mga video game. Maaaring i-set up ang mga ahente upang matuto mula sa kanilang mga pagkakamali at patuloy na pagbutihin ang kanilang pagganap sa laro.
Nakabuo na ang mga mananaliksik ng mga ahente na maaaring maglaro tulad ng chess, Go, at poker. Noong 2013, Deepmind gumamit ng Deep Reinforcement Learning upang payagan ang isang modelo na matutunan kung paano maglaro ng mga laro ng Atari mula sa simula.
Maraming mga board game at video game ang may limitadong espasyo para sa pagkilos at isang mahusay na tinukoy na kongkretong layunin. Gumagana ang mga katangiang ito sa kalamangan ng modelong RL. Ang mga pamamaraan ng RL ay maaaring mabilis na umulit sa milyun-milyong mga simulate na laro upang matutunan ang pinakamainam na mga diskarte upang makamit ang tagumpay.
Konklusyon
Kung ito man ay pag-aaral kung paano maglakad o pag-aaral kung paano maglaro ng mga video game, ang mga modelo ng RL ay napatunayang kapaki-pakinabang na mga framework ng AI para sa paglutas ng mga problema na nangangailangan ng kumplikadong paggawa ng desisyon.
Habang patuloy na umuunlad ang teknolohiya, ang mga mananaliksik at developer ay patuloy na makakahanap ng mga bagong application na sinasamantala ang kakayahan ng modelo sa pagtuturo sa sarili.
Anong mga praktikal na aplikasyon sa tingin mo ang makakatulong sa reinforcement learning?
Mag-iwan ng Sagot