Kaundan[Itago][Ipakita]
Hunahunaa nga naningkamot ka sa pagtudlo sa usa ka robot kung unsaon paglakaw. Dili sama sa pagtudlo sa usa ka kompyuter kung unsaon pagtagna ang mga presyo sa stock o pagkategorya sa mga imahe, wala gyud kami daghang mga datos nga magamit namon sa pagbansay sa among robot.
Bisan kung kini natural nga moabut kanimo, ang paglakaw sa tinuud usa ka komplikado nga aksyon. Ang paglakaw sa usa ka lakang kasagaran naglangkit sa daghang lainlaing mga kaunuran nga nagtinabangay. Ang paningkamot ug mga teknik nga gigamit sa paglakaw gikan sa usa ka lugar ngadto sa lain nagdepende usab sa lainlaing mga hinungdan, lakip na kung nagdala ka usa ka butang o kung adunay usa ka bakilid o uban pang mga porma sa mga babag.
Sa mga senaryo nga sama niini, magamit nato ang pamaagi nga nailhan nga reinforcement learning o RL. Uban sa RL, mahimo nimong ipasabut ang usa ka piho nga katuyoan nga gusto nimo nga sulbaron sa imong modelo ug hinayhinay nga tugotan ang modelo nga makakat-on sa kaugalingon kung giunsa kini mahimo.
Niini nga artikulo, atong tukion ang mga sukaranan sa pagpalig-on sa pagkat-on ug unsaon nato paggamit ang RL framework sa lain-laing lain-laing mga problema sa tinuod nga kalibutan.
Unsa ang reinforcement learning?
Ang pagkat-on sa pagpalig-on nagtumong sa usa ka partikular nga subset sa pagkat-on sa makina nga nagpunting sa pagpangita og mga solusyon pinaagi sa pagganti sa gitinguha nga pamatasan ug pagsilot sa dili gusto nga pamatasan.
Dili sama sa supervised learning, ang reinforcement learning method kasagarang walay training dataset nga naghatag sa saktong output para sa gihatag nga input. Kung wala ang datos sa pagbansay, ang algorithm kinahanglan nga makit-an ang solusyon pinaagi sa pagsulay ug sayup. Ang algorithm, nga kasagaran natong gitawag nga usa ka ahente, kinahanglan mangita sa solusyon sa iyang kaugalingon pinaagi sa pagpakig-uban sa palibot.
Ang mga tigdukiduki nagdesisyon kung unsang partikular nga mga sangputanan ganti ug unsa ang mahimo sa algorithm. Matag aksyon ang algorithm nga gikuha makadawat og usa ka matang sa feedback nga nag-iskor kung unsa ka maayo ang gibuhat sa algorithm. Atol sa proseso sa pagbansay, ang algorithm sa katapusan makit-an ang kamalaumon nga solusyon aron masulbad ang usa ka problema.
Usa ka Yano nga Panig-ingnan: 4 × 4 Grid
Atong tan-awon ang usa ka yano nga pananglitan sa usa ka problema nga mahimo natong sulbaron pinaagi sa pagpalig-on sa pagkat-on.
Ibutang ta nga aduna kitay 4×4 grid isip atong palibot. Ang among ahente gibutang nga random sa usa sa mga square kauban ang pipila ka mga babag. Ang grid adunay tulo ka "pit" nga mga babag nga kinahanglan likayan ug usa ka "diamond" nga ganti nga kinahanglan pangitaon sa ahente. Ang kompleto nga paghulagway sa atong palibot nailhan nga environment's estado.
Sa among modelo sa RL, ang among ahente mahimong mobalhin sa bisan unsang kasikbit nga square basta wala’y mga babag nga nagbabag kanila. Ang set sa tanan nga balido nga mga aksyon sa usa ka gihatag nga palibot nailhan nga ang luna sa aksyon. Ang tumong sa among ahente mao ang pagpangita sa pinakamubo nga dalan paingon sa ganti.
Gamiton sa among ahente ang paagi sa pagkat-on sa pagpalig-on aron makit-an ang agianan padulong sa diamante nga nanginahanglan labing gamay nga mga lakang. Ang matag saktong lakang maghatag sa robot og reward ug ang matag sayop nga lakang maminusan ang reward sa robot. Gikalkulo sa modelo ang kinatibuk-ang ganti sa higayon nga ang ahente makaabot sa diamante.
Karon nga atong gihubit ang ahente ug palibot, kinahanglan usab nato nga ipasabot ang mga lagda nga gamiton sa pagtino sa sunod nga aksyon nga himoon sa ahente tungod sa kasamtangang kahimtang niini ug sa palibot.
Mga Patakaran ug Ganti
Sa usa ka reinforcement learning model, a palisiya nagtumong sa estratehiya nga gigamit sa usa ka ahente aron matuman ang ilang mga tumong. Ang palisiya sa ahente mao ang magdesisyon kung unsa ang sunod nga buhaton sa ahente tungod sa kasamtangan nga kahimtang sa ahente ug sa palibot niini.
Ang ahente kinahanglan nga magtimbang-timbang sa tanan nga posible nga mga palisiya aron makita kung unsang polisiya ang labing maayo.
Sa among yano nga pananglitan, ang pag-landing sa usa ka walay sulod nga wanang magbalik sa kantidad nga -1. Kung ang ahente mitugpa sa usa ka luna nga adunay ganti nga diamante, makadawat sila og kantidad nga 10. Gamit kini nga mga kantidad, mahimo naton itandi ang lainlaing mga palisiya gamit ang usa ka utility function U.
Atong itandi karon ang kapuslanan sa duha ka mga palisiya nga makita sa ibabaw:
U(A) = -1 – 1 -1 + 10 = 7
U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5
Ang mga resulta nagpakita nga ang Patakaran A mao ang mas maayong dalan sa pagpangita sa ganti. Busa, ang ahente mogamit sa Path A sa Policy B.
Eksplorasyon batok sa Pagpahimulos
Ang eksplorasyon batok sa pagpahimulos trade-off nga problema sa reinforcement nga pagkat-on usa ka problema nga kinahanglan atubangon sa usa ka ahente sa panahon sa proseso sa pagdesisyon.
Kinahanglan ba nga ang mga ahente mag-focus sa pagsuhid sa bag-ong mga agianan o kapilian o kinahanglan ba nila nga ipadayon ang pagpahimulos sa mga kapilian nga nahibal-an na nila?
Kung ang ahente mopili sa pagsuhid, adunay posibilidad nga ang ahente makapangita og mas maayo nga kapilian, apan mahimo usab nga peligro ang pag-usik sa oras ug mga kapanguhaan. Sa laing bahin, kung gipili sa ahente nga pahimuslan ang solusyon nga nahibal-an na niini, mahimo’g mawala ang usa ka labi ka maayo nga kapilian.
Praktikal nga mga Aplikasyon
Ania ang pipila ka mga paagi Mga tigdukiduki sa AI nag-apply sa mga modelo sa pagkat-on sa pagpalig-on aron masulbad ang mga problema sa tinuod nga kalibutan:
Pagpalig-on sa Pagkat-on sa Self-Driving Cars
Ang pagkat-on sa pagpalig-on gipadapat sa mga awto nga nagmaneho sa kaugalingon aron mapauswag ang ilang abilidad sa pagmaneho nga luwas ug episyente. Gitugotan sa teknolohiya ang mga awtonomous nga awto nga makakat-on gikan sa ilang mga kasaypanan ug padayon nga i-adjust ang ilang pamatasan aron ma-optimize ang ilang pasundayag.
Pananglitan, ang kompanya sa AI nga nakabase sa London Wayve malampuson nga nag-apply sa usa ka lawom nga modelo sa pagkat-on sa pagpalig-on alang sa awtonomiya nga pagmaneho. Sa ilang eksperimento, gigamit nila ang usa ka function sa ganti nga nagpadako sa oras nga nagdagan ang awto kung wala ang drayber nga nakasakay nga naghatag input.
Ang mga modelo sa RL makatabang usab sa mga sakyanan sa paghimog mga desisyon base sa palibot, sama sa paglikay sa mga babag o paghiusa sa trapiko. Kini nga mga modelo kinahanglan mangita usa ka paagi aron mabag-o ang komplikado nga palibot nga naglibot sa usa ka awto nga usa ka representante nga wanang sa estado nga masabtan sa modelo.
Pagpalig-on sa Pagkat-on sa Robotics
Gigamit usab sa mga tigdukiduki ang reinforcement nga pagkat-on aron makahimo og mga robot nga makakat-on sa mga komplikadong buluhaton. Pinaagi niining mga modelo sa RL, ang mga robot makahimo sa pag-obserbar sa ilang palibot ug paghimog mga desisyon base sa ilang mga obserbasyon.
Pananglitan, gihimo ang panukiduki sa paggamit sa mga modelo sa pagkat-on sa pagpalig-on aron tugotan ang mga bipedal nga robot nga makakat-on unsaon paglakaw sa ilang kaugalingon.
Giisip sa mga tigdukiduki ang RL nga usa ka hinungdanon nga pamaagi sa natad sa robotics. Ang pagkat-on sa pagpalig-on naghatag sa mga ahente sa robot og usa ka balangkas aron makakat-on sa mga sopistikado nga mga aksyon nga mahimong lisud i-engineer.
Pagpalig-on sa Pagkat-on sa Dula
Ang mga modelo sa RL gigamit usab aron makat-on kung unsaon pagdula ang mga dula sa video. Ang mga ahente mahimong ma-set up aron makat-on gikan sa ilang mga kasaypanan ug padayon nga mapaayo ang ilang pasundayag sa dula.
Ang mga tigdukiduki nakahimo na og mga ahente nga makaduwa sama sa chess, Go, ug poker. Niadtong 2013, DeepMind migamit sa Deep Reinforcement Learning aron tugotan ang usa ka modelo nga makat-on unsaon pagdula sa mga dula sa Atari gikan sa wala.
Daghang mga dula sa board ug mga dula sa video adunay limitado nga wanang sa aksyon ug usa ka maayo nga gipasabut nga konkreto nga katuyoan. Kini nga mga kinaiya nagtrabaho sa bentaha sa modelo sa RL. Ang mga pamaagi sa RL dali nga magbag-o sa milyon-milyon nga mga simulate nga dula aron mahibal-an ang labing maayo nga mga estratehiya aron makab-ot ang kadaugan.
Panapos
Kung nagkat-on kini kung unsaon paglakaw o pagkat-on unsaon pagdula sa mga video game, ang mga modelo sa RL napamatud-an nga mapuslanon nga mga framework sa AI alang sa pagsulbad sa mga problema nga nanginahanglan komplikado nga paghimog desisyon.
Samtang ang teknolohiya nagpadayon sa pag-uswag, ang mga tigdukiduki ug mga developer magpadayon sa pagpangita og bag-ong mga aplikasyon nga nagpahimulos sa abilidad sa pagtudlo sa kaugalingon sa modelo.
Unsang praktikal nga mga aplikasyon sa imong hunahuna ang makatabang sa pagkat-on sa pagpalig-on?
Leave sa usa ka Reply