Ann imajine w ap eseye anseye yon robo kijan pou l mache. Kontrèman ak anseye yon òdinatè ki jan yo predi pri aksyon oswa kategorize imaj, nou pa reyèlman gen yon seri done gwo ke nou ka itilize pou fòme robo nou an.
Pandan ke li ka vin natirèlman pou ou, mache se aktyèlman yon aksyon trè konplèks. Mache yon etap anjeneral enplike plizyè douzèn misk diferan k ap travay ansanm. Efò ak teknik yo itilize pou mache soti nan yon kote nan yon lòt tou depann de yon varyete de faktè, tankou si w ap pote yon bagay oswa si gen yon pant oswa lòt fòm obstak.
Nan senaryo tankou sa yo, nou ka itilize yon metòd ke yo rekonèt kòm aprantisaj ranfòsman oswa RL. Avèk RL, ou ka defini yon objektif espesifik ou vle modèl ou a rezoud epi piti piti kite modèl la aprann poukont li kijan pou akonpli li.
Nan atik sa a, nou pral eksplore baz yo nan aprantisaj ranfòsman ak fason nou ka aplike kad RL a nan yon varyete de pwoblèm diferan nan mond reyèl la.
Ki sa ki aprantisaj ranfòsman?
Aprantisaj ranfòsman refere a yon pati patikilye nan aprantisaj machin ki konsantre sou jwenn solisyon nan rekonpanse konpòtman vle ak pini konpòtman endezirab.
Kontrèman ak aprantisaj sipèvize, metòd aprantisaj ranfòsman tipikman pa gen yon seri done fòmasyon ki bay bon rezilta pou yon opinyon bay yo. Nan absans done fòmasyon, algorithm la dwe jwenn solisyon an nan esè ak erè. Algorithm la, ke nou anjeneral refere yo kòm yon ajan, dwe jwenn solisyon an pou kont li pa kominike avèk la anviwònman.
Chèchè deside sou ki rezilta patikilye yo rekonpanse ak sa algorithm a kapab fè. Chak aksyon algorithm la pran pral resevwa kèk fòm fidbak ki nòt kòman algorithm la ap fè. Pandan pwosesis fòmasyon an, algorithm la pral evantyèlman jwenn solisyon an pi bon pou rezoud yon sèten pwoblèm.
Yon Egzanp Senp: 4×4 Grid
Ann gade yon egzanp senp sou yon pwoblèm nou ka rezoud ak aprantisaj ranfòsman.
Sipoze nou gen yon kadriyaj 4 × 4 kòm anviwònman nou an. Ajan nou an mete owaza nan youn nan kare yo ansanm ak kèk obstak. Kadriyaj la dwe genyen twa obstak "twou twou" ki dwe evite ak yon sèl rekonpans "dyaman" ke ajan an dwe jwenn. Deskripsyon konplè anviwònman nou an ke yo rekonèt kòm anviwònman an te.
Nan modèl RL nou an, ajan nou an ka deplase nan nenpòt kare adjasan osi lontan ke pa gen okenn obstak ki bloke yo. Ansanm tout aksyon ki valab nan yon anviwonman yo ke yo rekonèt kòm la espas aksyon. Objektif ajan nou an se jwenn chemen ki pi kout nan rekonpans la.
Ajan nou an pral sèvi ak metòd aprantisaj ranfòsman an pou jwenn chemen an nan dyaman ki mande pi piti kantite etap. Chak etap ki kòrèk pral bay robo a yon rekonpans epi chak etap ki mal pral soustraksyon rekonpans robo a. Modèl la kalkile rekonpans total la yon fwa ajan an rive nan dyaman an.
Kounye a ke nou te defini ajan an ak anviwònman, nou dwe defini tou règ yo itilize pou detèmine pwochen aksyon ajan an pral pran dapre eta aktyèl li ak anviwònman an.
Règleman ak rekonpans
Nan yon modèl aprantisaj ranfòsman, a politik refere a estrateji yon ajan itilize pou akonpli objektif yo. Politik ajan an se sa ki deside kisa ajan an ta dwe fè apre yo bay eta aktyèl ajan an ak anviwònman li yo.
Ajan an dwe evalye tout politik posib pou wè ki politik ki pi bon.
Nan egzanp senp nou an, ateri sou yon espas vid pral retounen yon valè de -1. Lè ajan an ateri sou yon espas ki gen rekonpans dyaman an, yo pral resevwa yon valè 10. Sèvi ak valè sa yo, nou ka konpare diferan politik yo lè l sèvi avèk yon fonksyon sèvis piblik U.
Ann konpare kounye a sèvis piblik de politik yo wè pi wo a:
U(A) = -1 – 1 -1 + 10 = 7
U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5
Rezilta yo montre ke Policy A se pi bon chemen pou jwenn rekonpans la. Kidonk, ajan an pral itilize Path A sou Policy B.
Eksplorasyon vs eksplwatasyon
Pwoblèm konpwomi eksplorasyon ak eksplwatasyon nan aprantisaj ranfòsman se yon dilèm yon ajan dwe fè fas a pandan pwosesis desizyon an.
Èske ajan yo ta dwe konsantre sou eksplore nouvo chemen oswa opsyon oswa yo ta dwe kontinye eksplwate opsyon yo deja konnen?
Si ajan an chwazi eksplore, gen yon posibilite pou ajan an jwenn yon pi bon opsyon, men li ka riske gaspiye tan ak resous tou. Nan lòt men an, si ajan an chwazi eksplwate solisyon an li deja konnen, li ka manke soti nan yon opsyon ki pi bon.
Aplikasyon pratik
Men kèk fason AI chèchè te aplike modèl aprantisaj ranfòsman pou rezoud pwoblèm nan mond reyèl la:
Ranfòsman Aprantisaj nan machin oto-kondwi
Aprantisaj ranfòsman yo te aplike nan machin oto-kondwi yo nan lòd yo amelyore kapasite yo nan kondwi san danje epi avèk efikasite. Teknoloji a pèmèt machin otonòm yo aprann nan erè yo epi yo kontinye ajiste konpòtman yo nan lòd yo optimize pèfòmans yo.
Pou egzanp, konpayi AI ki baze nan Lond Wayve te aplike avèk siksè yon modèl aprantisaj ranfòsman gwo twou san fon pou kondwi otonòm. Nan eksperyans yo, yo te itilize yon fonksyon rekonpans ki maksimize kantite tan machin nan kouri san chofè abò a bay opinyon.
Modèl RL tou ede machin yo pran desizyon ki baze sou anviwònman an, tankou evite obstak oswa rantre nan trafik. Modèl sa yo dwe jwenn yon fason pou konvèti anviwònman konplèks ki antoure yon machin nan yon espas leta reprezantan ke modèl la ka konprann.
Ranfòsman Aprantisaj nan Robotics
Chèchè yo te itilize tou aprantisaj ranfòsman pou devlope robo ki ka aprann travay konplèks. Atravè modèl RL sa yo, robo yo kapab obsève anviwònman yo epi pran desizyon ki baze sou obsèvasyon yo.
Pou egzanp, yo te fè rechèch sou itilizasyon modèl aprantisaj ranfòsman pou pèmèt robo bipèd aprann kijan pou yo fè mache pou kont yo.
Chèchè yo konsidere RL kòm yon metòd kle nan domèn robotik. Aprantisaj ranfòsman bay ajan robotik yon kad pou aprann aksyon sofistike ki ka difisil pou enjenyè otreman.
Ranfòsman Aprantisaj nan Gaming
Modèl RL yo te itilize tou pou aprann kijan pou jwe jwèt videyo. Ajan yo ka mete kanpe pou aprann nan erè yo epi kontinye amelyore pèfòmans yo nan jwèt la.
Chèchè yo te deja devlope ajan ki ka jwe jwèt tankou echèk, Go, ak pokè. An 2013, DeepMind te itilize Deep Reinforcement Learning pou pèmèt yon modèl aprann kijan pou jwe jwèt Atari depi nan grafouyen.
Anpil jwèt tablo ak jwèt videyo gen yon espas aksyon limite ak yon objektif konkrè byen defini. Karakteristik sa yo travay nan avantaj modèl RL a. Metòd RL yo ka rapidman repete plis pase plizyè milyon jwèt simulation pou aprann estrateji pi bon pou reyalize viktwa.
konklizyon
Kit se aprann kijan pou mache oswa aprann kijan pou jwe jwèt videyo, modèl RL yo te pwouve yo se kad AI itil pou rezoud pwoblèm ki mande pou pran desizyon konplèks.
Kòm teknoloji a ap kontinye evolye, tou de chèchè ak devlopè yo ap kontinye jwenn nouvo aplikasyon ki pran avantaj de kapasite oto-ansèyman modèl la.
Ki aplikasyon pratik ou panse aprantisaj ranfòsman ka ede?
Kite yon Reply