Fizahan-takelaka[Afeno][Aseho]
Alao sary an-tsaina hoe miezaka mampianatra robot mandehandeha ianao. Tsy sahala amin'ny fampianarana ny solosaina amin'ny fomba maminavina ny vidin'ny tahiry na ny fanasokajiana sary, fa tsy manana tahiry lehibe azo ampiasaina hanofanana ny robot.
Na dia mety ho tonga ho azy aminao aza izany, dia asa sarotra be ny mandeha an-tongotra. Mazàna dia misy hozatra am-polony maro miara-miasa amin'ny dingana iray. Miankina amin'ny lafin-javatra isan-karazany koa ny ezaka sy ny teknika ampiasaina amin'ny fandehanana avy amin'ny toerana iray mankany amin'ny toerana hafa, anisan'izany ny hoe mitondra zavatra ianao na misy fitongilanana na endrika sakana hafa.
Amin'ny toe-javatra tahaka ireny dia afaka mampiasa fomba antsoina hoe fianarana fanamafisana na RL isika. Miaraka amin'ny RL, azonao atao ny mamaritra tanjona manokana tianao hovahan'ny maodelinao ary avelao ny modely hianatra samirery ny fomba hanatanterahana azy.
Ato amin'ity lahatsoratra ity dia hijery ny fototry ny fianarana fanamafisana sy ny fomba hampiharana ny rafitra RL amin'ny olana isan-karazany amin'ny tontolo tena izy.
Inona no atao hoe fianarana fanamafisana?
Ny fianarana fanamafisana dia manondro ampahany manokana amin'ny fianarana milina izay mifantoka amin'ny fitadiavana vahaolana amin'ny fanomezana valisoa ny fitondrantena tiana sy ny fanasaziana ny fitondrantena tsy tiana.
Tsy toy ny fianarana voaara-maso, ny fomba fianarana fanamafisana mazàna dia tsy manana angon-drakitra fanofanana izay manome vokatra tsara ho an'ny fidirana nomena. Raha tsy misy angon-drakitra fanofanana, ny algorithm dia tsy maintsy mahita ny vahaolana amin'ny alàlan'ny fitsapana sy ny fahadisoana. Ny algorithm, izay antsoina matetika hoe an mpandraharaha, dia tsy maintsy mitady vahaolana amin'ny alalan'ny fifandraisana amin'ny tontolo iainana.
Ny mpikaroka dia manapa-kevitra amin'ny vokatra manokana valim-pitia ary inona no azon'ny algorithm atao. rehetra hetsika ny algorithm raisin'ny dia hahazo endrika fanehoan-kevitra izay mamaritra ny fomba fiasan'ny algorithm. Mandritra ny dingana fanofanana, ny algorithm dia hahita vahaolana tsara indrindra hamahana olana iray.
Ohatra tsotra: 4 × 4 Grid
Andeha hojerentsika ny ohatra tsotra momba ny olana iray azontsika vahana amin'ny fianarana fanamafisana.
Aoka hatao hoe manana grid 4×4 isika ho tontolo iainantsika. Apetraka kisendrasendra ao amin'ny iray amin'ireo efamira miaraka amin'ny sakana vitsivitsy ny mpiasantsika. Ny grid dia ahitana sakana telo "lavaka" izay tsy maintsy ialana ary valisoa "diamondra" tokana izay tsy maintsy hitan'ilay mpandraharaha. Ny famaritana feno momba ny tontolo iainantsika dia fantatra amin'ny anarana hoe tontolo iainana fanjakana.
Ao amin'ny maodely RL, afaka mifindra any amin'ny efamira mifanila aminy ny mpiasanay raha tsy misy sakana manakana azy ireo. Ny fitambaran'ny hetsika manan-kery rehetra amin'ny tontolo iray dia fantatra amin'ny anarana hoe habaka hetsika. Ny tanjon'ny mpiasanay dia ny hitady ny lalana fohy indrindra mankany amin'ny valisoa.
Ny mpiasanay dia hampiasa ny fomba fianarana fanamafisana mba hahitana ny lalana mankany amin'ny diamondra izay mitaky dingana kely indrindra. Ny dingana havanana tsirairay dia hanome valisoa ho an'ny robot ary ny dingana diso rehetra dia hanaisotra ny valisoa ho an'ny robot. Ny modely dia manao kajy ny totalin'ny valisoa rehefa tonga amin'ny diamondra ilay mpandraharaha.
Ankehitriny rehefa namaritra ny mpandraharaha sy ny tontolo iainana isika, dia tsy maintsy mamaritra ihany koa ny fitsipika hampiasaina hamaritana ny hetsika manaraka izay horaisin'ny mpiasa raha jerena ny toetrany sy ny tontolo iainana ankehitriny.
Politika sy valisoa
Ao amin'ny modely fianarana fanamafisana, a politika enti-milaza ny paikady ampiasain'ny mpandraharaha iray hanatontosana ny tanjony. Ny politikan'ny mpandraharaha no manapa-kevitra ny amin'izay tokony hataon'ny mpandraharaha manaraka raha jerena ny toetry ny mpandraharaha sy ny tontolo iainany ankehitriny.
Ny mpandraharaha dia tsy maintsy manombana ny politika rehetra azo atao mba hahitana izay politika mety indrindra.
Amin'ny ohatra tsotra ataontsika, ny fipetrahana amin'ny toerana tsy misy na inona na inona dia hamerina sanda -1. Rehefa tonga eo amin'ny toerana misy ny valisoa diamondra ilay mpandraharaha dia hahazo sanda 10 izy ireo. Amin'ny fampiasana ireo soatoavina ireo dia afaka mampitaha ny politika samihafa amin'ny fampiasana a fiasan'ny utility U.
Andeha isika hampitaha ny fampiasana ireo politika roa hita etsy ambony:
U(A) = -1 – 1 -1 + 10 = 7
U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5
Ny valiny dia mampiseho fa ny Politika A no lalana tsara kokoa hahitana ny valisoa. Noho izany, ny mpandraharaha dia hampiasa ny lalana A mihoatra ny politika B.
Exploitation vs. Exploitation
Ny olan'ny fifampiraharahana amin'ny fitrandrahana sy ny fitrandrahana amin'ny fianarana fanamafisana dia olana tsy maintsy atrehin'ny mpandraharaha mandritra ny dingan'ny fanapahan-kevitra.
Tokony hifantoka amin'ny fikarohana lalana na safidy vaovao ve ny masoivoho sa tokony hanohy hitrandraka ny safidy efa fantany?
Raha misafidy ny hikaroka ilay mpandraharaha, dia mety hahita safidy tsara kokoa ilay mpandraharaha, saingy mety handany fotoana sy loharanon-karena koa izany. Amin'ny lafiny iray, raha misafidy ny hanararaotra ny vahaolana efa fantany ilay mpandraharaha, dia mety tsy hahita safidy tsara kokoa izy.
Fampiharana mahasoa
Ireto misy fomba vitsivitsy AI mpikaroka dia nampihatra modely fianarana fanamafisana mba hamahana ny olan'izao tontolo izao:
Fanamafisana ny fianarana amin'ny fiara mitondra tena
Ny fianarana fanamafisana dia nampiharina tamin'ny fiara mitondra tena mba hanatsarana ny fahaizany mitondra soa aman-tsara sy mahomby. Ny teknôlôjia dia ahafahan'ny fiara tsy miankina mianatra avy amin'ny fahadisoany ary manitsy hatrany ny fitondran-tenany mba hanatsarana ny fahombiazany.
Ohatra, ny orinasa AI miorina any Londres Wayve dia nahomby tamin'ny fampiharana modely fianarana fanamafisana lalina ho an'ny fiara tsy miankina. Tamin'ny andrana nataon'izy ireo dia nampiasa asa valisoa izy ireo izay mampitombo ny halavan'ny fiara raha tsy misy ny mpamily ao anaty fiara manome fidirana.
Ny modely RL koa dia manampy ny fiara handray fanapahan-kevitra mifototra amin'ny tontolo iainana, toy ny fialana amin'ny sakana na mitambatra amin'ny fifamoivoizana. Ireo modely ireo dia tsy maintsy mitady fomba hamadihana ny tontolo sarotra manodidina ny fiara ho lasa toerana misy ny fanjakana izay azon'ilay modely.
Fanamafisana ny fianarana amin'ny robotika
Nampiasa fianarana fanamafisana ihany koa ny mpikaroka mba hamolavola robot izay afaka mianatra asa sarotra. Amin'ny alalan'ireo maodely RL ireo, ny robots dia afaka mijery ny tontolo iainany ary mandray fanapahan-kevitra mifototra amin'ny fandinihany.
Ohatra, nisy fikarohana natao tamin'ny fampiasana modely fianarana fanamafisana mba ahafahan'ny robot bipedal hianatra ny fomba mandeha ho azy ireo.
Ny mpikaroka dia mihevitra ny RL ho fomba lehibe amin'ny sehatry ny robotika. Ny fianarana fanamafisana dia manome rafitra robotika hianarana hetsika saro-pady izay mety ho sarotra amin'ny injeniera.
Fanamafisana ny fianarana amin'ny lalao
Ny modely RL koa dia nampiasaina mba hianarana ny fomba filalaovana lalao video. Afaka atsangana ny mpiasa mba hianatra amin'ny fahadisoany ary hanatsara hatrany ny zava-bitany amin'ny lalao.
Efa namolavola mpandraharaha afaka milalao lalao toy ny echec, Go, ary poker ny mpikaroka. Tamin'ny taona 2013, Deepmind nampiasa Deep Reinforcement Learning mba ahafahan'ny modely iray mianatra milalao lalao Atari hatrany am-boalohany.
Maro amin'ireo lalao board sy lalao video no manana toerana misy hetsika voafetra ary tanjona mivaingana voafaritra tsara. Ireo toetra ireo dia miasa amin'ny tombony amin'ny modely RL. Ny fomba RL dia afaka mamerina haingana amin'ny lalao simulate an-tapitrisany mba hianarana ny paikady tsara indrindra hahazoana fandresena.
Famaranana
Na mianatra mandeha na mianatra milalao lalao video, ny maodely RL dia voaporofo fa rafitra AI mahasoa amin'ny famahana olana mitaky fanapahan-kevitra sarotra.
Satria tsy mitsaha-mivoatra ny teknolojia, na ny mpikaroka na ny mpamorona dia hanohy hahita fampiharana vaovao izay manararaotra ny fahaiza-manaon'ny modely.
Inona no fampiharana azo ampiharina araka ny eritreritrao fa afaka manampy amin'ny fianarana fanamafisana?
Leave a Reply