Le të imagjinojmë se po përpiqeni t'i mësoni një roboti se si të ecë. Ndryshe nga mësimi i një kompjuteri se si të parashikojë çmimet e aksioneve ose të kategorizojë imazhet, ne nuk kemi një bazë të dhënash të madhe që mund ta përdorim për të trajnuar robotin tonë.
Ndërsa mund t'ju vijë natyrshëm, ecja është në fakt një veprim shumë kompleks. Ecja e një hapi zakonisht përfshin dhjetëra muskuj të ndryshëm që punojnë së bashku. Përpjekjet dhe teknikat e përdorura për të ecur nga një vend në tjetrin varen gjithashtu nga një sërë faktorësh, duke përfshirë nëse po mbani diçka ose nëse ka një pjerrësi ose forma të tjera pengesash.
Në skenarë të tillë, ne mund të përdorim një metodë të njohur si të mësuarit përforcues ose RL. Me RL, ju mund të përcaktoni një qëllim specifik që dëshironi të zgjidhë modeli juaj dhe gradualisht ta lini modelin të mësojë vetë se si ta përmbushë atë.
Në këtë artikull, ne do të shqyrtojmë bazat e të mësuarit përforcues dhe se si mund ta zbatojmë kornizën RL për një sërë problemesh të ndryshme në botën reale.
Çfarë është të mësuarit përforcues?
Të mësuarit përforcues i referohet një nëngrupi të veçantë të Mësimi makinë që fokusohet në gjetjen e zgjidhjeve duke shpërblyer sjelljet e dëshiruara dhe duke ndëshkuar sjelljet e padëshiruara.
Ndryshe nga mësimi i mbikëqyrur, metoda e të mësuarit përforcues zakonisht nuk ka një grup të dhënash trajnimi që ofron rezultatin e duhur për një hyrje të caktuar. Në mungesë të të dhënave të trajnimit, algoritmi duhet të gjejë zgjidhjen përmes provës dhe gabimit. Algoritmi, të cilit ne zakonisht i referohemi si një agjent, duhet ta gjejë vetë zgjidhjen duke ndërvepruar me mjedis.
Studiuesit vendosin se çfarë rezultate të veçanta do të shpërblim dhe çfarë është në gjendje të bëjë algoritmi. Çdo veprim algoritmi merr do të marrë një formë reagimi që vlerëson se sa mirë po funksionon algoritmi. Gjatë procesit të trajnimit, algoritmi përfundimisht do të gjejë zgjidhjen optimale për të zgjidhur një problem të caktuar.
Një shembull i thjeshtë: Rrjeti 4×4
Le të hedhim një vështrim në një shembull të thjeshtë të një problemi që mund ta zgjidhim me të mësuarit përforcues.
Supozoni se kemi një rrjet 4×4 si mjedisin tonë. Agjenti ynë vendoset rastësisht në një nga sheshet së bashku me disa pengesa. Rrjeti duhet të përmbajë tre pengesa "gropë" që duhen shmangur dhe një shpërblim të vetëm "diamanti" të cilin agjenti duhet ta gjejë. Përshkrimi i plotë i mjedisit tonë njihet si mjedisi ishin.
Në modelin tonë RL, agjenti ynë mund të lëvizë në çdo shesh ngjitur për sa kohë që nuk ka pengesa që i bllokojnë. Grupi i të gjitha veprimeve të vlefshme në një mjedis të caktuar njihet si hapësirë veprimi. Qëllimi i agjentit tonë është të gjejë rrugën më të shkurtër drejt shpërblimit.
Agjenti ynë do të përdorë metodën e të mësuarit përforcues për të gjetur rrugën drejt diamantit që kërkon më pak hapa. Çdo hap i duhur do t'i japë robotit një shpërblim dhe çdo hap i gabuar do të zbresë shpërblimin e robotit. Modeli llogarit shpërblimin total sapo agjenti të arrijë diamantin.
Tani që kemi përcaktuar agjentin dhe mjedisin, duhet të përcaktojmë gjithashtu rregullat që duhen përdorur për përcaktimin e veprimit të ardhshëm që agjenti do të ndërmarrë duke pasur parasysh gjendjen e tij aktuale dhe mjedisin.
Politikat dhe Shpërblimet
Në një model të të mësuarit përforcues, a politikë i referohet strategjisë së përdorur nga një agjent për të përmbushur qëllimet e tyre. Politika e agjentit është ajo që vendos se çfarë duhet të bëjë agjenti më pas duke pasur parasysh gjendjen aktuale të agjentit dhe mjedisin e tij.
Agjenti duhet të vlerësojë të gjitha politikat e mundshme për të parë se cila politikë është optimale.
Në shembullin tonë të thjeshtë, ulja në një hapësirë boshe do të kthejë një vlerë prej -1. Kur agjenti ulet në një hapësirë me shpërblimin e diamantit, ai do të marrë një vlerë prej 10. Duke përdorur këto vlera, ne mund të krahasojmë politikat e ndryshme duke përdorur një funksioni i dobisë U.
Le të krahasojmë tani dobinë e dy politikave të para:
U(A) = -1 – 1 -1 + 10 = 7
U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5
Rezultatet tregojnë se politika A është rruga më e mirë për të gjetur shpërblimin. Kështu, agjenti do të përdorë shtegun A mbi politikën B.
Eksplorimi vs Shfrytëzimi
Problemi i shkëmbimit të eksplorimit dhe shfrytëzimit në të mësuarit përforcues është një dilemë me të cilën duhet të përballet agjenti gjatë procesit të vendimmarrjes.
A duhet që agjentët të fokusohen në eksplorimin e shtigjeve ose opsioneve të reja apo duhet të vazhdojnë të shfrytëzojnë opsionet që tashmë i dinë?
Nëse agjenti zgjedh të eksplorojë, ekziston mundësia që agjenti të gjejë një opsion më të mirë, por gjithashtu mund të rrezikojë humbjen e kohës dhe burimeve. Nga ana tjetër, nëse agjenti zgjedh të shfrytëzojë zgjidhjen që tashmë e njeh, mund të humbasë një opsion më të mirë.
Aplikime praktike
Këtu janë disa mënyra Studiuesit e AI kanë aplikuar modele të të mësuarit përforcues për të zgjidhur problemet e botës reale:
Mësimi përforcues në makinat që drejtojnë vetë
Mësimi përforcues është aplikuar në makinat që drejtojnë vetë, në mënyrë që të përmirësohet aftësia e tyre për të vozitur në mënyrë të sigurt dhe efikase. Teknologjia u mundëson makinave autonome të mësojnë nga gabimet e tyre dhe të rregullojnë vazhdimisht sjelljen e tyre në mënyrë që të optimizojnë performancën e tyre.
Për shembull, kompania AI me bazë në Londër Wayve ka aplikuar me sukses një model të të mësuarit përforcues të thellë për drejtimin autonom. Në eksperimentin e tyre, ata përdorën një funksion shpërblimi që maksimizon sasinë e kohës që automjeti shkon pa dhënë të dhëna nga shoferi në bord.
Modelet RL gjithashtu ndihmojnë makinat të marrin vendime bazuar në mjedisin, të tilla si shmangia e pengesave ose bashkimi në trafik. Këto modele duhet të gjejnë një mënyrë për të shndërruar mjedisin kompleks që rrethon një makinë në një hapësirë shtetërore përfaqësuese që modeli mund ta kuptojë.
Mësimi përforcues në Robotikë
Studiuesit gjithashtu kanë përdorur të mësuarit përforcues për të zhvilluar robotë që mund të mësojnë detyra komplekse. Nëpërmjet këtyre modeleve RL, robotët janë në gjendje të vëzhgojnë mjedisin e tyre dhe të marrin vendime bazuar në vëzhgimet e tyre.
Për shembull, janë bërë kërkime për përdorimin e modeleve të të mësuarit përforcues për të lejuar robotët me dy këmbë të mësojnë se si të eci më vete.
Studiuesit e konsiderojnë RL si një metodë kyçe në fushën e robotikës. Të mësuarit përforcues u jep agjentëve robotikë një kornizë për të mësuar veprime të sofistikuara që përndryshe mund të jenë të vështira për t'u inxhinieruar.
Të mësuarit përforcues në lojëra
Modelet RL janë përdorur gjithashtu për të mësuar se si të luani videolojëra. Agjentët mund të vendosen për të mësuar nga gabimet e tyre dhe për të përmirësuar vazhdimisht performancën e tyre në lojë.
Studiuesit kanë zhvilluar tashmë agjentë që mund të luajnë lojëra të tilla si shah, Go dhe poker. ne vitin 2013, Deepmind përdori Deep Reinforcement Learning për të lejuar një model të mësojë se si të luajë lojëra Atari nga e para.
Shumë lojëra tavoline dhe videolojëra kanë një hapësirë veprimi të kufizuar dhe një qëllim konkret të mirëpërcaktuar. Këto tipare funksionojnë në avantazhin e modelit RL. Metodat RL mund të përsëriten shpejt mbi miliona lojëra të simuluara për të mësuar strategjitë optimale për të arritur fitoren.
Përfundim
Pavarësisht nëse mësoni se si të ecni ose mësoni se si të luani videolojëra, modelet RL janë provuar të jenë korniza të dobishme të AI për zgjidhjen e problemeve që kërkojnë vendimmarrje komplekse.
Ndërsa teknologjia vazhdon të evoluojë, si studiuesit ashtu edhe zhvilluesit do të vazhdojnë të gjejnë aplikacione të reja që përfitojnë nga aftësia vetë-mësuese e modelit.
Me cilat aplikime praktike mendoni se mund të ndihmojë të mësuarit përforcues?
Lini një Përgjigju