Kujutagem ette, et proovite robotile kõndima õpetada. Erinevalt arvuti õpetamisest, kuidas aktsiahindu ennustada või pilte kategoriseerida, pole meil tegelikult suurt andmestikku, mida saaksime oma roboti koolitamiseks kasutada.
Kuigi see võib teile loomulikult tulla, on kõndimine tegelikult väga keeruline tegevus. Ühe sammu kõndimine hõlmab tavaliselt kümnete erinevate lihaste koos töötamist. Ühest kohast teise kõndimiseks kasutatavad pingutused ja tehnikad sõltuvad samuti erinevatest teguritest, sealhulgas sellest, kas kannate midagi, kas teil on kalle või muud takistused.
Selliste stsenaariumide korral saame kasutada meetodit, mida tuntakse kui tugevdamisõpet või RL-i. RL abil saate määratleda konkreetse eesmärgi, mille soovite oma mudelil lahendada, ja lasta mudelil järk-järgult õppida, kuidas seda saavutada.
Selles artiklis uurime tugevdamisõppe põhitõdesid ja seda, kuidas saame RL-i raamistikku reaalses maailmas mitmesugustele erinevatele probleemidele rakendada.
Mis on tugevdav õpe?
Tugevdusõpe viitab konkreetsele alamhulgale masinõpe mis keskendub lahenduste leidmisele, premeerides soovitud käitumist ja karistades soovimatu käitumise eest.
Erinevalt juhendatud õppest ei ole tugevdusõppe meetodil tavaliselt koolitusandmestikku, mis pakuks antud sisendi jaoks õiget väljundit. Treeningandmete puudumisel peab algoritm leidma lahenduse katse-eksituse meetodil. Algoritm, mida me tavaliselt nimetame an agent, peab ise lahenduse leidma, suheldes keskkond.
Teadlased otsustavad konkreetsete tulemuste üle tasu ja mida see algoritm on võimeline tegema. Iga tegevus Algoritm saab mingis vormis tagasisidet, mis hindab algoritmi toimimist. Koolitusprotsessi käigus leiab algoritm lõpuks optimaalse lahenduse teatud probleemi lahendamiseks.
Lihtne näide: 4 × 4 ruudustik
Vaatame lihtsat näidet probleemist, mida saame tugevdava õppega lahendada.
Oletame, et meie keskkonnaks on 4 × 4 ruudustik. Meie agent paigutatakse juhuslikult ühele väljale koos mõne takistusega. Ruudustik peab sisaldama kolme "auku" takistust, mida tuleb vältida, ja ühte "teemant" preemiat, mille agent peab leidma. Meie keskkonna täielikku kirjeldust nimetatakse keskkonnaks riik.
Meie RL-mudelis saab meie agent liikuda mis tahes külgnevale ruudule, kui neid ei blokeeri takistusi. Kõikide kehtivate toimingute komplekti antud keskkonnas nimetatakse tegevusruum. Meie agendi eesmärk on leida lühim tee tasuni.
Meie agent kasutab tugevdamise õppemeetodit, et leida tee teemandini, mis nõuab kõige vähem samme. Iga õige samm annab robotile tasu ja iga vale samm lahutab roboti tasu. Mudel arvutab kogu tasu, kui agent jõuab teemandini.
Nüüd, kui oleme agendi ja keskkonna määratlenud, peame määratlema ka reeglid, mida kasutada järgmise toimingu määramiseks, mille agent selle hetkeolekut ja keskkonda arvestades teeb.
Eeskirjad ja preemiad
Tugevdusõppe mudelis on a poliitika viitab strateegiale, mida agent kasutab oma eesmärkide saavutamiseks. Agendi poliitika otsustab, mida agent järgmisena tegema peaks, arvestades agendi ja selle keskkonna praegust olekut.
Agent peab hindama kõiki võimalikke poliitikaid, et näha, milline poliitika on optimaalne.
Meie lihtsas näites tagastab tühjale kohale maandumine väärtuse -1. Kui agent maandub teemantpreemiaga ruumile, saab ta väärtuseks 10. Neid väärtusi kasutades saame võrrelda erinevaid eeskirju, kasutades kasuliku funktsiooni U.
Võrdleme nüüd kahe ülaltoodud poliitika kasulikkust:
U(A) = -1 - 1 -1 + 10 = 7
U(B) = -1 - 1 - 1 - 1 - 1 + 10 = 5
Tulemused näitavad, et poliitika A on parem viis tasu leidmiseks. Seega kasutab agent teed A poliitika B asemel.
Uurimine vs ekspluateerimine
Uurimise ja ärakasutamise kompromissiprobleem tugevdamisõppes on dilemma, millega agent peab otsustamisprotsessi ajal silmitsi seisma.
Kas agendid peaksid keskenduma uute teede või võimaluste uurimisele või peaksid nad jätkama juba tuttavate võimaluste kasutamist?
Kui agent otsustab uurida, on agentil võimalus leida parem valik, kuid sellega võib kaasneda ka aja ja ressursside raiskamine. Teisest küljest, kui agent otsustab kasutada lahendust, mida ta juba teab, võib ta jätta parema võimaluse kasutamata.
Praktilised rakendused
Siin on mõned viisid Tehisintellekti teadlased on rakendanud tugevdamisõppe mudeleid reaalsete probleemide lahendamiseks:
Isejuhtivate autode õppimise tugevdamine
Isejuhtivate autode puhul on rakendatud tugevdusõpet, et parandada nende ohutut ja tõhusat juhtimist. Tehnoloogia võimaldab autonoomsetel autodel oma vigadest õppida ja oma käitumist pidevalt kohandada, et oma jõudlust optimeerida.
Näiteks Londonis asuv AI ettevõte Wayve on autonoomse sõidu jaoks edukalt rakendanud sügava tugevdamise õppimismudelit. Oma katses kasutasid nad premeerimisfunktsiooni, mis maksimeerib aja, mil sõiduk töötab, ilma et juht oleks pardal olnud.
RL mudelid aitavad ka autodel teha keskkonnapõhiseid otsuseid, näiteks vältida takistusi või sulanduda liiklusesse. Need mudelid peavad leidma viisi, kuidas muuta autot ümbritsev keeruline keskkond esinduslikuks olekuruumiks, millest mudel aru saab.
Robootika tugevdamine
Teadlased on kasutanud ka tugevdusõpet, et arendada roboteid, mis suudavad õppida keerulisi ülesandeid. Nende RL-mudelite kaudu saavad robotid oma keskkonda jälgida ja nende vaatluste põhjal otsuseid teha.
Näiteks on uuritud tugevdamisõppe mudelite kasutamist, mis võimaldavad kahejalgsetel robotitel õppida kõndima omapead.
Teadlased peavad RL-i robootika valdkonna võtmemeetodiks. Tugevdusõpe annab robotagentidele raamistiku keerukate toimingute õppimiseks, mida muidu võib olla keeruline koostada.
Mänguõppe tugevdamine
RL-mudeleid on kasutatud ka videomängude mängimise õppimiseks. Agendid saab seadistada oma vigadest õppima ja mängus jõudlust pidevalt parandama.
Teadlased on juba välja töötanud agendid, mis suudavad mängida selliseid mänge nagu male, Go ja pokker. 2013. aastal Deepmind kasutas Deep Reinforcement Learning'i, et võimaldada mudelil õppida Atari mänge nullist mängima.
Paljudel lauamängudel ja videomängudel on piiratud tegevusruum ja täpselt määratletud konkreetne eesmärk. Need omadused töötavad RL-mudeli kasuks. RL-meetodid võivad kiiresti korrata miljoneid simuleeritud mänge, et õppida võidu saavutamiseks optimaalseid strateegiaid.
Järeldus
Olenemata sellest, kas tegemist on kõndimise või videomängude mängimise õppimisega, on RL-mudelid osutunud kasulikeks tehisintellekti raamistikeks keerukate otsuste tegemist nõudvate probleemide lahendamisel.
Kuna tehnoloogia areneb edasi, leiavad nii teadlased kui ka arendajad jätkuvalt uusi rakendusi, mis kasutavad ära mudeli iseõppimisvõimet.
Milliste praktiliste rakenduste puhul võib tugevdusõpe teie arvates aidata?
Jäta vastus