Õppimise tugevdamine: AI, mis õpib oma vigadest

Sisukord[Peida][Näita]

Mis on tugevdav õpe?
Lihtne näide: 4 × 4 ruudustik+-
- Eeskirjad ja preemiad
- Uurimine vs ekspluateerimine
Praktilised rakendused+-
Järeldus

Kujutagem ette, et proovite robotile kõndima õpetada. Erinevalt arvuti õpetamisest, kuidas aktsiahindu ennustada või pilte kategoriseerida, pole meil tegelikult suurt andmestikku, mida saaksime oma roboti koolitamiseks kasutada.

Kuigi see võib teile loomulikult tulla, on kõndimine tegelikult väga keeruline tegevus. Ühe sammu kõndimine hõlmab tavaliselt kümnete erinevate lihaste koos töötamist. Ühest kohast teise kõndimiseks kasutatavad pingutused ja tehnikad sõltuvad samuti erinevatest teguritest, sealhulgas sellest, kas kannate midagi, kas teil on kalle või muud takistused.

Selliste stsenaariumide korral saame kasutada meetodit, mida tuntakse kui tugevdamisõpet või RL-i. RL abil saate määratleda konkreetse eesmärgi, mille soovite oma mudelil lahendada, ja lasta mudelil järk-järgult õppida, kuidas seda saavutada.

Selles artiklis uurime tugevdamisõppe põhitõdesid ja seda, kuidas saame RL-i raamistikku reaalses maailmas mitmesugustele erinevatele probleemidele rakendada.

Mis on tugevdav õpe?

Tugevdusõpe viitab konkreetsele alamhulgale masinõpe mis keskendub lahenduste leidmisele, premeerides soovitud käitumist ja karistades soovimatu käitumise eest.

tugevdamise õpperaamistiku diagramm

Erinevalt juhendatud õppest ei ole tugevdusõppe meetodil tavaliselt koolitusandmestikku, mis pakuks antud sisendi jaoks õiget väljundit. Treeningandmete puudumisel peab algoritm leidma lahenduse katse-eksituse meetodil. Algoritm, mida me tavaliselt nimetame an agent, peab ise lahenduse leidma, suheldes keskkond.

Teadlased otsustavad konkreetsete tulemuste üle tasu ja mida see algoritm on võimeline tegema. Iga tegevus Algoritm saab mingis vormis tagasisidet, mis hindab algoritmi toimimist. Koolitusprotsessi käigus leiab algoritm lõpuks optimaalse lahenduse teatud probleemi lahendamiseks.

Lihtne näide: 4 × 4 ruudustik

Vaatame lihtsat näidet probleemist, mida saame tugevdava õppega lahendada.

Oletame, et meie keskkonnaks on 4 × 4 ruudustik. Meie agent paigutatakse juhuslikult ühele väljale koos mõne takistusega. Ruudustik peab sisaldama kolme "auku" takistust, mida tuleb vältida, ja ühte "teemant" preemiat, mille agent peab leidma. Meie keskkonna täielikku kirjeldust nimetatakse keskkonnaks riik.

tugevdusõpe tugineb agendile, mis suhtleb simuleeritud keskkonnaga

Meie RL-mudelis saab meie agent liikuda mis tahes külgnevale ruudule, kui neid ei blokeeri takistusi. Kõikide kehtivate toimingute komplekti antud keskkonnas nimetatakse tegevusruum. Meie agendi eesmärk on leida lühim tee tasuni.

agendil on antud olekus tegevusruum või kehtivate toimingute kogum

Meie agent kasutab tugevdamise õppemeetodit, et leida tee teemandini, mis nõuab kõige vähem samme. Iga õige samm annab robotile tasu ja iga vale samm lahutab roboti tasu. Mudel arvutab kogu tasu, kui agent jõuab teemandini.

Nüüd, kui oleme agendi ja keskkonna määratlenud, peame määratlema ka reeglid, mida kasutada järgmise toimingu määramiseks, mille agent selle hetkeolekut ja keskkonda arvestades teeb.

Eeskirjad ja preemiad

Tugevdusõppe mudelis on a poliitika viitab strateegiale, mida agent kasutab oma eesmärkide saavutamiseks. Agendi poliitika otsustab, mida agent järgmisena tegema peaks, arvestades agendi ja selle keskkonna praegust olekut.

Agent peab hindama kõiki võimalikke poliitikaid, et näha, milline poliitika on optimaalne.

poliitikate hindamine

Meie lihtsas näites tagastab tühjale kohale maandumine väärtuse -1. Kui agent maandub teemantpreemiaga ruumile, saab ta väärtuseks 10. Neid väärtusi kasutades saame võrrelda erinevaid eeskirju, kasutades kasuliku funktsiooni U.

Võrdleme nüüd kahe ülaltoodud poliitika kasulikkust:

U(A) = -1 - 1 -1 + 10 = 7

U(B) = -1 - 1 - 1 - 1 - 1 + 10 = 5

Tulemused näitavad, et poliitika A on parem viis tasu leidmiseks. Seega kasutab agent teed A poliitika B asemel.

Uurimine vs ekspluateerimine

Uurimise ja ärakasutamise kompromissiprobleem tugevdamisõppes on dilemma, millega agent peab otsustamisprotsessi ajal silmitsi seisma.

Kas agendid peaksid keskenduma uute teede või võimaluste uurimisele või peaksid nad jätkama juba tuttavate võimaluste kasutamist?

Kui agent otsustab uurida, on agentil võimalus leida parem valik, kuid sellega võib kaasneda ka aja ja ressursside raiskamine. Teisest küljest, kui agent otsustab kasutada lahendust, mida ta juba teab, võib ta jätta parema võimaluse kasutamata.

Praktilised rakendused

Siin on mõned viisid Tehisintellekti teadlased on rakendanud tugevdamisõppe mudeleid reaalsete probleemide lahendamiseks:

Isejuhtivate autode õppimise tugevdamine

Isejuhtivate autode puhul on rakendatud tugevdusõpet, et parandada nende ohutut ja tõhusat juhtimist. Tehnoloogia võimaldab autonoomsetel autodel oma vigadest õppida ja oma käitumist pidevalt kohandada, et oma jõudlust optimeerida.

isejuhtimiseks kasutatav tugevdusõpe

Näiteks Londonis asuv AI ettevõte Wayve on autonoomse sõidu jaoks edukalt rakendanud sügava tugevdamise õppimismudelit. Oma katses kasutasid nad premeerimisfunktsiooni, mis maksimeerib aja, mil sõiduk töötab, ilma et juht oleks pardal olnud.

RL mudelid aitavad ka autodel teha keskkonnapõhiseid otsuseid, näiteks vältida takistusi või sulanduda liiklusesse. Need mudelid peavad leidma viisi, kuidas muuta autot ümbritsev keeruline keskkond esinduslikuks olekuruumiks, millest mudel aru saab.

Robootika tugevdamine

Teadlased on kasutanud ka tugevdusõpet, et arendada roboteid, mis suudavad õppida keerulisi ülesandeid. Nende RL-mudelite kaudu saavad robotid oma keskkonda jälgida ja nende vaatluste põhjal otsuseid teha.

Näiteks on uuritud tugevdamisõppe mudelite kasutamist, mis võimaldavad kahejalgsetel robotitel õppida kõndima omapead.

tugevdusõpe roboti kõndima õpetamine

Teadlased peavad RL-i robootika valdkonna võtmemeetodiks. Tugevdusõpe annab robotagentidele raamistiku keerukate toimingute õppimiseks, mida muidu võib olla keeruline koostada.

Mänguõppe tugevdamine

RL-mudeleid on kasutatud ka videomängude mängimise õppimiseks. Agendid saab seadistada oma vigadest õppima ja mängus jõudlust pidevalt parandama.

Teadlased on juba välja töötanud agendid, mis suudavad mängida selliseid mänge nagu male, Go ja pokker. 2013. aastal Deepmind kasutas Deep Reinforcement Learning'i, et võimaldada mudelil õppida Atari mänge nullist mängima.

Paljudel lauamängudel ja videomängudel on piiratud tegevusruum ja täpselt määratletud konkreetne eesmärk. Need omadused töötavad RL-mudeli kasuks. RL-meetodid võivad kiiresti korrata miljoneid simuleeritud mänge, et õppida võidu saavutamiseks optimaalseid strateegiaid.

Järeldus

Olenemata sellest, kas tegemist on kõndimise või videomängude mängimise õppimisega, on RL-mudelid osutunud kasulikeks tehisintellekti raamistikeks keerukate otsuste tegemist nõudvate probleemide lahendamisel.

Kuna tehnoloogia areneb edasi, leiavad nii teadlased kui ka arendajad jätkuvalt uusi rakendusi, mis kasutavad ära mudeli iseõppimisvõimet.

Milliste praktiliste rakenduste puhul võib tugevdusõpe teie arvates aidata?

Õppimise tugevdamine: AI, mis õpib oma vigadest

Mis on tugevdav õpe?