Képzeljük el, hogy egy robotot próbál meg tanítani járni. Ellentétben azzal, hogy megtanítjuk a számítógépet a részvényárfolyamok előrejelzésére vagy a képek kategorizálására, nem igazán rendelkezünk olyan nagy adathalmazzal, amellyel a robotunkat betaníthatnánk.
Bár ez magától értetődő lehet, a séta valójában nagyon összetett tevékenység. Egy lépés megtétele általában több tucat különböző izom együttes munkáját foglalja magában. Az egyik helyről a másikra való séta során alkalmazott erőfeszítés és technikák számos tényezőtől függenek, beleértve azt is, hogy hord-e valamit, van-e lejtős vagy egyéb akadály.
Az ehhez hasonló forgatókönyvekben használhatjuk a megerősítéses tanulás vagy RL néven ismert módszert. Az RL segítségével meghatározhat egy konkrét célt, amelyet a modellel szeretne megoldani, és fokozatosan hagyja, hogy a modell megtanulja, hogyan érje el azt.
Ebben a cikkben megvizsgáljuk a megerősítő tanulás alapjait, és azt, hogy miként alkalmazhatjuk az RL keretrendszert a való világ különböző problémáira.
Mi az a megerősítő tanulás?
A megerősítő tanulás egy adott részhalmazára vonatkozik gépi tanulás amely arra összpontosít, hogy megoldásokat találjon a kívánt viselkedések jutalmazásával és a nem kívánt viselkedések megbüntetésével.
Ellentétben a felügyelt tanulással, a megerősítő tanulási módszer jellemzően nem rendelkezik olyan képzési adatkészlettel, amely megfelelő kimenetet biztosít egy adott bemenethez. Tanítási adatok hiányában az algoritmusnak próbálgatással kell megtalálnia a megoldást. Az algoritmus, amelyet általában an ügynök, önmagának kell megtalálnia a megoldást azáltal, hogy interakcióba lép a környezet.
A kutatók döntenek arról, hogy milyen eredményeket érjenek el jutalom és mire képes az algoritmus. Minden akció az algoritmus valamilyen visszajelzést kap, amely értékeli az algoritmus teljesítményét. A betanítási folyamat során az algoritmus végül megtalálja az optimális megoldást egy bizonyos probléma megoldására.
Egy egyszerű példa: 4×4 rács
Nézzünk egy egyszerű példát egy olyan problémára, amelyet megerősítő tanulással meg tudunk oldani.
Tegyük fel, hogy környezetünk egy 4×4-es rács. Ügynökünk véletlenszerűen kerül az egyik mezőre néhány akadállyal együtt. A rácsnak három „gödör” akadályt kell tartalmaznia, amelyeket el kell kerülni, és egyetlen „gyémánt” jutalmat, amelyet az ügynöknek meg kell találnia. Környezetünk teljes leírását a környezetnek nevezzük voltak.
RL-modellünkben ügynökünk bármelyik szomszédos mezőre mozoghat, amíg nincs akadály, ami akadályozza őket. Egy adott környezetben az összes érvényes művelet halmazát a cselekvési tér. Ügynökünk célja, hogy megtalálja a jutalomhoz vezető legrövidebb utat.
Ügynökünk az erősítés tanulási módszerét fogja használni, hogy megtalálja a legkevesebb lépést igénylő utat a gyémánthoz. Minden helyes lépés jutalmat ad a robotnak, és minden rossz lépés levonja a robot jutalmát. A modell akkor számítja ki a teljes jutalmat, amikor az ügynök eléri a gyémántot.
Most, hogy meghatároztuk az ügynököt és a környezetet, meg kell határoznunk azokat a szabályokat is, amelyeket az ügynök következő műveletének meghatározásához használunk, tekintettel az aktuális állapotára és a környezetre.
Irányelvek és jutalmak
Egy megerősítő tanulási modellben a politika az ügynök által a céljainak eléréséhez használt stratégiára utal. Az ügynök házirendje dönti el, hogy az ügynöknek mit kell tennie, tekintettel az ügynök és környezetének aktuális állapotára.
Az ügynöknek értékelnie kell az összes lehetséges irányelvet, hogy megtudja, melyik az optimális.
Egyszerű példánkban egy üres helyre való leszállás -1 értéket ad vissza. Amikor az ügynök egy mezőre kerül a gyémánt jutalommal, 10-es értéket kap. Ezen értékek felhasználásával összehasonlíthatjuk a különböző szabályzatokat egy hasznossági függvény U.
Hasonlítsuk össze a fent látható két irányelv hasznosságát:
U(A) = -1 – 1 -1 + 10 = 7
U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5
Az eredmények azt mutatják, hogy az A politika a jobb út a jutalom megtalálásához. Így az ügynök az A útvonalat fogja használni a B házirend helyett.
Feltárás kontra kizsákmányolás
A feltárás vs. kizsákmányolás kompromisszumos probléma a megerősítő tanulásban egy dilemma, amellyel az ügynöknek szembe kell néznie a döntési folyamat során.
Az ügynököknek új utak vagy lehetőségek feltárására kell összpontosítaniuk, vagy folytatniuk kell a már ismert lehetőségek kiaknázását?
Ha az ügynök a felfedezést választja, lehetőség van arra, hogy jobb megoldást találjon, de ez idő- és erőforráspazarlással is járhat. Másrészt, ha az ügynök a már ismert megoldást választja, akkor kihagyhat egy jobb lehetőséget.
Gyakorlati alkalmazások
Íme néhány módszer AI kutatók megerősítő tanulási modelleket alkalmaztak valós problémák megoldására:
Megerősítő tanulás önvezető autókban
A megerősítő tanulást az önvezető autókra alkalmazták annak érdekében, hogy javítsák biztonságos és hatékony vezetési képességüket. A technológia lehetővé teszi az autonóm autók számára, hogy tanuljanak a hibáikból, és folyamatosan módosítsák viselkedésüket a teljesítményük optimalizálása érdekében.
Például a londoni székhelyű AI cég Wayve sikeresen alkalmazott egy mély megerősítő tanulási modellt az autonóm vezetésre. Kísérletükben egy jutalmazási funkciót használtak, amely maximalizálja azt az időt, ameddig a jármű fut anélkül, hogy a fedélzeten lévő vezető megadná a bemenetet.
Az RL-modellek emellett segítik az autókat a környezeti szempontok alapján meghozni a döntéseket, például elkerülni az akadályokat vagy beleolvadni a forgalomba. Ezeknek a modelleknek meg kell találniuk a módját, hogy az autót körülvevő összetett környezetet reprezentatív állapottérré alakítsák, amelyet a modell megérthet.
Megerősítő tanulás a robotikában
A kutatók megerősítő tanulást is alkalmaztak olyan robotok kifejlesztésére, amelyek képesek bonyolult feladatokat megtanulni. Ezeken az RL-modelleken keresztül a robotok képesek megfigyelni környezetüket, és a megfigyeléseik alapján döntéseket hozni.
Például kutatásokat végeztek a megerősítő tanulási modellek használatával kapcsolatban, amelyek lehetővé teszik a két lábon járó robotok számára, hogy megtanulják, hogyan séta maguktól.
A kutatók az RL-t kulcsfontosságú módszernek tartják a robotika területén. A megerősítő tanulás keretet ad a robotügynökök számára olyan kifinomult műveletek elsajátítására, amelyeket egyébként nehéz lenne megtervezni.
Megerősítő tanulás a játékban
Az RL modelleket arra is használták, hogy megtanuljanak videojátékokat játszani. Az ügynökök úgy állíthatók be, hogy tanuljanak a hibáikból, és folyamatosan javítsák teljesítményüket a játékban.
A kutatók már kifejlesztettek olyan ügynököket, amelyek képesek olyan játékokat játszani, mint a sakk, a Go és a póker. 2013-ban, DeepMind Deep Reinforcement Learninget használtak, hogy lehetővé tegyék a modell számára, hogy a semmiből tanulja meg az Atari játékokat.
Sok társasjátéknak és videojátéknak korlátozott a cselekvési tere és egy jól meghatározott konkrét cél. Ezek a tulajdonságok az RL modell előnyére válnak. Az RL-módszerek gyorsan ismétlődnek több millió szimulált játékon, hogy megtanulják a győzelem elérésére szolgáló optimális stratégiákat.
Következtetés
Akár járni, akár videojátékokat tanulni, az RL-modellek hasznos mesterséges intelligencia keretrendszernek bizonyultak az összetett döntéshozatalt igénylő problémák megoldásában.
Ahogy a technológia folyamatosan fejlődik, a kutatók és a fejlesztők is folyamatosan új alkalmazásokat fognak találni, amelyek kihasználják a modell öntanító képességét.
Ön szerint milyen gyakorlati alkalmazásokban segíthet a megerősítő tanulás?
Hagy egy Válaszol