Imajina dezagun robot bati ibiltzen irakasten saiatzen ari zarela. Ordenagailu bati akzioen prezioak aurreikusten edo irudiak sailkatzen irakastea ez bezala, ez dugu gure robota trebatzeko erabil dezakegun datu multzo handirik.
Berez etor daitekeen arren, ibiltzea oso ekintza konplexua da. Pauso bat ibiltzeak, normalean, dozenaka muskulu ezberdin elkarrekin lan egiten du. Leku batetik bestera ibiltzeko erabiltzen diren esfortzuak eta teknikak ere hainbat faktoreren araberakoak dira, besteak beste, zerbait eramaten ari zaren ala ez edo malda bat edo bestelako oztoporik dagoen.
Horrelako eszenatokietan, indartzeko ikaskuntza edo RL izenez ezagutzen den metodoa erabil dezakegu. RL-rekin, zure ereduak ebatzi nahi duzun helburu zehatz bat definitu dezakezu eta pixkanaka ereduak bere kabuz nola bete behar duen ikasten utzi.
Artikulu honetan, indartzeko ikaskuntzaren oinarriak aztertuko ditugu eta RL esparrua mundu errealeko hainbat arazori nola aplikatu dezakegun.
Zer da indartze ikaskuntza?
Indartze-ikaskuntzaren azpimultzo jakin bati egiten dio erreferentzia makina ikaskuntza nahi diren jokabideak sarituz eta nahi ez diren jokabideak zigortuz konponbideak aurkitzean zentratzen dena.
Ikaskuntza gainbegiratua ez bezala, indartzeko ikaskuntza-metodoak normalean ez du sarrera jakin baterako irteera egokia eskaintzen duen prestakuntza-datu multzorik. Prestakuntza-daturik ezean, algoritmoak saiakeraren eta akatsen bidez aurkitu behar du irtenbidea. Algoritmoa, normalean deitzen dioguna agente, bere kabuz aurkitu behar du irtenbidea eta elkarrekin harremanetan jarriz ingurumena.
Ikertzaileek erabakitzen dute zein emaitza jakin saritzeko eta algoritmoa zer egiteko gai den. Bakoitzak ekintza algoritmoak hartzen duen feedback modua jasoko du, algoritmoa zein ondo dagoen puntuatzen duen. Prestakuntza prozesuan zehar, algoritmoak arazo jakin bat konpontzeko irtenbide optimoa aurkituko du azkenean.
Adibide sinple bat: 4×4 sareta
Ikus dezagun errefortzu-ikaskuntzarekin ebatzi dezakegun arazo baten adibide sinple bati.
Demagun gure ingurune gisa 4×4 sare bat dugula. Gure agentea ausaz jartzen da laukietako batean oztopo batzuekin batera. Sareak saihestu beharreko hiru "hobi" oztopo eta agenteak aurkitu behar duen "diamante" sari bakarra izango ditu. Gure ingurunearen deskribapen osoa ingurumena deritzo egoera.
Gure RL ereduan, gure agentea aldameneko edozein laukira mugi daiteke, oztoporik ez dagoen bitartean. Ingurune jakin bateko baliozko ekintza guztien multzoari deitzen zaio ekintza espazioa. Gure agentearen helburua saria lortzeko biderik laburrena aurkitzea da.
Gure agenteak errefortzuaren ikaskuntza metodoa erabiliko du urrats gutxien eskatzen duen diamantearen bidea aurkitzeko. Pauso egoki bakoitzak sari bat emango dio robotari eta urrats oker bakoitzak robotari saria kenduko dio. Ereduak guztizko saria kalkulatzen du agentea diamantera iristen denean.
Agentea eta ingurunea definitu ditugunean, agenteak uneko egoera eta ingurunea kontuan hartuta egingo duen hurrengo ekintza zehazteko erabili beharreko arauak ere zehaztu behar ditugu.
Politikak eta sariak
Indartze-ikaskuntza-eredu batean, a politika agente batek bere helburuak betetzeko erabiltzen duen estrategiari egiten dio erreferentzia. Agentearen politika da agenteak zer egin behar duen erabakitzen duena agentearen egungo egoera eta ingurunea kontuan hartuta.
Agenteak politika posible guztiak ebaluatu behar ditu politika egokiena zein den ikusteko.
Gure adibide sinplean, hutsune batean lurreratzeak -1 balio bat emango du. Agentea diamante-saria duen espazio batean lurreratzen denean, 10eko balioa jasoko du. Balio horiek erabiliz, politika desberdinak aldera ditzakegu bat erabiliz. erabilgarritasun-funtzioa U.
Konpara dezagun orain goian ikusitako bi politiken erabilgarritasuna:
U(A) = -1 – 1 -1 + 10 = 7
U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5
Emaitzek erakusten dute A politika dela saria aurkitzeko biderik onena. Horrela, agenteak A bidea erabiliko du B politikaren gainean.
Esplorazioa vs. ustiapena
Indartze-ikaskuntzan esplorazioaren eta ustiapenaren arteko truke-arazoa agente batek erabaki-prozesuan aurre egin behar dion dilema da.
Agenteek bide edo aukera berriak aztertzera bideratu behar al dute edo lehendik ezagutzen dituzten aukerak ustiatzen jarraitu behar dute?
Agenteak esploratzea aukeratzen badu, agenteak aukera hobe bat aurkitzeko aukera dago, baina denbora eta baliabideak galtzeko arriskua ere izan dezake. Bestalde, agenteak lehendik ezagutzen duen irtenbidea ustiatzea aukeratzen badu, baliteke aukera hobe bat galduko duela.
Aplikazioak praktikoak
Hona hemen modu batzuk AI ikertzaileak indartzeko ikaskuntza ereduak aplikatu dituzte mundu errealeko arazoak konpontzeko:
Indartze-ikaskuntza auto autonomoetan
Auto gidatzen duten autoetan indartzeko ikaskuntza aplikatu da, segurtasunez eta eraginkortasunez gidatzeko gaitasuna hobetzeko. Teknologiari esker, auto autonomoek akatsetatik ikastea eta portaera etengabe doitzea ahalbidetzen du, errendimendua optimizatzeko.
Adibidez, Londresko AI konpainia Wayve arrakastaz aplikatu du errefortzu sakoneko ikaskuntza-eredu bat gidatzeko autonomorako. Beren esperimentuan, ibilgailuak ibiltzen den denbora maximizatzen duen sari-funtzioa erabili zuten ontziko gidariak sarrerarik eman gabe.
RL ereduek ere laguntzen diete autoei ingurumenean oinarritutako erabakiak hartzen, hala nola oztopoak saihestuz edo trafikoarekin bat eginez. Eredu hauek kotxe baten inguruko ingurune konplexua ereduak ulertzeko moduko estatu-espazio adierazgarri batean bihurtzeko modua aurkitu behar dute.
Indartze Ikaskuntza Robotikan
Ikertzaileek errefortzu-ikaskuntza ere erabili dute zeregin konplexuak ikas ditzaketen robotak garatzeko. RL eredu hauen bidez, robotek beren ingurunea behatzeko eta haien behaketetan oinarrituta erabakiak hartzeko gai dira.
Esaterako, errefortzu-ikaskuntza-ereduak erabiltzeari buruzko ikerketa egin da, robot bipedoak nola ikasi ahal izateko oinez beren kabuz.
Ikertzaileek RL funtsezko metodotzat jotzen dute robotikaren alorrean. Indartze-ikaskuntzak eragile robotikoei esparru bat ematen die ingeniaritza zailak izan daitezkeen ekintza sofistikatuak ikasteko.
Indartze Ikaskuntza Jokoan
Bideojokoetara jolasten ikasteko ere RL ereduak erabili dira. Agenteak akatsetatik ikasteko eta jokoan etengabe hobetzeko konfigura daitezke.
Ikertzaileek dagoeneko garatu dituzte xake, Go eta poker bezalako jokoetara jolastu dezaketen eragileak. 2013an, Deepmind Deep Reinforcement Learning erabili zuen eredu bati Atari jokoak hutsetik nola jokatzen ikasteko.
Mahai-joko eta bideo-joko askok ekintza-espazio mugatua eta ondo zehaztutako helburu zehatza dute. Ezaugarri hauek RL ereduaren onurarako balio dute. RL metodoek milioika joko simulatu baino gehiago errepika ditzakete garaipena lortzeko estrategia egokienak ikasteko.
Ondorioa
Ibiltzen ikastea edo bideo-jokoetan jolasten ikastea dela, frogatu da RL ereduak AI esparru baliagarriak direla erabakiak hartzeko konplexuak behar dituzten arazoak konpontzeko.
Teknologiak eboluzionatzen jarraitzen duen heinean, ikertzaileek zein garatzaileek ereduaren autoikaskuntzarako gaitasuna aprobetxatzen duten aplikazio berriak aurkitzen jarraituko dute.
Zein aplikazio praktikotan lagun dezakeela uste duzu indartze-ikaskuntzak?
Utzi erantzun bat