Ni imagu, ke vi provas instrui al roboto kiel marŝi. Male al instruado al komputilo kiel antaŭdiri akciajn prezojn aŭ kategoriigi bildojn, ni vere ne havas grandan datumaron, kiun ni povas uzi por trejni nian roboton.
Kvankam ĝi povas veni nature al vi, marŝi estas fakte tre kompleksa ago. Marŝi paŝon kutime implikas dekduojn da malsamaj muskoloj laborantaj kune. La peno kaj teknikoj uzataj por marŝi de unu loko al alia ankaŭ dependas de diversaj faktoroj, inkluzive de ĉu vi portas ion aŭ ĉu estas deklivo aŭ aliaj formoj de obstakloj.
En scenaroj kiel ĉi tiuj, ni povas uzi metodon konatan kiel plifortiga lernado aŭ RL. Kun RL, vi povas difini specifan celon, kiun vi volas, ke via modelo solvi kaj iom post iom lasi la modelon lerni memstare kiel plenumi ĝin.
En ĉi tiu artikolo, ni esploros la bazojn de plifortiga lernado kaj kiel ni povas apliki la RL-kadron al diversaj malsamaj problemoj en la reala mondo.
Kio estas plifortiga lernado?
Plifortiga lernado rilatas al aparta subaro de maŝinlernado tio temigas trovi solvojn rekompencante deziratajn kondutojn kaj punante nedeziratajn kondutojn.
Male al kontrolita lernado, la plifortiga lernadmetodo tipe ne havas trejnan datumaron kiu disponigas la ĝustan produktaĵon por antaŭfiksita enigaĵo. En foresto de trejnaj datumoj, la algoritmo devas trovi la solvon per provo kaj eraro. La algoritmo, kiun ni kutime referencas kiel an agento, devas trovi la solvon per si mem per interagado kun la medio.
Esploristoj decidas pri kiaj apartaj rezultoj rekompenco kaj kion la algoritmo kapablas fari. Ĉiu ago la algoritmo prenas ricevos iun formon de retrosciigo kiu poentas kiom bone la algoritmo faras. Dum la trejnado, la algoritmo fine trovos la optimuman solvon por solvi certan problemon.
Simpla Ekzemplo: 4×4 Krado
Ni rigardu simplan ekzemplon de problemo, kiun ni povas solvi per plifortiga lernado.
Supozu, ke ni havas 4×4 kradon kiel nia medio. Nia agento estas metita hazarde en unu el la kvadratoj kune kun kelkaj obstakloj. La krado devas enhavi tri "fosaĵo-" malhelpojn kiuj devas esti evititaj kaj ununuran "diamanto-" rekompencon kiun la agento devas trovi. La kompleta priskribo de nia medio estas konata kiel la medio ŝtato.
En nia RL-modelo, nia agento povas moviĝi al iu ajn apuda kvadrato kondiĉe ke ne ekzistas obstakloj blokantaj ilin. La aro de ĉiuj validaj agoj en antaŭfiksita medio estas konata kiel la agospaco. La celo de nia agento estas trovi la plej mallongan vojon al la rekompenco.
Nia agento uzos la plifortigan lernmetodon por trovi la vojon al la diamanto, kiu postulas la plej malgrandan kvanton da paŝoj. Ĉiu ĝusta paŝo donos al la roboto rekompencon kaj ĉiu malĝusta paŝo subtrahos la rekompencon de la roboto. La modelo kalkulas la totalan rekompencon post kiam la agento atingas la diamanton.
Nun kiam ni difinis la agenton kaj medion, ni ankaŭ devas difini la regulojn por determini la sekvan agon, kiun la agento faros pro sia nuna stato kaj la medio.
Politikoj kaj Rekompencoj
En plifortiga lernmodelo, a politiko rilatas al la strategio uzita fare de agento por plenumi iliajn celojn. La politiko de la agento estas tio, kio decidas, kion la agento devus fari poste pro la nuna stato de la agento kaj ĝia medio.
La agento devas taksi ĉiujn eblajn politikojn por vidi kiu politiko estas optimuma.
En nia simpla ekzemplo, surteriĝo sur malplena spaco redonos valoron de -1. Kiam la agento surteriĝas sur spacon kun la diamanta rekompenco, ili ricevos valoron de 10. Uzante ĉi tiujn valorojn, ni povas kompari la malsamajn politikojn uzante utila funkcio U.
Ni nun komparu la utilecon de la du politikoj viditaj supre:
U(A) = -1 – 1 -1 + 10 = 7
U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5
La rezultoj montras, ke Politiko A estas la pli bona vojo por trovi la rekompencon. Tiel, la agento uzos Vojon A super Politiko B.
Esplorado kontraŭ ekspluato
La esplorproblemo kontraŭ ekspluatado en plifortiga lernado estas dilemo, kiun agento devas alfronti dum la decidprocezo.
Ĉu agentoj devus koncentriĝi pri esplorado de novaj vojoj aŭ opcioj aŭ ĉu ili daŭre ekspluati la eblojn, kiujn ili jam konas?
Se la agento elektas esplori, ekzistas ebleco por la agento trovi pli bonan elekton, sed ĝi ankaŭ povas riski malŝpari tempon kaj rimedojn. Aliflanke, se la agento elektas ekspluati la solvon, kiun ĝi jam konas, ĝi povas maltrafi pli bonan eblon.
praktikaj aplikoj
Jen kelkaj manieroj AI-esploristoj aplikis plifortigajn lernmodelojn por solvi realmondajn problemojn:
Plifortiga Lernado en Memveturaj Aŭtoj
Plifortiga lernado estis aplikita al memveturaj aŭtoj por plibonigi ilian kapablon veturi sekure kaj efike. La teknologio ebligas aŭtonomajn aŭtojn lerni de iliaj eraroj kaj kontinue ĝustigi ilian konduton por optimumigi ilian rendimenton.
Ekzemple, la London-bazita AI-firmao Wayve sukcese aplikis profundan plifortigan lernmodelon por aŭtonoma veturado. En ilia eksperimento, ili uzis rekompencan funkcion kiu maksimumigas la kvanton da tempo la veturilo kuras sen la ŝoforo surŝipe disponigante enigaĵon.
RL-modeloj ankaŭ helpas aŭtojn fari decidojn bazitajn sur la medio, kiel eviti obstaklojn aŭ kunfali en trafikon. Tiuj modeloj devas trovi manieron konverti la kompleksan medion ĉirkaŭantan aŭton en reprezentan ŝtatspacon kiun la modelo povas kompreni.
Plifortiga Lernado en Robotiko
Esploristoj ankaŭ uzis plifortigan lernadon por evoluigi robotojn kiuj povas lerni kompleksajn taskojn. Per tiuj RL-modeloj, robotoj povas observi sian medion kaj fari decidojn surbaze de siaj observaĵoj.
Ekzemple, esplorado estis farita pri uzado de plifortigaj lernmodeloj por permesi al dupiedaj robotoj lerni kiel piediru memstare.
Esploristoj konsideras RL esti ŝlosila metodo en la kampo de robotiko. Plifortiga lernado donas al robotagentoj kadron por lerni sofistikajn agojn, kiuj alie povas esti malfacile realigeblaj.
Plifortiga Lernado en Videoludado
RL-modeloj ankaŭ estis utiligitaj por lerni kiel ludi videoludojn. Agentoj povas esti starigitaj por lerni de siaj eraroj kaj kontinue plibonigi sian agadon en la ludo.
Esploristoj jam evoluigis agentojn kiuj povas ludi ludojn kiel ekzemple ŝako, Go kaj pokero. En 2013, Deepmind uzis Deep Reinforcement Learning por permesi al modelo lerni kiel ludi Atari-ludojn de komence.
Multaj tabulludoj kaj videoludoj havas limigitan agadspacon kaj bone difinitan konkretan celon. Tiuj trajtoj funkcias al la avantaĝo de la RL-modelo. RL-metodoj povas rapide ripeti milionojn da simulitaj ludoj por lerni la optimumajn strategiojn por atingi venkon.
konkludo
Ĉu ĝi lernas kiel marŝi aŭ lernas kiel ludi videoludojn, RL-modeloj pruviĝis esti utilaj AI-kadroj por solvi problemojn kiuj postulas kompleksan decidon.
Dum la teknologio daŭre evoluas, kaj esploristoj kaj programistoj daŭre trovos novajn aplikojn, kiuj utiligas la meminstruan kapablon de la modelo.
Kiaj praktikaj aplikoj laŭ vi povas helpi plifortigan lernadon?
Lasi Respondon