Predstavme si, že sa pokúšate naučiť robota chodiť. Na rozdiel od výučby počítača, ako predpovedať ceny akcií alebo kategorizovať obrázky, v skutočnosti nemáme veľký súbor údajov, ktorý by sme mohli použiť na trénovanie nášho robota.
Aj keď vám to môže prísť prirodzené, chôdza je v skutočnosti veľmi zložitá činnosť. Chôdza o krok zvyčajne zahŕňa desiatky rôznych svalov, ktoré spolupracujú. Úsilie a techniky používané pri chôdzi z jedného miesta na druhé tiež závisia od rôznych faktorov, vrátane toho, či niečo nesiete, či je tam sklon alebo iné formy prekážok.
V scenároch, ako sú tieto, môžeme použiť metódu známu ako učenie zosilnenia alebo RL. Pomocou RL môžete definovať konkrétny cieľ, ktorý má váš model vyriešiť, a postupne nechať model, aby sa sám naučil, ako ho dosiahnuť.
V tomto článku preskúmame základy posilňovacieho učenia a ako môžeme aplikovať rámec RL na množstvo rôznych problémov v reálnom svete.
Čo je posilňovacie učenie?
Posilňovacie učenie sa týka konkrétnej podskupiny strojové učenie ktorá sa zameriava na hľadanie riešení odmeňovaním za želané správanie a trestaním nežiadúceho správania.
Na rozdiel od kontrolovaného učenia metóda posilňovacieho učenia zvyčajne nemá súbor údajov o tréningu, ktorý poskytuje správny výstup pre daný vstup. Pri absencii trénovacích údajov musí algoritmus nájsť riešenie prostredníctvom pokusov a omylov. Algoritmus, ktorý zvyčajne označujeme ako an zástupcu, musí nájsť riešenie sám prostredníctvom interakcie s prostredie.
Výskumníci rozhodujú o konkrétnych výsledkoch odmena a čo je algoritmus schopný robiť. Každý akčná algoritmus dostane určitú formu spätnej väzby, ktorá hodnotí, ako dobre sa algoritmu darí. Počas tréningového procesu algoritmus nakoniec nájde optimálne riešenie na vyriešenie určitého problému.
Jednoduchý príklad: mriežka 4×4
Pozrime sa na jednoduchý príklad problému, ktorý môžeme vyriešiť posilňovaním.
Predpokladajme, že ako prostredie máme mriežku 4×4. Náš agent je náhodne umiestnený na jednom zo štvorcov spolu s niekoľkými prekážkami. Mriežka bude obsahovať tri „jamkové“ prekážky, ktorým sa treba vyhnúť, a jednu „diamantovú“ odmenu, ktorú musí agent nájsť. Úplný popis nášho prostredia je známy ako životné prostredie stať.
V našom modeli RL sa náš agent môže presunúť na akékoľvek susedné políčko, pokiaľ mu v tom nebránia žiadne prekážky. Množina všetkých platných akcií v danom prostredí je známa ako akčný priestor. Cieľom nášho agenta je nájsť najkratšiu cestu k odmene.
Náš agent použije metódu učenia výstuže, aby našiel cestu k diamantu, ktorá vyžaduje najmenší počet krokov. Každý správny krok prinesie robotovi odmenu a každý nesprávny krok odpočíta odmenu robota. Model vypočíta celkovú odmenu, keď agent dosiahne diamant.
Teraz, keď sme definovali agenta a prostredie, musíme tiež definovať pravidlá, ktoré sa použijú na určenie ďalšej akcie, ktorú agent vykoná vzhľadom na jeho aktuálny stav a prostredie.
Zásady a odmeny
V posilňovacom modeli učenia sa a politika sa vzťahuje na stratégiu, ktorú agent používa na dosiahnutie svojich cieľov. Politika agenta je to, čo rozhoduje o tom, čo by mal agent urobiť ďalej vzhľadom na aktuálny stav agenta a jeho prostredia.
Agent musí vyhodnotiť všetky možné politiky, aby zistil, ktorá politika je optimálna.
V našom jednoduchom príklade pristátie na prázdnom mieste vráti hodnotu -1. Keď agent pristane na poli s diamantovou odmenou, dostane hodnotu 10. Pomocou týchto hodnôt môžeme porovnať rôzne politiky pomocou úžitková funkcia U.
Poďme teraz porovnať užitočnosť dvoch vyššie uvedených politík:
U(A) = -1 – 1 –1 + 10 = 7
U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5
Výsledky ukazujú, že politika A je lepšou cestou k nájdeniu odmeny. Zástupca teda použije cestu A pred politikou B.
Prieskum vs
Problém kompromisu medzi prieskumom a vykorisťovaním v posilňovacom učení je dilema, ktorej musí agent čeliť počas rozhodovacieho procesu.
Mali by sa agenti zamerať na skúmanie nových ciest alebo možností alebo by mali pokračovať vo využívaní možností, ktoré už poznajú?
Ak sa agent rozhodne preskúmať, má možnosť nájsť lepšiu možnosť, ale môže tiež riskovať plytvanie časom a zdrojmi. Na druhej strane, ak sa agent rozhodne využiť riešenie, ktoré už pozná, môže prísť o lepšiu možnosť.
Praktické aplikácie
Tu je niekoľko spôsobov výskumníci AI použili modely učenia sa posilňovania na riešenie problémov v reálnom svete:
Posilňovacie vzdelávanie v samoriadiacich autách
Posilňovacie učenie sa aplikovalo na samoriadiace autá s cieľom zlepšiť ich schopnosť jazdiť bezpečne a efektívne. Táto technológia umožňuje autonómnym autám poučiť sa zo svojich chýb a neustále upravovať svoje správanie s cieľom optimalizovať svoj výkon.
Napríklad spoločnosť AI so sídlom v Londýne Wayve úspešne aplikoval model učenia sa hlbokého posilnenia pre autonómne riadenie. Vo svojom experimente použili funkciu odmeňovania, ktorá maximalizuje čas, počas ktorého vozidlo jazdí bez toho, aby vodič na palube poskytol informácie.
Modely RL tiež pomáhajú autám rozhodovať sa na základe prostredia, ako je vyhýbanie sa prekážkam alebo zaraďovanie do premávky. Tieto modely musia nájsť spôsob, ako previesť zložité prostredie obklopujúce auto na reprezentatívny stavový priestor, ktorému model rozumie.
Posilňovacie vzdelávanie v robotike
Výskumníci tiež používajú posilňovacie učenie na vývoj robotov, ktorí sa dokážu naučiť zložité úlohy. Prostredníctvom týchto RL modelov sú roboty schopné pozorovať svoje prostredie a rozhodovať sa na základe ich pozorovaní.
Uskutočnil sa napríklad výskum používania modelov učenia zosilnenia, ktoré umožňujú bipedálnym robotom naučiť sa, ako sa to má robiť chôdze na vlastnú päsť.
Vedci považujú RL za kľúčovú metódu v oblasti robotiky. Posilňovacie učenie dáva robotickým agentom rámec na učenie sa sofistikovaných činností, ktoré by inak bolo ťažké skonštruovať.
Posilňovanie učenia v hrách
RL modely boli tiež použité na učenie sa, ako hrať videohry. Agentov možno nastaviť tak, aby sa poučili zo svojich chýb a neustále zlepšovali svoj výkon v hre.
Výskumníci už vyvinuli agentov, ktorí môžu hrať hry ako šach, Go a poker. V roku 2013, Deepmind použil Deep Reinforcement Learning, aby umožnil modelom naučiť sa hrať hry Atari od začiatku.
Mnoho spoločenských hier a videohier má obmedzený akčný priestor a presne definovaný konkrétny cieľ. Tieto vlastnosti sú výhodné pre model RL. Metódy RL môžu rýchlo opakovať milióny simulovaných hier, aby sa naučili optimálne stratégie na dosiahnutie víťazstva.
záver
Či už ide o učenie sa chôdze alebo učenie sa hrať videohry, modely RL sa ukázali ako užitočné rámce AI na riešenie problémov, ktoré si vyžadujú zložité rozhodovanie.
Ako sa technológia neustále vyvíja, výskumníci aj vývojári budú naďalej hľadať nové aplikácie, ktoré využívajú samovzdelávaciu schopnosť modelu.
S akými praktickými aplikáciami si myslíte, že posilňovacie učenie môže pomôcť?
Nechaj odpoveď