Učenje s pojačanjem: AI koja uči na svojim pogreškama

Pregled sadržaja[Sakriti][Pokazati]

Što je učenje s potkrepljenjem?
Jednostavan primjer: mreža 4×4+-
- Pravila i nagrade
- Istraživanje protiv iskorištavanja
Praktične primjene+-
Zaključak

Zamislimo da pokušavate naučiti robota hodati. Za razliku od podučavanja računala kako predvidjeti cijene dionica ili kategorizirati slike, mi zapravo nemamo veliki skup podataka koji možemo koristiti za treniranje našeg robota.

Iako vam može biti prirodno, hodanje je zapravo vrlo složena radnja. Hodanje korakom obično uključuje desetke različitih mišića koji rade zajedno. Napor i tehnike koje se koriste za hodanje s jednog mjesta na drugo također ovise o nizu čimbenika, uključujući nosite li nešto ili postoji li nagib ili neki drugi oblici prepreka.

U ovakvim scenarijima možemo koristiti metodu poznatu kao učenje potkrepljenjem ili RL. Pomoću RL-a možete definirati određeni cilj koji želite da vaš model riješi i postupno pustiti model da sam nauči kako to postići.

U ovom ćemo članku istražiti osnove učenja s potkrepljenjem i kako možemo primijeniti RL okvir na niz različitih problema u stvarnom svijetu.

Što je učenje s potkrepljenjem?

Učenje s pojačanjem odnosi se na određeni podskup stroj za učenje koji se fokusira na pronalaženje rješenja nagrađivanjem željenih ponašanja i kažnjavanjem neželjenih ponašanja.

dijagram okvira učenja s potkrepljenjem

Za razliku od nadziranog učenja, metoda učenja s potkrepljenjem obično nema skup podataka za obuku koji daje pravi izlaz za dani ulaz. U nedostatku podataka o obuci, algoritam mora pronaći rješenje putem pokušaja i pogrešaka. Algoritam, koji obično nazivamo an agent, mora sam pronaći rješenje u interakciji s okolina.

Istraživači odlučuju o tome koje konkretne ishode nagraditi i što je algoritam sposoban učiniti. Svaki akcijski algoritam će primiti neki oblik povratne informacije koja ocjenjuje koliko dobro algoritam radi. Tijekom procesa obuke, algoritam će na kraju pronaći optimalno rješenje za rješavanje određenog problema.

Jednostavan primjer: mreža 4×4

Pogledajmo jednostavan primjer problema koji možemo riješiti učenjem s potkrepljenjem.

Pretpostavimo da kao okruženje imamo mrežu 4×4. Naš agent je postavljen nasumično u jedan od kvadrata zajedno s nekoliko prepreka. Mreža će sadržavati tri "pit" prepreke koje se moraju izbjeći i jednu "dijamantnu" nagradu koju agent mora pronaći. Potpuni opis našeg okoliša poznat je kao okoliš su.

učenje s pojačanjem oslanja se na agenta koji je u interakciji sa simuliranom okolinom

U našem RL modelu, naš se agent može pomaknuti na bilo koje susjedno polje sve dok nema prepreka koje ga blokiraju. Skup svih valjanih radnji u danom okruženju poznat je kao prostor djelovanja. Cilj našeg agenta je pronaći najkraći put do nagrade.

agent ima akcijski prostor ili skup valjanih radnji u danom stanju

Naš agent koristit će se metodom učenja s pojačanjem kako bi pronašao put do dijamanta koji zahtijeva najmanje koraka. Svaki ispravan korak će robotu dati nagradu, a svaki pogrešan korak će oduzeti nagradu robotu. Model izračunava ukupnu nagradu nakon što agent dođe do dijamanta.

Sada kada smo definirali agenta i okruženje, također moramo definirati pravila koja će se koristiti za određivanje sljedeće radnje koju će agent poduzeti s obzirom na njegovo trenutno stanje i okruženje.

Pravila i nagrade

U modelu učenja s potkrepljenjem, a politika odnosi se na strategiju koju koristi agent za postizanje svojih ciljeva. Politika agenta je ono što odlučuje što agent treba učiniti sljedeće s obzirom na trenutno stanje agenta i njegove okoline.

Agent mora procijeniti sve moguće politike kako bi vidio koja je politika optimalna.

ocjenjivanje politika

U našem jednostavnom primjeru, spuštanje na prazan prostor vratit će vrijednost -1. Kada agent sleti na prostor s dijamantnom nagradom, dobit će vrijednost 10. Pomoću ovih vrijednosti možemo usporediti različita pravila pomoću funkcija korisnosti U.

Usporedimo sada korisnost dva gore navedena pravila:

U(A) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

Rezultati pokazuju da je politika A bolji put do pronalaska nagrade. Stoga će agent koristiti Put A umjesto Politike B.

Istraživanje protiv iskorištavanja

Problem kompromisa između istraživanja i iskorištavanja u učenju s potkrepljenjem je dilema s kojom se agent mora suočiti tijekom procesa odlučivanja.

Trebaju li se agenti usredotočiti na istraživanje novih putova ili opcija ili trebaju nastaviti iskorištavati opcije koje već poznaju?

Ako agent odluči istražiti, postoji mogućnost da agent pronađe bolju opciju, ali također može riskirati gubitak vremena i resursa. S druge strane, ako agent odluči iskoristiti rješenje koje već poznaje, može propustiti bolju opciju.

Praktične primjene

Evo nekoliko načina AI istraživači primijenili su modele učenja s pojačanjem za rješavanje problema iz stvarnog svijeta:

Pojačano učenje u samovozećim automobilima

Učenje s pojačanjem primijenjeno je na samovozeće automobile kako bi se poboljšala njihova sposobnost sigurne i učinkovite vožnje. Tehnologija omogućuje autonomnim automobilima da uče na svojim pogreškama i neprestano prilagođavaju svoje ponašanje kako bi optimizirali svoje performanse.

učenje s pojačanjem koje se koristi za samostalnu vožnju

Na primjer, londonska tvrtka AI Wayve uspješno je primijenio model učenja s dubokim pojačanjem za autonomnu vožnju. U svom eksperimentu upotrijebili su funkciju nagrađivanja koja maksimizira količinu vremena koje vozilo radi bez sudjelovanja vozača.

RL modeli također pomažu automobilima u donošenju odluka na temelju okoline, poput izbjegavanja prepreka ili uključivanja u promet. Ovi modeli moraju pronaći način da pretvore složenu okolinu koja okružuje automobil u reprezentativni prostor stanja koji model može razumjeti.

Učenje s pojačanjem u robotici

Istraživači također koriste učenje s pojačanjem za razvoj robota koji mogu naučiti složene zadatke. Putem ovih RL modela roboti mogu promatrati svoje okruženje i donositi odluke na temelju svojih promatranja.

Na primjer, provedeno je istraživanje o korištenju modela učenja s potkrepljenjem kako bi se dvonožnim robotima omogućilo da nauče kako hodati samostalno.

učenje s pojačanjem poučavanje robota hodanju

Istraživači smatraju RL ključnom metodom u području robotike. Učenje s pojačanjem daje robotskim agentima okvir za učenje sofisticiranih radnji koje bi inače bilo teško projektirati.

Učenje s pojačanjem u igricama

RL modeli također su korišteni za učenje igranja video igrica. Agenti se mogu postaviti tako da uče na svojim pogreškama i neprestano poboljšavaju svoju izvedbu u igri.

Istraživači su već razvili agente koji mogu igrati igre kao što su šah, go i poker. U 2013, DeepMind upotrijebio Deep Reinforcement Learning kako bi omogućio modelu da nauči igrati Atari igre od nule.

Mnoge društvene igre i video igre imaju ograničen prostor djelovanja i dobro definiran konkretan cilj. Ove značajke idu u korist RL modela. RL metode mogu brzo ponoviti milijune simuliranih igara kako bi se naučile optimalne strategije za postizanje pobjede.

Zaključak

Bilo da se radi o učenju hodanja ili učenju igranja videoigara, RL modeli su se pokazali kao korisni AI okviri za rješavanje problema koji zahtijevaju složeno donošenje odluka.

Kako se tehnologija nastavlja razvijati, i istraživači i programeri nastavit će pronalaziti nove aplikacije koje iskorištavaju sposobnost samoučenja modela.

Što mislite, u kojim praktičnim primjenama učenje s potkrepljenjem može pomoći?

Učenje s pojačanjem: AI koja uči na svojim pogreškama

Što je učenje s potkrepljenjem?