Učenje s pojačanjem: AI koja uči na svojim greškama

Sadržaj[Sakrij][Prikaži]

Šta je učenje s pojačanjem?
Jednostavan primjer: 4×4 mreža+-
- Politike i nagrade
- Istraživanje protiv eksploatacije
praktične primjene+-
zaključak

Zamislimo da pokušavate naučiti robota kako da hoda. Za razliku od podučavanja kompjutera kako da predvidi cijene dionica ili kategorizira slike, mi zapravo nemamo veliki skup podataka koji bismo mogli koristiti za obuku našeg robota.

Iako vam je to možda prirodno, hodanje je zapravo vrlo složena radnja. Hodanje korakom obično uključuje desetke različitih mišića koji rade zajedno. Napor i tehnike koje se koriste za hodanje s jednog mjesta na drugo također zavise od raznih faktora, uključujući da li nešto nosite ili postoji nagib ili drugi oblici prepreka.

U ovakvim scenarijima možemo koristiti metodu poznatu kao učenje s pojačanjem ili RL. Pomoću RL-a možete definirati specifičan cilj koji želite da vaš model riješi i postepeno pustite model da sam nauči kako ga postići.

U ovom članku ćemo istražiti osnove učenja s pojačanjem i kako možemo primijeniti RL okvir na niz različitih problema u stvarnom svijetu.

Šta je učenje s pojačanjem?

Učenje s pojačanjem se odnosi na određeni podskup mašinsko učenje koji se fokusira na pronalaženje rješenja nagrađivanjem željenog ponašanja i kažnjavanjem nepoželjnog ponašanja.

dijagram okvira učenja uz potkrepljivanje

Za razliku od učenja pod nadzorom, metoda učenja s pojačanjem obično nema skup podataka za obuku koji pruža pravi izlaz za dati ulaz. U nedostatku podataka za obuku, algoritam mora pronaći rješenje putem pokušaja i grešaka. Algoritam, koji obično nazivamo an agent, mora sam pronaći rješenje interakcijom sa ambijent.

Istraživači odlučuju o tome koji će konkretni ishodi biti nagrada i šta je algoritam sposoban da uradi. Svaki akcija algoritam će dobiti neki oblik povratne informacije koja ocjenjuje koliko dobro algoritam radi. Tokom procesa obuke, algoritam će na kraju pronaći optimalno rješenje za rješavanje određenog problema.

Jednostavan primjer: 4×4 mreža

Pogledajmo jednostavan primjer problema koji možemo riješiti uz pomoć učenja.

Pretpostavimo da imamo mrežu 4×4 kao naše okruženje. Naš agent je nasumično postavljen u jedan od kvadrata zajedno sa nekoliko prepreka. Mreža će sadržavati tri prepreke „jame“ koje se moraju izbjeći i jednu „dijamantsku“ nagradu koju agent mora pronaći. Potpuni opis našeg okruženja poznat je kao okruženje stanje.

učenje s pojačanjem se oslanja na agenta koji stupa u interakciju sa simuliranim okruženjem

U našem RL modelu, naš agent se može kretati na bilo koji susjedni kvadrat sve dok nema prepreka koje ga blokiraju. Skup svih valjanih radnji u datom okruženju poznat je kao akcijski prostor. Cilj našeg agenta je pronaći najkraći put do nagrade.

agent ima prostor akcije ili skup valjanih akcija u datom stanju

Naš agent će koristiti metodu učenja potkrepljenja da pronađe put do dijamanta koji zahtijeva najmanje koraka. Svaki pravi korak će dati robotu nagradu, a svaki pogrešan korak će oduzeti nagradu robota. Model izračunava ukupnu nagradu kada agent dođe do dijamanta.

Sada kada smo definirali agenta i okruženje, također moramo definirati pravila koja će se koristiti za određivanje sljedeće akcije koju će agent poduzeti s obzirom na svoje trenutno stanje i okruženje.

Politike i nagrade

U modelu učenja s potkrepljenjem, a politika odnosi se na strategiju koju agent koristi za postizanje svojih ciljeva. Politika agenta je ono što odlučuje šta agent treba da uradi sledeće s obzirom na trenutno stanje agenta i njegovog okruženja.

Agent mora procijeniti sve moguće politike da vidi koja je politika optimalna.

evaluacija politika

U našem jednostavnom primjeru, slijetanje na prazan prostor će vratiti vrijednost -1. Kada agent sleti na prostor sa nagradom dijamanta, dobit će vrijednost od 10. Koristeći ove vrijednosti, možemo uporediti različite politike koristeći funkcija korisnosti U.

Hajde sada da uporedimo korisnost dve gore navedene politike:

U(A) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

Rezultati pokazuju da je politika A bolji put do pronalaženja nagrade. Dakle, agent će koristiti put A preko politike B.

Istraživanje protiv eksploatacije

Problem kompromisa između istraživanja i eksploatacije u učenju sa pojačanjem je dilema sa kojom se agent mora suočiti tokom procesa odlučivanja.

Trebaju li se agenti fokusirati na istraživanje novih puteva ili opcija ili bi trebali nastaviti s iskorištavanjem opcija koje već poznaju?

Ako agent odluči istražiti, postoji mogućnost da agent pronađe bolju opciju, ali može također riskirati gubitak vremena i resursa. S druge strane, ako agent odluči da iskoristi rješenje koje već poznaje, može propustiti bolju opciju.

praktične primjene

Evo nekoliko načina AI istraživači primijenili su modele učenja s pojačanjem za rješavanje problema iz stvarnog svijeta:

Učenje s pojačanjem u samovozećim automobilima

Učenje s pojačanjem primijenjeno je na automobile koji se sami voze kako bi se poboljšala njihova sposobnost bezbedne i efikasne vožnje. Tehnologija omogućava autonomnim automobilima da uče iz svojih grešaka i stalno prilagođavaju svoje ponašanje kako bi optimizirali svoje performanse.

učenje s pojačanjem koje se koristi za samovožnju

Na primjer, kompanija AI sa sjedištem u Londonu Wayve je uspješno primijenio model učenja dubokog pojačanja za autonomnu vožnju. U svom eksperimentu, koristili su funkciju nagrađivanja koja maksimizira vrijeme vožnje bez vozača u vozilu.

RL modeli takođe pomažu automobilima da donose odluke zasnovane na okruženju, kao što je izbegavanje prepreka ili uključivanje u saobraćaj. Ovi modeli moraju pronaći način da pretvore složeno okruženje koje okružuje automobil u reprezentativni prostor stanja koji model može razumjeti.

Učenje s pojačanjem u robotici

Istraživači su također koristili učenje s pojačanjem kako bi razvili robote koji mogu naučiti složene zadatke. Kroz ove RL modele, roboti su u mogućnosti da posmatraju svoje okruženje i donose odluke na osnovu svojih zapažanja.

Na primjer, provedeno je istraživanje o korištenju modela učenja s pojačanjem kako bi se omogućilo dvonožnim robotima da nauče kako to učiniti hodati na svoju ruku.

učenje s pojačanjem, učenje robota da hoda

Istraživači smatraju RL ključnom metodom u polju robotike. Učenje s pojačanjem daje robotskim agentima okvir za učenje sofisticiranih radnji koje bi inače bilo teško projektirati.

Učenje s pojačanjem u igrama

RL modeli su također korišteni za učenje kako igrati video igrice. Agenti se mogu postaviti tako da uče iz svojih grešaka i stalno poboljšavaju svoje performanse u igri.

Istraživači su već razvili agente koji mogu igrati igre kao što su šah, Go i poker. Godine 2013. DeepMind koristio je Deep Reinforcement Learning kako bi omogućio modelu da nauči kako igrati Atari igre od nule.

Mnoge društvene igre i video igre imaju ograničen akcijski prostor i dobro definiran konkretan cilj. Ove osobine rade u prednosti RL modela. RL metode mogu brzo iterirati milione simuliranih igara kako bi naučili optimalne strategije za postizanje pobjede.

zaključak

Bilo da se radi o učenju hodanja ili učenju igranja video igrica, RL modeli su se pokazali kao korisni AI okviri za rješavanje problema koji zahtijevaju složeno donošenje odluka.

Kako tehnologija nastavlja da se razvija, i istraživači i programeri će nastaviti da pronalaze nove aplikacije koje iskorištavaju sposobnost samopodučavanja modela.

U kojim praktičnim aplikacijama mislite da učenje s pojačavanjem može pomoći?

Učenje s pojačanjem: AI koja uči na svojim greškama

Šta je učenje s pojačanjem?