Predstavljajmo si, da poskušate robota naučiti hoditi. V nasprotju z učenjem računalnika, kako napovedati cene delnic ali kategorizirati slike, pravzaprav nimamo velikega nabora podatkov, ki bi ga lahko uporabili za usposabljanje našega robota.
Čeprav vam je morda samoumevna, je hoja pravzaprav zelo zapleteno dejanje. Koračna hoja običajno vključuje na desetine različnih mišic, ki delujejo skupaj. Napor in tehnike hoje z enega kraja na drugega so odvisni tudi od različnih dejavnikov, vključno s tem, ali nekaj nosite, ali je naklon ali druge oblike ovir.
V takšnih scenarijih lahko uporabimo metodo, znano kot učenje z okrepitvijo ali RL. Z RL lahko določite določen cilj, za katerega želite, da ga reši vaš model, in postopoma pustite modelu, da se sam nauči, kako ga doseči.
V tem članku bomo raziskali osnove učenja s krepitvijo in kako lahko uporabimo ogrodje RL za različne probleme v resničnem svetu.
Kaj je učenje s krepitvijo?
Učenje s krepitvijo se nanaša na določeno podmnožico strojno učenje ki se osredotoča na iskanje rešitev z nagrajevanjem želenega vedenja in kaznovanjem nezaželenega vedenja.
Za razliko od nadzorovanega učenja metoda učenja s krepitvijo običajno nima nabora podatkov o usposabljanju, ki zagotavlja pravi rezultat za dani vnos. Če podatkov o usposabljanju ni, mora algoritem najti rešitev s poskusi in napakami. Algoritem, ki ga običajno imenujemo an zastopnik, mora sam najti rešitev v interakciji z okolje.
Raziskovalci se odločajo o tem, za katere posebne rezultate nagraditi in kaj je algoritem sposoben narediti. vsak ukrepanje algoritem bo prejel neko obliko povratne informacije, ki oceni, kako dobro deluje algoritem. Med procesom usposabljanja bo algoritem sčasoma našel optimalno rešitev za rešitev določenega problema.
Preprost primer: mreža 4×4
Oglejmo si preprost primer problema, ki ga lahko rešimo z učenjem s krepitvijo.
Recimo, da imamo kot naše okolje mrežo 4×4. Naš agent je naključno postavljen v eno od polj skupaj z nekaj ovirami. Mreža mora vsebovati tri ovire "jame", ki se jim je treba izogniti, in eno samo "diamantno" nagrado, ki jo mora agent najti. Celoten opis našega okolja je znan kot okolje so bili.
V našem modelu RL se lahko naš agent premakne na katero koli sosednje polje, če ni nobenih ovir, ki bi ga blokirale. Niz vseh veljavnih dejanj v danem okolju je znan kot akcijski prostor. Cilj našega agenta je najti najkrajšo pot do nagrade.
Naš agent bo z metodo učenja s krepitvijo našel pot do diamanta, ki zahteva najmanj korakov. Vsak pravilen korak bo robotu dal nagrado, vsak napačen korak pa bo robotu odštel nagrado. Model izračuna skupno nagrado, ko agent doseže diamant.
Zdaj, ko smo definirali agenta in okolje, moramo definirati tudi pravila za določanje naslednjega dejanja, ki ga bo agent izvedel glede na svoje trenutno stanje in okolje.
Politike in nagrade
V modelu učenja s krepitvijo, a politika se nanaša na strategijo, ki jo uporablja agent za dosego svojih ciljev. Politika agenta je tista, ki odloča, kaj naj agent stori naprej glede na trenutno stanje agenta in njegovo okolje.
Agent mora oceniti vse možne politike, da vidi, katera politika je optimalna.
V našem preprostem primeru bo pristanek na praznem prostoru vrnil vrednost -1. Ko agent pristane na prostoru z diamantno nagrado, bo prejel vrednost 10. Z uporabo teh vrednosti lahko primerjamo različne politike z uporabo uporabna funkcija U.
Zdaj pa primerjajmo uporabnost obeh zgoraj prikazanih pravilnikov:
U(A) = -1 – 1 -1 + 10 = 7
U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5
Rezultati kažejo, da je politika A boljša pot do iskanja nagrade. Tako bo agent uporabil pot A namesto politike B.
Raziskovanje proti izkoriščanju
Problem kompromisa med raziskovanjem in izkoriščanjem pri učenju z okrepitvijo je dilema, s katero se mora agent soočiti med postopkom odločanja.
Ali naj se agenti osredotočijo na raziskovanje novih poti ali možnosti ali naj nadaljujejo z izkoriščanjem možnosti, ki jih že poznajo?
Če se agent odloči raziskati, obstaja možnost, da najde boljšo možnost, lahko pa tudi tvega izgubo časa in virov. Po drugi strani, če se agent odloči izkoristiti rešitev, ki jo že pozna, lahko zamudi boljšo možnost.
Praktični Aplikacije
Tukaj je nekaj načinov Raziskovalci umetne inteligence so uporabili modele učenja z okrepitvijo za reševanje problemov v resničnem svetu:
Okrepljeno učenje v samovozečih avtomobilih
Pri samovozečih avtomobilih je bilo uporabljeno okrepljeno učenje, da bi izboljšali njihovo sposobnost varne in učinkovite vožnje. Tehnologija omogoča avtonomnim avtomobilom, da se učijo iz svojih napak in nenehno prilagajajo svoje vedenje, da bi optimizirali svojo zmogljivost.
Na primer londonsko podjetje AI Wayve je uspešno uporabil model globokega učenja s krepitvijo za avtonomno vožnjo. V svojem poskusu so uporabili funkcijo nagrajevanja, ki maksimira čas, ko vozilo teče brez posredovanja voznika.
Modeli RL tudi pomagajo avtomobilom pri sprejemanju odločitev glede na okolje, na primer pri izogibanju oviram ali vključevanju v promet. Ti modeli morajo najti način za pretvorbo kompleksnega okolja, ki obdaja avto, v reprezentativen prostor stanja, ki ga model lahko razume.
Okrepljeno učenje v robotiki
Raziskovalci uporabljajo tudi učenje z okrepitvijo za razvoj robotov, ki se lahko naučijo zapletenih nalog. S temi modeli RL lahko roboti opazujejo svoje okolje in sprejemajo odločitve na podlagi svojih opazovanj.
Opravljene so bile na primer raziskave o uporabi modelov učenja z okrepitvijo, ki bi dvonožnim robotom omogočili, da se naučijo sprehod sami.
Raziskovalci menijo, da je RL ključna metoda na področju robotike. Okrepljeno učenje daje robotskim agentom okvir za učenje prefinjenih dejanj, ki jih je sicer težko načrtovati.
Učenje s krepitvijo v igrah
Modeli RL so bili uporabljeni tudi za učenje igranja video iger. Agente lahko nastavite tako, da se učijo iz svojih napak in nenehno izboljšujejo svojo uspešnost v igri.
Raziskovalci so že razvili agente, ki lahko igrajo igre, kot so šah, go in poker. Leta 2013, Deepmind uporabil Deep Reinforcement Learning, da bi modelu omogočil, da se od začetka nauči igrati igre Atari.
Številne družabne igre in video igre imajo omejen akcijski prostor in natančno opredeljen konkreten cilj. Te lastnosti delujejo v korist modela RL. Metode RL lahko hitro ponovijo več milijonov simuliranih iger, da se naučijo optimalnih strategij za doseganje zmage.
zaključek
Ne glede na to, ali gre za učenje hoje ali učenje igranja video iger, so se modeli RL izkazali za uporabna ogrodja umetne inteligence za reševanje problemov, ki zahtevajo zapleteno odločanje.
Ker se tehnologija še naprej razvija, bodo raziskovalci in razvijalci še naprej iskali nove aplikacije, ki izkoriščajo sposobnost samoučenja modela.
Pri katerih praktičnih aplikacijah lahko po vašem mnenju pomaga učenje s krepitvijo?
Pustite Odgovori