Învățare prin consolidare: AI care învață din greșelile sale

Cuprins[Ascunde][Spectacol]

Ce este învățarea prin întărire?
Un exemplu simplu: grilă 4×4+-
- Politici și recompense
- Explorare vs. Exploatare
Aplicații practice+-
Concluzie

Să ne imaginăm că încerci să înveți un robot să meargă. Spre deosebire de a învăța un computer cum să prezică prețurile acțiunilor sau să clasifice imaginile, nu avem cu adevărat un set de date mare pe care să îl putem folosi pentru a ne antrena robotul.

Deși îți poate veni natural, mersul pe jos este de fapt o acțiune foarte complexă. Mersul unui pas implică de obicei zeci de mușchi diferiți care lucrează împreună. Efortul și tehnicile folosite pentru a merge dintr-un loc în altul depind și de o varietate de factori, inclusiv dacă cărați ceva sau dacă există o înclinație sau alte forme de obstacole.

În scenarii ca acestea, putem folosi o metodă cunoscută sub numele de învățare prin întărire sau RL. Cu RL, puteți defini un obiectiv specific pe care doriți să-l rezolve modelul și, treptat, lăsați modelul să învețe singur cum să-l atingă.

În acest articol, vom explora elementele de bază ale învățării prin întărire și cum putem aplica cadrul RL la o varietate de probleme diferite din lumea reală.

Ce este învățarea prin întărire?

Învățarea prin întărire se referă la un anumit subset de masina de învățare care se concentrează pe găsirea de soluții prin recompensarea comportamentelor dorite și pedepsirea comportamentelor nedorite.

diagrama cadrului de învățare prin întărire

Spre deosebire de învățarea supravegheată, metoda de învățare prin întărire nu are de obicei un set de date de antrenament care oferă rezultatul potrivit pentru o anumită intrare. În absența datelor de antrenament, algoritmul trebuie să găsească soluția prin încercare și eroare. Algoritmul, la care ne referim de obicei ca an agent, trebuie să găsească singur soluția interacționând cu mediu inconjurator.

Cercetătorii decid asupra rezultatelor specifice răsplăti și ce este capabil algoritmul să facă. Fiecare acțiune algoritmul ia va primi o anumită formă de feedback care punctează cât de bine se descurcă algoritmul. În timpul procesului de antrenament, algoritmul va găsi în cele din urmă soluția optimă pentru a rezolva o anumită problemă.

Un exemplu simplu: grilă 4×4

Să aruncăm o privire la un exemplu simplu de problemă pe care o putem rezolva cu învățarea prin întărire.

Să presupunem că avem o grilă 4×4 ca mediu. Agentul nostru este plasat aleatoriu într-unul dintre pătrate împreună cu câteva obstacole. Grila va conține trei obstacole „groape” care trebuie evitate și o singură recompensă „diamantă” pe care agentul trebuie să o găsească. Descrierea completă a mediului nostru este cunoscută sub numele de mediu de stat.

Învățarea prin consolidare se bazează pe un agent care interacționează cu un mediu simulat

În modelul nostru RL, agentul nostru se poate deplasa în orice pătrat alăturat atâta timp cât nu există obstacole care să-l blocheze. Setul tuturor acțiunilor valide dintr-un mediu dat este cunoscut sub numele de spațiu de acțiune. Scopul agentului nostru este să găsească cea mai scurtă cale către recompensă.

agentul are un spațiu de acțiune sau setul de acțiuni valide într-o stare dată

Agentul nostru va folosi metoda de învățare prin întărire pentru a găsi calea către diamantul care necesită cel mai mic număr de pași. Fiecare pas corect îi va oferi robotului o recompensă și fiecare pas greșit va scădea recompensa robotului. Modelul calculează recompensa totală odată ce agentul ajunge la diamant.

Acum că am definit agentul și mediul, trebuie să definim și regulile de utilizat pentru a determina următoarea acțiune pe care o va întreprinde agentul, având în vedere starea sa actuală și mediul înconjurător.

Politici și recompense

Într-un model de învățare prin întărire, a Politica se referă la strategia folosită de un agent pentru a-și îndeplini obiectivele. Politica agentului este cea care decide ce ar trebui să facă agentul în continuare, având în vedere starea curentă a agentului și mediul său.

Agentul trebuie să evalueze toate politicile posibile pentru a vedea care politică este optimă.

evaluarea politicilor

În exemplul nostru simplu, aterizarea pe un spațiu gol va returna o valoare de -1. Când agentul aterizează pe un spațiu cu recompensa de diamant, va primi o valoare de 10. Folosind aceste valori, putem compara diferitele politici folosind o Functie utilitara U.

Să comparăm acum utilitatea celor două politici văzute mai sus:

U(A) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

Rezultatele arată că Politica A este calea mai bună pentru a găsi recompensa. Astfel, agentul va folosi Calea A peste Politica B.

Explorare vs. Exploatare

Problema compromisului de explorare vs. exploatare în învățarea prin întărire este o dilemă cu care trebuie să se confrunte agentul în timpul procesului de decizie.

Ar trebui agenții să se concentreze pe explorarea de noi căi sau opțiuni sau ar trebui să continue să exploateze opțiunile pe care le cunosc deja?

Dacă agentul alege să exploreze, există posibilitatea ca agentul să găsească o opțiune mai bună, dar poate risca și să piardă timp și resurse. Pe de altă parte, dacă agentul alege să exploateze soluția pe care o cunoaște deja, poate pierde o opțiune mai bună.

Aplicații practice

Iată câteva moduri Cercetători AI au aplicat modele de învățare prin întărire pentru a rezolva probleme din lumea reală:

Învățare de întărire în mașini cu auto-conducere

Învățarea prin consolidare a fost aplicată mașinilor cu conducere autonomă pentru a le îmbunătăți capacitatea de a conduce în siguranță și eficient. Tehnologia permite mașinilor autonome să învețe din greșelile lor și să își ajusteze continuu comportamentul pentru a-și optimiza performanța.

învățare prin întărire utilizată pentru conducerea autonomă

De exemplu, compania AI cu sediul la Londra Wayve a aplicat cu succes un model de învățare de întărire profundă pentru conducerea autonomă. În experimentul lor, ei au folosit o funcție de recompensă care maximizează timpul în care vehiculul rulează fără ca șoferul de la bord să ofere informații.

Modelele RL ajută, de asemenea, mașinile să ia decizii bazate pe mediu, cum ar fi evitarea obstacolelor sau îmbinarea în trafic. Aceste modele trebuie să găsească o modalitate de a transforma mediul complex din jurul unei mașini într-un spațiu reprezentativ de stat pe care modelul îl poate înțelege.

Învățare prin consolidare în robotică

Cercetătorii au folosit, de asemenea, învățarea prin întărire pentru a dezvolta roboți care pot învăța sarcini complexe. Prin aceste modele RL, roboții sunt capabili să-și observe mediul și să ia decizii pe baza observațiilor lor.

De exemplu, s-au făcut cercetări cu privire la utilizarea modelelor de învățare prin întărire pentru a permite roboților bipezi să învețe cum umbla pe cont propriu.

învățare prin întărire învățarea unui robot să meargă

Cercetătorii consideră că RL este o metodă cheie în domeniul roboticii. Învățarea prin consolidare oferă agenților robotici un cadru pentru a învăța acțiuni sofisticate care ar putea fi altfel dificil de proiectat.

Învățare de consolidare în jocuri

Modelele RL au fost folosite și pentru a învăța cum să joci jocuri video. Agenții pot fi configurați pentru a învăța din greșelile lor și pentru a-și îmbunătăți continuu performanța în joc.

Cercetătorii au dezvoltat deja agenți care pot juca jocuri precum șah, Go și poker. În 2013, DeepMind a folosit Deep Reinforcement Learning pentru a permite unui model să învețe cum să joace jocuri Atari de la zero.

Multe jocuri de societate și jocuri video au un spațiu de acțiune limitat și un scop concret bine definit. Aceste trăsături funcționează în avantajul modelului RL. Metodele RL pot repeta rapid milioane de jocuri simulate pentru a învăța strategiile optime pentru a obține victoria.

Concluzie

Fie că este vorba de a învăța cum să meargă sau de a învăța să joci jocuri video, modelele RL s-au dovedit a fi cadre utile AI pentru rezolvarea problemelor care necesită luare a deciziilor complexe.

Pe măsură ce tehnologia continuă să evolueze, atât cercetătorii, cât și dezvoltatorii vor continua să găsească noi aplicații care profită de capacitatea de auto-predare a modelului.

Cu ce aplicații practice credeți că poate ajuta învățarea prin întărire?

Învățare prin consolidare: IA care învață din greșelile sale

Ce este învățarea prin întărire?