Apprendimentu di rinforzu: AI chì ampara da i so sbagli

Table di cuntinutu[Piattà][Mostra]

Chì ghjè l'apprendimentu di rinfurzamentu?
Un Esempiu Simple: 4 × 4 Grid+-
- Politiche è Rewards
- Esplorazione versus Sfruttamentu
Practical Applications+-
cunchiusioni

Imaginemu chì pruvate d'insignà à un robot cumu marchjà. A cuntrariu di l'insignamentu di un urdinatore cumu per predice i prezzi di l'azzioni o categurizà l'imaghjini, ùn avemu micca veramente un grande dataset chì pudemu aduprà per furmà u nostru robot.

Mentre pò esse naturali per voi, camminendu hè in realtà una azzione assai cumplessa. Camminà un passu tipicamente implica decine di musculi diffirenti chì travaglianu inseme. U sforzu è e tecniche utilizati per marchjà da un locu à l'altru dipende ancu da una varietà di fatturi, cumpresu s'ellu porta qualcosa o s'ellu ci hè una inclinazione o altre forme d'ostaculi.

In scenarii cum'è questi, pudemu usà un metudu cunnisciutu cum'è apprendimentu di rinforzu o RL. Cù RL, pudete definisce un scopu specificu chì vulete chì u vostru mudellu risolve è gradualmente lascià u mudellu amparà da ellu stessu cumu fà.

In questu articulu, esploreremu i fundamenti di l'apprendimentu di rinforzu è cumu pudemu applicà u quadru RL à una varietà di prublemi diffirenti in u mondu reale.

Chì ghjè l'apprendimentu di rinfurzamentu?

L'apprendimentu di rinforzu si riferisce à un subset particulari di machine learning chì si cuncentra à truvà suluzioni ricumpinsendu i cumpurtamenti desiderati è punisce i cumpurtamenti indesiderati.

diagramma di u quadru di apprendimentu di rinforzu

A cuntrariu di l'apprendimentu supervisatu, u metudu di apprendimentu di rinforzu ùn hà tipicamente micca un set di dati di furmazione chì furnisce l'output ghjusta per un input determinatu. In l'absenza di dati di furmazione, l'algoritmu deve truvà a suluzione per prucessu è errore. L'algoritmu, chì avemu tipicamenti riferite cum'è un agenti, deve truvà a suluzione da ellu stessu interagisce cù u ambiente.

I ricercatori decidenu nantu à quali risultati particulari ricumpensa è ciò chì l'algoritmu hè capaci di fà. Ogni azzione l'algoritmu piglia riceve una certa forma di feedback chì puntua quantu l'algoritmu face. Durante u prucessu di furmazione, l'algoritmu eventualmente truvà a suluzione ottima per risolve un certu prublema.

Un Esempiu Simple: 4 × 4 Grid

Fighjemu un esempiu simplice di un prublema chì pudemu risolve cù l'apprendimentu di rinforzu.

Supponi chì avemu una griglia 4 × 4 cum'è u nostru ambiente. U nostru agente hè piazzatu aleatoriamente in una di e piazze cù uni pochi di ostaculi. A griglia cuntene trè ostaculi "fossa" chì deve esse evitata è una sola recompensa "diamante" chì l'agente deve truvà. A descrizzione cumpleta di u nostru ambiente hè cunnisciuta cum'è l'ambiente statu.

L'apprendimentu di rinforzu si basa in un agentu chì interagisce cù un ambiente simulatu

In u nostru mudellu RL, u nostru agentu pò spustà à qualsiasi quadru adiacente, sempre chì ùn ci hè micca ostaculi chì li bloccanu. L'inseme di tutte l'azzioni valide in un ambiente determinatu hè cunnisciutu cum'è u spaziu d'azzione. U scopu di u nostru agente hè di truvà a strada più corta per a ricumpensa.

l'agente hà un spaziu di azzione o l'inseme di azzioni valide in un statu datu

U nostru agente aduprà u metudu di apprendimentu di rinfurzamentu per truvà u percorsu à u diamante chì richiede u minimu di passi. Ogni passu ghjustu darà à u robot una ricumpensa è ogni passu sbagliatu sottrarà a ricumpensa di u robot. U mudellu calcula a ricumpensa tutale una volta chì l'agente righjunghji u diamante.

Avà chì avemu definitu l'agente è l'ambiente, duvemu ancu definisce e regule da aduprà per determinà a prossima azione chì l'agente farà da u so statu attuale è l'ambiente.

Politiche è Rewards

In un mudellu di apprendimentu di rinforzu, a pulitica si riferisce à a strategia utilizata da un agentu per rializà i so scopi. A pulitica di l'agente hè ciò chì decide ciò chì l'agente deve fà dopu datu u statu attuale di l'agente è u so ambiente.

L'agente deve evaluà tutte e pulitiche pussibuli per vede quale pulitica hè ottima.

valutà e pulitiche

In u nostru esempiu simplice, sbarcà nantu à un spaziu viotu restituverà un valore di -1. Quandu l'agente sbarca nantu à un spaziu cù a ricumpensa di diamante, riceveranu un valore di 10. Utilizendu sti valori, pudemu paragunà e diverse pulitiche usendu un funzione di utilità U.

Comparamu avà l'utilità di e duie pulitiche vistu sopra:

U(A) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

I risultati mostranu chì a Politica A hè u megliu per truvà a ricumpensa. Cusì, l'agente utilizerà Path A sopra a Politica B.

Esplorazione versus Sfruttamentu

U prublema di scuperta di esplorazione versus sfruttamentu in l'apprendimentu di rinforzu hè un dilema chì un agentu deve affruntà durante u prucessu di decisione.

L'agenti anu da fucalizza nantu à l'esplorazione di novi percorsi o opzioni o duveranu cuntinuà à sfruttà l'opzioni chì cunnosci digià?

Se l'agente sceglie di spiegà, ci hè a pussibilità per l'agente di truvà una opzione megliu, ma pò ancu risicà perdi tempu è risorse. Per d 'altra banda, se l'agente sceglie di sfruttà a suluzione chì cunnosci digià, pò mancassi una opzione megliu.

Practical Applications

Eccu alcuni modi Circadori AI anu applicatu mudelli di apprendimentu di rinforzu per risolve i prublemi di u mondu reale:

Apprendimentu di rinfurzà in e vitture à guida autònuma

L'apprendimentu di rinfurzamentu hè statu applicatu à e vitture auto-guide per migliurà a so capacità di guidà in modu sicuru è efficiente. A tecnulugia permette à e vitture autonome d'amparà da i so sbagli è aghjustà continuamente u so cumpurtamentu per ottimisà e so prestazioni.

apprendimentu di rinfurzamentu utilizatu per l'autoguida

Per esempiu, a cumpagnia AI di Londra Wayve hà applicatu cù successu un mudellu di apprendimentu di rinfurzamentu profondu per a guida autònoma. In u so esperimentu, anu utilizatu una funzione di ricumpensa chì maximizeghja a quantità di tempu chì u veiculu viaghja senza chì u cunduttore à bordu furnisce input.

I mudelli RL aiutanu ancu e vitture à piglià decisioni basate nantu à l'ambiente, cum'è evità ostaculi o fusione in u trafficu. Questi mudelli devenu truvà una manera di cunvertisce l'ambienti cumplessu chì circundanu una vittura in un spaziu statale rappresentativu chì u mudellu pò capisce.

Apprendimentu di rinfurzamentu in Robotica

I ricercatori anu ancu utilizatu l'apprendimentu di rinfurzamentu per sviluppà robots chì ponu amparà travaglii cumplessi. Attraversu sti mudelli RL, i robots sò capaci di osservà u so ambiente è di piglià decisioni basatu nantu à e so osservazioni.

Per esempiu, a ricerca hè stata fatta nantu à l'usu di mudelli di apprendimentu di rinforzu per permette à i robot bipedi di amparà cumu caminari da sè stessu.

apprendimentu di rinfurzamentu insignendu un robot à marchjà

I ricercatori consideranu RL per esse un metudu chjave in u campu di a robotica. L'apprendimentu di rinfurzamentu dà à l'agenti robotici un quadru per amparà azioni sofisticate chì altrimenti ponu esse difficili di ingegneria.

Apprendimentu di rinforzu in Lusinghi

I mudelli RL sò ancu usati per amparà à ghjucà à i video games. L'agenti ponu esse stallati per amparà da i so sbagli è migliurà continuamente a so prestazione in u ghjocu.

I circadori anu digià sviluppatu agenti chì ponu ghjucà ghjochi cum'è scacchi, Go, è poker. In u 2013, Deepmind utilizatu Deep Reinforcement Learning per permette à un mudellu per amparà à ghjucà à i ghjochi Atari da zero.

Parechji ghjochi di tavulinu è video games anu un spaziu di azzione limitatu è un scopu concretu ben definitu. Questi tratti funzionanu à u vantaghju di u mudellu RL. I metudi RL ponu iterà rapidamente più di milioni di ghjochi simulati per amparà e strategie ottimali per ottene a vittoria.

cunchiusioni

Ch'ella sia amparà à caminari o à amparà à ghjucà à i video games, i mudelli RL sò stati dimustrati per esse framework AI utili per risolve i prublemi chì necessitanu una decisione cumplessa.

Mentre a tecnulugia cuntinueghja à evoluzione, i ricercatori è i sviluppatori cuntinueghjanu à truvà novi applicazioni chì prufittà di a capacità d'auto-insignamentu di u mudellu.

Chì applicazioni pratiche pensate chì l'apprendimentu di rinforzu pò aiutà?

Apprendimentu di rinforzu: IA chì ampara da i so sbagli

Chì ghjè l'apprendimentu di rinfurzamentu?