Forsterkningslæring: AI som lærer av sine feil

Innholdsfortegnelse[Gjemme seg][Forestilling]

Hva er forsterkende læring?
Et enkelt eksempel: 4×4 rutenett+-
- Retningslinjer og belønninger
- Utforskning vs. utnyttelse
praktiske anvendelser+-
konklusjonen

La oss forestille oss at du prøver å lære en robot å gå. I motsetning til å lære en datamaskin å forutsi aksjekurser eller kategorisere bilder, har vi egentlig ikke et stort datasett som vi kan bruke til å trene opp roboten vår.

Selv om det kan falle naturlig for deg, er det å gå en veldig kompleks handling. Å gå et skritt involverer vanligvis dusinvis av forskjellige muskler som jobber sammen. Anstrengelsen og teknikkene som brukes for å gå fra ett sted til et annet avhenger også av en rekke faktorer, inkludert om du bærer noe eller om det er en stigning eller andre former for hindringer.

I scenarier som disse kan vi bruke en metode kjent som forsterkende læring eller RL. Med RL kan du definere et spesifikt mål du vil at modellen din skal løse og gradvis la modellen lære på egen hånd hvordan den skal oppnås.

I denne artikkelen vil vi utforske det grunnleggende om forsterkende læring og hvordan vi kan bruke RL-rammeverket på en rekke forskjellige problemer i den virkelige verden.

Hva er forsterkende læring?

Forsterkende læring refererer til en bestemt undergruppe av maskinlæring som fokuserer på å finne løsninger ved å belønne ønsket atferd og straffe uønsket atferd.

diagram over rammeverket for forsterkende læring

I motsetning til veiledet læring, har forsterkningslæringsmetoden vanligvis ikke et opplæringsdatasett som gir riktig utgang for en gitt input. I mangel av treningsdata må algoritmen finne løsningen gjennom prøving og feiling. Algoritmen, som vi vanligvis refererer til som en agenten, må finne løsningen selv ved å samhandle med miljø.

Forskere bestemmer hvilke konkrete resultater som skal oppnås belønne og hva algoritmen er i stand til å gjøre. Hver handling algoritmen tar vil motta en form for tilbakemelding som scorer hvor godt algoritmen gjør det. I løpet av treningsprosessen vil algoritmen etter hvert finne den optimale løsningen for å løse et bestemt problem.

Et enkelt eksempel: 4×4 rutenett

La oss ta en titt på et enkelt eksempel på et problem vi kan løse med forsterkende læring.

Anta at vi har et 4×4 rutenett som miljø. Agenten vår er plassert tilfeldig i en av rutene sammen med noen få hindringer. Rutenettet skal inneholde tre «pit»-hindringer som må unngås og en enkelt «diamant»-belønning som agenten må finne. Den fullstendige beskrivelsen av miljøet vårt er kjent som miljøets stat.

forsterkende læring er avhengig av en agent som samhandler med et simulert miljø

I vår RL-modell kan agenten vår flytte til et tilstøtende torg så lenge det ikke er noen hindringer som blokkerer dem. Settet med alle gyldige handlinger i et gitt miljø er kjent som handlingsrom. Målet til vår agent er å finne den korteste veien til belønningen.

agent har et handlingsrom eller settet med gyldige handlinger i en gitt tilstand

Vår agent vil bruke forsterkningslæringsmetoden for å finne veien til diamanten som krever minst mulig trinn. Hvert riktig trinn vil gi roboten en belønning, og hvert feil trinn vil trekke fra belønningen til roboten. Modellen beregner den totale belønningen når agenten når diamanten.

Nå som vi har definert agenten og miljøet, må vi også definere reglene som skal brukes for å bestemme den neste handlingen agenten skal utføre gitt sin nåværende tilstand og miljøet.

Retningslinjer og belønninger

I en forsterkende læringsmodell, en politikk refererer til strategien som brukes av en agent for å oppnå sine mål. Agentens policy er det som bestemmer hva agenten skal gjøre videre gitt den nåværende tilstanden til agenten og dens miljø.

Agenten må evaluere alle mulige policyer for å se hvilken policy som er optimal.

evaluere politikk

I vårt enkle eksempel vil landing på en tom plass returnere en verdi på -1. Når agenten lander på en plass med diamantbelønningen, vil de motta en verdi på 10. Ved å bruke disse verdiene kan vi sammenligne de forskjellige policyene ved å bruke en nyttefunksjon U.

La oss nå sammenligne nytten av de to retningslinjene ovenfor:

U(A) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

Resultatene viser at policy A er den beste veien til å finne belønningen. Dermed vil agenten bruke bane A over policy B.

Utforskning vs. utnyttelse

Avveiningsproblemet mellom leting og utnyttelse i forsterkende læring er et dilemma en agent må møte under beslutningsprosessen.

Bør agenter fokusere på å utforske nye veier eller alternativer, eller bør de fortsette å utnytte alternativene de allerede kjenner?

Hvis agenten velger å utforske, er det en mulighet for agenten å finne et bedre alternativ, men det kan også risikere å kaste bort tid og ressurser. På den annen side, hvis agenten velger å utnytte løsningen den allerede kjenner, kan den gå glipp av et bedre alternativ.

praktiske anvendelser

Her er noen måter AI-forskere har brukt forsterkende læringsmodeller for å løse problemer i den virkelige verden:

Forsterkende læring i selvkjørende biler

Forsterkende læring har blitt brukt på selvkjørende biler for å forbedre deres evne til å kjøre sikkert og effektivt. Teknologien gjør det mulig for autonome biler å lære av sine feil og kontinuerlig justere oppførselen deres for å optimalisere ytelsen.

forsterkende læring brukt til selvkjøring

For eksempel det London-baserte AI-selskapet Wayve har med hell brukt en dyp forsterkende læringsmodell for autonom kjøring. I eksperimentet deres brukte de en belønningsfunksjon som maksimerer tiden kjøretøyet kjører uten at sjåføren om bord gir innspill.

RL-modeller hjelper også biler med å ta beslutninger basert på miljøet, for eksempel å unngå hindringer eller slå seg sammen i trafikken. Disse modellene må finne en måte å konvertere det komplekse miljøet rundt en bil til et representativt tilstandsrom som modellen kan forstå.

Forsterkende læring i robotikk

Forskere har også brukt forsterkende læring for å utvikle roboter som kan lære komplekse oppgaver. Gjennom disse RL-modellene er roboter i stand til å observere miljøet og ta beslutninger basert på observasjonene deres.

For eksempel har det blitt forsket på bruk av forsterkende læringsmodeller for å la bipedale roboter lære hvordan gå på egen hånd.

forsterkende læring lære en robot å gå

Forskere anser RL som en nøkkelmetode innen robotikk. Forsterkende læring gir robotagenter et rammeverk for å lære sofistikerte handlinger som ellers kan være vanskelige å konstruere.

Forsterkende læring i spilling

RL-modeller har også blitt brukt for å lære å spille videospill. Agenter kan settes opp til å lære av sine feil og kontinuerlig forbedre ytelsen i spillet.

Forskere har allerede utviklet agenter som kan spille spill som sjakk, Go og poker. I 2013, DeepMind brukte Deep Reinforcement Learning for å la en modell lære å spille Atari-spill fra bunnen av.

Mange brettspill og videospill har et begrenset handlingsrom og et veldefinert konkret mål. Disse egenskapene fungerer til fordel for RL-modellen. RL-metoder kan raskt iterere over millioner av simulerte spill for å lære de optimale strategiene for å oppnå seier.

konklusjonen

Enten det er å lære å gå eller lære å spille videospill, har RL-modeller vist seg å være nyttige AI-rammeverk for å løse problemer som krever kompleks beslutningstaking.

Ettersom teknologien fortsetter å utvikle seg, vil både forskere og utviklere fortsette å finne nye applikasjoner som drar nytte av modellens selvlærende evne.

Hvilke praktiske anvendelser tror du forsterkende læring kan hjelpe med?

Forsterkende læring: AI som lærer av sine feil

Hva er forsterkende læring?