Lad os forestille os, at du prøver at lære en robot at gå. I modsætning til at lære en computer at forudsige aktiekurser eller kategorisere billeder, har vi ikke rigtig et stort datasæt, som vi kan bruge til at træne vores robot.
Selvom det kan falde naturligt for dig, er gang faktisk en meget kompleks handling. At gå et skridt involverer typisk snesevis af forskellige muskler, der arbejder sammen. Den indsats og teknikker, der bruges til at gå fra et sted til et andet, afhænger også af en række forskellige faktorer, herunder om du bærer noget, eller om der er en hældning eller andre former for forhindringer.
I scenarier som disse kan vi bruge en metode kendt som forstærkningslæring eller RL. Med RL kan du definere et specifikt mål, du vil have din model til at løse, og gradvist lade modellen lære på egen hånd, hvordan den opnår det.
I denne artikel vil vi udforske det grundlæggende i forstærkningslæring, og hvordan vi kan anvende RL-rammen på en række forskellige problemer i den virkelige verden.
Hvad er forstærkende læring?
Forstærkende læring refererer til en bestemt delmængde af machine learning der fokuserer på at finde løsninger ved at belønne ønsket adfærd og straffe uønsket adfærd.
I modsætning til superviseret læring har forstærkningslæringsmetoden typisk ikke et træningsdatasæt, der giver det rigtige output for et givet input. I mangel af træningsdata skal algoritmen finde løsningen gennem trial and error. Algoritmen, som vi typisk omtaler som en agent, skal selv finde løsningen ved at interagere med miljø.
Forskere beslutter sig for, hvilke særlige resultater der skal opnås belønne og hvad algoritmen er i stand til at gøre. Hver Action algoritmen tager vil modtage en form for feedback, der scorer, hvor godt algoritmen klarer sig. Under træningsprocessen vil algoritmen til sidst finde den optimale løsning til at løse et bestemt problem.
Et simpelt eksempel: 4×4 gitter
Lad os tage et kig på et simpelt eksempel på et problem, vi kan løse med forstærkningslæring.
Antag, at vi har et 4×4-gitter som vores miljø. Vores agent er placeret tilfældigt i et af felterne sammen med et par forhindringer. Gitteret skal indeholde tre "pit"-forhindringer, som skal undgås, og en enkelt "diamant"-belønning, som agenten skal finde. Den komplette beskrivelse af vores miljø er kendt som miljøets tilstand.
I vores RL-model kan vores agent flytte til ethvert tilstødende felt, så længe der ikke er nogen forhindringer, der blokerer dem. Sættet af alle gyldige handlinger i et givet miljø er kendt som handlingsrum. Målet med vores agent er at finde den korteste vej til belønningen.
Vores agent vil bruge forstærkningsindlæringsmetoden til at finde vejen til den diamant, der kræver det mindste antal trin. Hvert rigtige trin vil give robotten en belønning, og hvert forkert trin vil trække robottens belønning fra. Modellen beregner den samlede belønning, når agenten når diamanten.
Nu hvor vi har defineret agenten og miljøet, skal vi også definere de regler, der skal bruges til at bestemme den næste handling, som agenten vil tage i betragtning af dens nuværende tilstand og miljøet.
Politikker og belønninger
I en forstærkningslæringsmodel, en politik refererer til den strategi, en agent bruger til at nå deres mål. Agentens politik er det, der bestemmer, hvad agenten skal gøre næste gang i betragtning af agentens aktuelle tilstand og dens miljø.
Agenten skal evaluere alle mulige politikker for at se, hvilken politik der er optimal.
I vores simple eksempel vil landing på en tom plads returnere en værdi på -1. Når agenten lander på et felt med diamantbelønningen, vil de modtage en værdi på 10. Ved at bruge disse værdier kan vi sammenligne de forskellige politikker ved hjælp af en brugsfunktion U.
Lad os nu sammenligne nytten af de to politikker set ovenfor:
U(A) = -1 – 1 -1 + 10 = 7
U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5
Resultaterne viser, at politik A er den bedste vej til at finde belønningen. Agenten vil således bruge sti A over politik B.
Udforskning vs. Udnyttelse
Udforskning vs. udnyttelse afvejningsproblemet i forstærkende læring er et dilemma, en agent skal stå over for under beslutningsprocessen.
Skal agenter fokusere på at udforske nye veje eller muligheder, eller skal de fortsætte med at udnytte de muligheder, de allerede kender?
Hvis agenten vælger at udforske, er der mulighed for, at agenten kan finde en bedre mulighed, men det kan også risikere at spilde tid og ressourcer. På den anden side, hvis agenten vælger at udnytte den løsning, den allerede kender, kan den gå glip af en bedre løsning.
Praktiske anvendelser
Her er nogle måder AI-forskere har anvendt forstærkende læringsmodeller til at løse problemer i den virkelige verden:
Forstærkningslæring i selvkørende biler
Forstærkende læring er blevet anvendt på selvkørende biler for at forbedre deres evne til at køre sikkert og effektivt. Teknologien gør det muligt for autonome biler at lære af deres fejl og løbende justere deres adfærd for at optimere deres ydeevne.
For eksempel den London-baserede AI-virksomhed Wayve har med succes anvendt en dyb forstærkende læringsmodel til autonom kørsel. I deres eksperiment brugte de en belønningsfunktion, der maksimerer den tid, køretøjet kører, uden at føreren ombord giver input.
RL-modeller hjælper også biler med at træffe beslutninger baseret på miljøet, såsom at undgå forhindringer eller smelte sammen i trafikken. Disse modeller skal finde en måde at konvertere det komplekse miljø omkring en bil til et repræsentativt tilstandsrum, som modellen kan forstå.
Forstærkende læring i robotteknologi
Forskere har også brugt forstærkningslæring til at udvikle robotter, der kan lære komplekse opgaver. Gennem disse RL-modeller er robotter i stand til at observere deres omgivelser og træffe beslutninger baseret på deres observationer.
For eksempel er der blevet forsket i at bruge forstærkningslæringsmodeller til at give tobenede robotter mulighed for at lære, hvordan man gør gå på egen hånd.
Forskere anser RL for at være en nøglemetode inden for robotteknologi. Forstærkningslæring giver robotagenter en ramme til at lære sofistikerede handlinger, som ellers kan være svære at konstruere.
Forstærkende læring i spil
RL-modeller er også blevet brugt til at lære at spille videospil. Agenter kan sættes op til at lære af deres fejl og løbende forbedre deres præstationer i spillet.
Forskere har allerede udviklet agenter, der kan spille spil som skak, Go og poker. I 2013 DeepMind brugt Deep Reinforcement Learning til at give en model mulighed for at lære at spille Atari-spil fra bunden.
Mange brætspil og videospil har et begrænset handlingsrum og et veldefineret konkret mål. Disse egenskaber virker til RL-modellens fordel. RL-metoder kan hurtigt iterere over millioner af simulerede spil for at lære de optimale strategier for at opnå sejr.
Konklusion
Uanset om det er at lære at gå eller lære at spille videospil, har RL-modeller vist sig at være nyttige AI-rammer til at løse problemer, der kræver kompleks beslutningstagning.
I takt med at teknologien fortsætter med at udvikle sig, vil både forskere og udviklere fortsætte med at finde nye applikationer, der udnytter modellens selvlærende evner.
Hvilke praktiske anvendelser tror du, at forstærkningslæring kan hjælpe med?
Giv en kommentar