Låt oss föreställa oss att du försöker lära en robot hur man går. Till skillnad från att lära en dator hur man förutsäger aktiekurser eller kategoriserar bilder, har vi egentligen inte en stor datamängd som vi kan använda för att träna vår robot.
Även om det kan komma naturligt för dig, är promenader faktiskt en mycket komplex handling. Att gå ett steg innebär vanligtvis att dussintals olika muskler arbetar tillsammans. Ansträngningen och teknikerna som används för att gå från en plats till en annan beror också på en mängd olika faktorer, inklusive om du bär på något eller om det finns en lutning eller andra former av hinder.
I scenarier som dessa kan vi använda en metod som kallas förstärkningsinlärning eller RL. Med RL kan du definiera ett specifikt mål som du vill att din modell ska lösa och gradvis låta modellen lära sig på egen hand hur den ska uppnå det.
I den här artikeln kommer vi att utforska grunderna för förstärkningsinlärning och hur vi kan tillämpa RL-ramverket på en mängd olika problem i den verkliga världen.
Vad är förstärkningsinlärning?
Förstärkningsinlärning hänvisar till en viss delmängd av maskininlärning som fokuserar på att hitta lösningar genom att belöna önskade beteenden och bestraffa oönskade beteenden.
Till skillnad från övervakat lärande, har förstärkningsinlärningsmetoden vanligtvis inte en träningsdatauppsättning som ger rätt utdata för en given input. I avsaknad av träningsdata måste algoritmen hitta lösningen genom att trial and error. Algoritmen, som vi vanligtvis refererar till som en medlet, måste hitta lösningen själv genom att interagera med miljö.
Forskare beslutar om vilka särskilda resultat som ska uppnås belöna och vad algoritmen kan göra. Varje handling algoritmen tar kommer att få någon form av feedback som poängsätter hur bra algoritmen fungerar. Under träningsprocessen kommer algoritmen så småningom att hitta den optimala lösningen för att lösa ett visst problem.
Ett enkelt exempel: 4×4 Grid
Låt oss ta en titt på ett enkelt exempel på ett problem vi kan lösa med förstärkningsinlärning.
Anta att vi har ett 4×4-rutnät som vår miljö. Vår agent placeras slumpmässigt i en av rutorna tillsammans med några hinder. Rutnätet ska innehålla tre "grop"-hinder som måste undvikas och en enda "diamant"-belöning som agenten måste hitta. Den fullständiga beskrivningen av vår miljö kallas miljöns tillstånd.
I vår RL-modell kan vår agent flytta till valfri intilliggande ruta så länge det inte finns några hinder som blockerar dem. Uppsättningen av alla giltiga åtgärder i en given miljö är känd som handlingsutrymme. Målet för vår agent är att hitta den kortaste vägen till belöningen.
Vår agent kommer att använda förstärkningsinlärningsmetoden för att hitta vägen till den diamant som kräver minst antal steg. Varje rätt steg kommer att ge roboten en belöning och varje fel steg kommer att subtrahera robotens belöning. Modellen beräknar den totala belöningen när agenten når diamanten.
Nu när vi har definierat agenten och miljön måste vi också definiera reglerna som ska användas för att bestämma nästa åtgärd som agenten kommer att vidta med tanke på dess nuvarande tillstånd och miljön.
Policyer och belöningar
I en förstärkningsinlärningsmodell, en policy hänvisar till den strategi som används av en agent för att uppnå sina mål. Agentens policy är det som avgör vad agenten ska göra härnäst med tanke på agentens aktuella tillstånd och dess miljö.
Agenten måste utvärdera alla möjliga policyer för att se vilken policy som är optimal.
I vårt enkla exempel kommer att landa på en tom plats returnera värdet -1. När agenten landar på ett mellanslag med diamantbelöningen kommer de att få ett värde på 10. Med hjälp av dessa värden kan vi jämföra de olika policyerna med en verktygsfunktion U.
Låt oss nu jämföra användbarheten av de två policyerna ovan:
U(A) = -1 – 1 -1 + 10 = 7
U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5
Resultaten visar att policy A är den bättre vägen till att hitta belöningen. Således kommer agenten att använda sökväg A över policy B.
Utforskning vs exploatering
Avvägningsproblemet mellan utforskning och exploatering i förstärkningsinlärning är ett dilemma som en agent måste möta under beslutsprocessen.
Ska agenter fokusera på att utforska nya vägar eller alternativ eller ska de fortsätta att utnyttja de alternativ de redan känner till?
Om agenten väljer att utforska finns det en möjlighet för agenten att hitta ett bättre alternativ, men det kan också riskera att slösa tid och resurser. Å andra sidan, om agenten väljer att utnyttja den lösning den redan känner till, kan den gå miste om ett bättre alternativ.
Praktiska tillämpningar
Här är några sätt AI-forskare har tillämpat förstärkningsinlärningsmodeller för att lösa verkliga problem:
Förstärkningsinlärning i självkörande bilar
Förstärkningsinlärning har tillämpats på självkörande bilar för att förbättra deras förmåga att köra säkert och effektivt. Tekniken gör det möjligt för autonoma bilar att lära av sina misstag och ständigt anpassa sitt beteende för att optimera sin prestanda.
Till exempel det Londonbaserade AI-företaget Wayve har framgångsrikt tillämpat en djup förstärkningsinlärningsmodell för autonom körning. I sitt experiment använde de en belöningsfunktion som maximerar den tid som fordonet körs utan att föraren ombord lämnar input.
RL-modeller hjälper också bilar att fatta beslut utifrån miljön, som att undvika hinder eller gå in i trafiken. Dessa modeller måste hitta ett sätt att omvandla den komplexa miljön som omger en bil till ett representativt tillståndsutrymme som modellen kan förstå.
Reinforcement Learning in Robotics
Forskare har också använt förstärkningsinlärning för att utveckla robotar som kan lära sig komplexa uppgifter. Genom dessa RL-modeller kan robotar observera sin miljö och fatta beslut utifrån sina observationer.
Det har till exempel gjorts forskning om hur man använder modeller för förstärkningsinlärning för att låta tvåfota robotar lära sig hur man gör gå själva.
Forskare anser att RL är en nyckelmetod inom robotteknik. Förstärkningsinlärning ger robotagenter ett ramverk för att lära sig sofistikerade handlingar som annars kan vara svåra att konstruera.
Förstärkt lärande i spel
RL-modeller har också använts för att lära sig spela tv-spel. Agenter kan ställas in för att lära sig av sina misstag och ständigt förbättra sina prestationer i spelet.
Forskare har redan utvecklat agenter som kan spela spel som schack, Go och poker. Under 2013, Deepmind använde Deep Reinforcement Learning för att låta en modell lära sig spela Atari-spel från grunden.
Många brädspel och tv-spel har ett begränsat handlingsutrymme och ett väldefinierat konkret mål. Dessa egenskaper fungerar till RL-modellens fördel. RL-metoder kan snabbt iterera över miljontals simulerade spel för att lära sig de optimala strategierna för att uppnå seger.
Slutsats
Oavsett om det handlar om att lära sig gå eller lära sig att spela videospel, har RL-modeller visat sig vara användbara AI-ramverk för att lösa problem som kräver komplext beslutsfattande.
I takt med att tekniken fortsätter att utvecklas kommer både forskare och utvecklare att fortsätta hitta nya applikationer som drar nytta av modellens självlärande förmåga.
Vilka praktiska tillämpningar tror du att förstärkningsinlärning kan hjälpa till med?
Kommentera uppropet