Stel je voor dat je een robot probeert te leren lopen. In tegenstelling tot het leren van een computer om aandelenkoersen te voorspellen of afbeeldingen te categoriseren, hebben we niet echt een grote dataset die we kunnen gebruiken om onze robot te trainen.
Hoewel het misschien vanzelfsprekend voor je is, is lopen eigenlijk een zeer complexe actie. Bij het lopen van een stap zijn meestal tientallen verschillende spieren betrokken die samenwerken. De inspanning en technieken die worden gebruikt om van de ene plaats naar de andere te lopen, zijn ook afhankelijk van verschillende factoren, waaronder of u iets draagt of dat er een helling of andere vormen van obstakels zijn.
In scenario's als deze kunnen we een methode gebruiken die bekend staat als 'versterkingsleren' of RL. Met RL kunt u een specifiek doel definiëren dat uw model moet oplossen en het model geleidelijk zelf laten leren hoe het dit moet bereiken.
In dit artikel zullen we de basisprincipes van leerversterking verkennen en hoe we het RL-raamwerk kunnen toepassen op een verscheidenheid aan verschillende problemen in de echte wereld.
Wat is versterkend leren?
Reinforcement learning verwijst naar een bepaalde subset van machine learning die zich richt op het vinden van oplossingen door gewenst gedrag te belonen en ongewenst gedrag te bestraffen.
In tegenstelling tot gesuperviseerd leren, heeft de leermethode met versterking doorgaans geen trainingsdataset die de juiste output levert voor een bepaalde input. Bij gebrek aan trainingsgegevens moet het algoritme met vallen en opstaan de oplossing vinden. Het algoritme, waarnaar we meestal verwijzen als een agent, moet de oplossing zelf vinden door interactie met de milieu.
Onderzoekers beslissen over welke specifieke resultaten belonen en wat het algoritme kan doen. Elk actie het algoritme ontvangt een vorm van feedback die aangeeft hoe goed het algoritme het doet. Tijdens het trainingsproces zal het algoritme uiteindelijk de optimale oplossing vinden om een bepaald probleem op te lossen.
Een eenvoudig voorbeeld: 4×4 raster
Laten we eens kijken naar een eenvoudig voorbeeld van een probleem dat we kunnen oplossen met bekrachtigend leren.
Stel dat we een 4×4-raster als onze omgeving hebben. Onze agent wordt willekeurig op een van de vierkanten geplaatst, samen met een paar obstakels. Het raster bevat drie "pit" -obstakels die moeten worden vermeden en een enkele "diamant" -beloning die de agent moet vinden. De volledige beschrijving van onze omgeving staat bekend als de omgeving staat.
In ons RL-model kan onze agent naar elk aangrenzend veld gaan zolang er geen obstakels zijn die hem blokkeren. De verzameling van alle geldige acties in een bepaalde omgeving staat bekend als de actie ruimte. Het doel van onze agent is om de kortste weg naar de beloning te vinden.
Onze agent gebruikt de leermethode voor versterking om het pad naar de diamant te vinden dat het minste aantal stappen vereist. Elke juiste stap zal de robot een beloning geven en elke verkeerde stap zal de beloning van de robot aftrekken. Het model berekent de totale beloning zodra de agent de diamant bereikt.
Nu we de agent en de omgeving hebben gedefinieerd, moeten we ook de regels definiëren die moeten worden gebruikt om de volgende actie te bepalen die de agent zal ondernemen gezien zijn huidige status en de omgeving.
Beleid en beloningen
In een leermodel voor versterking, a beleidsmaatregelen verwijst naar de strategie die een agent gebruikt om zijn doelen te bereiken. Het beleid van de agent bepaalt wat de agent vervolgens moet doen, gegeven de huidige status van de agent en zijn omgeving.
De agent moet alle mogelijke beleidslijnen evalueren om te zien welk beleid optimaal is.
In ons eenvoudige voorbeeld zal het landen op een lege ruimte een waarde van -1 opleveren. Wanneer de agent op een veld met de diamantbeloning terechtkomt, ontvangt hij een waarde van 10. Met behulp van deze waarden kunnen we de verschillende polissen vergelijken met een hulpprogramma functie U.
Laten we nu het nut van de twee bovenstaande beleidsregels vergelijken:
U(A) = -1 – 1 -1 + 10 = 7
U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5
De resultaten laten zien dat beleid A de betere weg is om de beloning te vinden. De agent gebruikt pad A dus boven beleid B.
Exploratie vs. Exploitatie
Het afwegingsprobleem tussen exploratie en exploitatie bij leerversterking is een dilemma waar een agent tijdens het besluitvormingsproces mee te maken krijgt.
Moeten agenten zich concentreren op het verkennen van nieuwe wegen of opties of moeten ze doorgaan met het benutten van de opties die ze al kennen?
Als de agent ervoor kiest om te verkennen, is er een mogelijkheid voor de agent om een betere optie te vinden, maar het kan ook het risico lopen tijd en middelen te verspillen. Aan de andere kant, als de agent ervoor kiest om gebruik te maken van de oplossing die hij al kent, loopt hij mogelijk een betere optie mis.
Praktische toepassingen
Hier zijn enkele manieren: AI-onderzoekers hebben versterkingsleermodellen toegepast om problemen uit de echte wereld op te lossen:
Versterkend leren in zelfrijdende auto's
Reinforcement learning is toegepast op zelfrijdende auto's om hun vermogen om veilig en efficiënt te rijden te verbeteren. De technologie stelt autonome auto's in staat om van hun fouten te leren en hun gedrag voortdurend aan te passen om hun prestaties te optimaliseren.
Bijvoorbeeld het in Londen gevestigde AI-bedrijf Weg heeft met succes een leermodel met diepe versterking toegepast voor autonoom rijden. In hun experiment gebruikten ze een beloningsfunctie die de hoeveelheid tijd dat het voertuig rijdt maximaliseert zonder dat de bestuurder aan boord input levert.
RL-modellen helpen auto's ook bij het nemen van beslissingen op basis van de omgeving, zoals het vermijden van obstakels of het invoegen in het verkeer. Deze modellen moeten een manier vinden om de complexe omgeving rondom een auto om te zetten in een representatieve toestandsruimte die het model kan begrijpen.
Versterkend leren in robotica
Onderzoekers hebben ook versterkend leren gebruikt om robots te ontwikkelen die complexe taken kunnen leren. Via deze RL-modellen kunnen robots hun omgeving observeren en beslissingen nemen op basis van hun observaties.
Er is bijvoorbeeld onderzoek gedaan naar het gebruik van leermodellen voor versterking om tweevoetige robots te laten leren hoe dat moet lopen op zichzelf.
Onderzoekers beschouwen RL als een sleutelmethode op het gebied van robotica. Reinforcement learning geeft robotagenten een raamwerk om geavanceerde acties te leren die anders moeilijk te ontwikkelen zijn.
Versterkend leren in gaming
RL-modellen zijn ook gebruikt om videogames te leren spelen. Agenten kunnen worden ingesteld om van hun fouten te leren en hun prestaties in het spel voortdurend te verbeteren.
Onderzoekers hebben al middelen ontwikkeld die spellen zoals schaken, Go en poker kunnen spelen. In 2013, DeepMind gebruikte Deep Reinforcement Learning om een model in staat te stellen Atari-spellen vanaf nul te leren spelen.
Veel bordspellen en videogames hebben een beperkte actieruimte en een duidelijk omschreven concreet doel. Deze eigenschappen werken in het voordeel van het RL-model. RL-methoden kunnen snel miljoenen gesimuleerde games herhalen om de optimale strategieën te leren om de overwinning te behalen.
Conclusie
Of het nu gaat om het leren lopen of het leren spelen van videogames, het is bewezen dat RL-modellen nuttige AI-frameworks zijn voor het oplossen van problemen die complexe besluitvorming vereisen.
Naarmate de technologie zich blijft ontwikkelen, zullen zowel onderzoekers als ontwikkelaars nieuwe toepassingen blijven vinden die profiteren van het zelflerende vermogen van het model.
Bij welke praktische toepassingen denkt u dat versterkend leren kan helpen?
Laat een reactie achter