Litte wy ús foarstelle dat jo besykje in robot te learen hoe't se rinne moatte. Oars as in kompjûter leare hoe't wy oandielprizen kinne foarsizze of ôfbyldings kategorisearje, hawwe wy net echt in grutte dataset dy't wy kinne brûke om ús robot te trainen.
Hoewol it fansels foar jo kin komme, is kuierjen eins in heul komplekse aksje. In stap rinne omfettet typysk tsientallen ferskillende spieren dy't gearwurkje. De ynspanning en techniken dy't brûkt wurde om fan it iene plak nei it oare te rinnen binne ek ôfhinklik fan in ferskaat oan faktoaren, ynklusyf oft jo wat drage of oft der in helling is of oare foarmen fan obstakels.
Yn senario's lykas dizze kinne wy in metoade brûke bekend as fersterking learen of RL. Mei RL kinne jo in spesifyk doel definiearje dat jo wolle dat jo model oplost en it model stadichoan op himsels leare hoe't it it kin berikke.
Yn dit artikel sille wy de basis fan fersterking learen ûndersykje en hoe't wy it RL-kader kinne tapasse op in ferskaat oan ferskate problemen yn 'e echte wrâld.
Wat is fersterking learen?
Fersterking learen ferwiist nei in bepaalde subset fan masine learen dat rjochtet him op it finen fan oplossings troch beleanning winske gedrach en straffen net winske gedrach.
Oars as begeliede learen, hat de learmetoade foar fersterking typysk gjin trainingsdataset dy't de juste útfier leveret foar in opjûne ynput. By it ûntbrekken fan trainingsgegevens moat it algoritme de oplossing fine troch probearjen en flater. It algoritme, dat wy typysk ferwize as in agint, moat fine de oplossing troch himsels troch ynteraksje mei de miljeu.
Undersikers beslute oer hokker bepaalde útkomsten ta beleanne en wat it algoritme kin dwaan. Elk aksje it algoritme nimt sil in foarm fan feedback krije dy't skoare hoe goed it algoritme docht. Tidens it trainingsproses sil it algoritme úteinlik de optimale oplossing fine om in bepaald probleem op te lossen.
In ienfâldich foarbyld: 4 × 4 Grid
Litte wy sjen nei in ienfâldich foarbyld fan in probleem dat wy kinne oplosse mei fersterking learen.
Stel dat wy in 4 × 4-raster hawwe as ús omjouwing. Us agint wurdt willekeurich pleatst yn ien fan 'e fjilden tegearre mei in pear obstakels. It raster sil trije "pit" obstakels befetsje dy't moatte wurde foarkommen en in inkele "diamant" beleanning dy't de agint moat fine. De folsleine beskriuwing fan ús omjouwing stiet bekend as de omjouwing steat.
Yn ús RL-model kin ús agent ferhúzje nei elk neistlizzend plein, salang't d'r gjin obstakels binne dy't se blokkearje. De set fan alle jildige aksjes yn in opjûne omjouwing is bekend as de aksje romte. It doel fan ús agint is it koartste paad nei de beleanning te finen.
Us agint sil de learmetoade foar fersterking brûke om it paad nei de diamant te finen dy't it minste oantal stappen fereasket. Elke goede stap sil de robot in beleanning jaan en elke ferkearde stap sil de beleanning fan 'e robot subtractearje. It model berekkent de totale beleanning as de agint de diamant berikt.
No't wy de agint en omjouwing hawwe definieare, moatte wy ek de regels definiearje om te brûken foar it bepalen fan de folgjende aksje dy't de agint sil nimme sjoen syn hjoeddeistige steat en it miljeu.
Belied en Rewards
Yn in fersterking learmodel, a belied ferwiist nei de strategy brûkt troch in agint om har doelen te berikken. It belied fan 'e agint is wat beslút wat de agint dan moat dwaan jûn de hjoeddeistige steat fan' e agint en har omjouwing.
De agint moat alle mooglike belied evaluearje om te sjen hokker belied optimaal is.
Yn ús ienfâldige foarbyld sil lâning op in lege romte in wearde fan -1 werombringe. As de agint op in romte komt mei de diamantbeleanning, krije se in wearde fan 10. Mei dizze wearden kinne wy de ferskillende belied fergelykje mei in nut funksje U.
Litte wy no it nut fan 'e twa hjirboppe sjoen belied fergelykje:
U(A) = -1 – 1 -1 + 10 = 7
U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5
De resultaten litte sjen dat Belied A it bettere paad is om de beleanning te finen. Sa sil de agint Paad A brûke oer belied B.
Exploration vs eksploitaasje
It kwestje fan ferkenning tsjin eksploitaasje yn fersterking learen is in dilemma dat in agint moat tsjinkomme tidens it beslútproses.
Moatte aginten har rjochtsje op it ferkennen fan nije paden of opsjes of moatte se trochgean mei it benutten fan de opsjes dy't se al kenne?
As de agint kiest om te ferkennen, is d'r in mooglikheid foar de agint om in bettere opsje te finen, mar it kin ek it risiko hawwe dat tiid en boarnen fergrieme. Oan 'e oare kant, as de agint kiest om de oplossing te eksploitearjen dy't hy al wit, kin it in bettere opsje misse.
Praktyske Applications
Hjir binne guon manieren AI -ûndersikers hawwe modellen foar fersterking learen tapast om problemen yn 'e echte wrâld op te lossen:
Fersterking learen yn selsridende auto's
Fersterking learen is tapast op selsridende auto's om har fermogen om feilich en effisjint te riden te ferbetterjen. De technology stelt autonome auto's yn steat om te learen fan har flaters en har gedrach kontinu oan te passen om har prestaasjes te optimalisearjen.
Bygelyks it Londenske AI-bedriuw Wayve hat mei súkses in djippe fersterking learmodel tapast foar autonoom riden. Yn har eksperimint brûkten se in beleanningsfunksje dy't de tiid maksimalisearret dat it auto rydt sûnder dat de bestjoerder oan board ynput levere.
RL-modellen helpe ek auto's om besluten te nimmen op basis fan it miljeu, lykas it foarkommen fan obstakels of gearfoegje yn ferkear. Dizze modellen moatte in manier fine om de komplekse omjouwing om in auto hinne te konvertearjen yn in represintative steatsromte dy't it model kin begripe.
Reinforcement Learning in Robotics
Undersikers hawwe ek fersterkingslearen brûkt om robots te ûntwikkeljen dy't komplekse taken kinne leare. Troch dizze RL-modellen kinne robots har omjouwing observearje en besluten nimme op basis fan har observaasjes.
Der is bygelyks ûndersyk dien nei it brûken fan fersterkingslearmodellen om bipedale robots te learen hoe't se kinne kuier sels.
Undersikers beskôgje RL as in kaaimetoade op it mêd fan robotika. Fersterking learen jout robotyske aginten in ramt om ferfine aksjes te learen dy't oars lestich kinne wêze om te yngenieurjen.
Fersterking Learning yn Gaming
RL-modellen binne ek brûkt om te learen hoe te spyljen fideospultsjes. Aginten kinne wurde ynsteld om te learen fan har flaters en har prestaasjes yn it spultsje kontinu te ferbetterjen.
Undersikers hawwe al aginten ûntwikkele dy't spultsjes kinne spylje lykas skaken, Go en poker. Yn 2013, Deepmind brûkt Deep Reinforcement Learning om in model te litten leare hoe't jo Atari-spultsjes fanôf it begjin kinne spylje.
In protte boerdspullen en fideospultsjes hawwe in beheinde aksjeromte en in goed definieare konkreet doel. Dizze eigenskippen wurkje yn it foardiel fan it RL-model. RL-metoaden kinne fluch iterearje oer miljoenen simulearre spultsjes om de optimale strategyen te learen om oerwinning te berikken.
Konklúzje
Oft it learen hoe te kuierjen of learen hoe te spyljen fideospultsjes, RL-modellen binne bewiisd brûkbere AI-kaders te wêzen foar it oplossen fan problemen dy't komplekse beslútfoarming fereaskje.
As de technology trochgiet te evoluearjen, sille sawol ûndersikers as ûntwikkelders trochgean mei it finen fan nije applikaasjes dy't profitearje fan it selslearende fermogen fan it model.
Mei hokker praktyske tapassingen tinke jo dat fersterking learen kin helpe?
Leave a Reply