Versterkingsleer: KI wat uit sy foute leer

INHOUDSOPGAWE[Versteek][Wys]

Wat is versterkingsleer?
'n Eenvoudige voorbeeld: 4×4-rooster+-
- Beleide en belonings
- Eksplorasie vs. Uitbuiting
Praktiese Aansoeke+-
Gevolgtrekking

Kom ons verbeel ons jy probeer 'n robot leer hoe om te loop. Anders as om 'n rekenaar te leer hoe om aandeelpryse te voorspel of beelde te kategoriseer, het ons nie regtig 'n groot datastel wat ons kan gebruik om ons robot op te lei nie.

Alhoewel dit vir jou natuurlik mag kom, is stap eintlik 'n baie komplekse aksie. Om 'n tree te loop behels tipies dosyne verskillende spiere wat saamwerk. Die moeite en tegnieke wat gebruik word om van een plek na 'n ander te stap, hang ook af van 'n verskeidenheid faktore, insluitend of jy iets dra en of daar 'n helling of ander vorme van struikelblokke is.

In scenario's soos hierdie kan ons 'n metode gebruik wat bekend staan as versterkingsleer of RL. Met RL kan jy 'n spesifieke doelwit definieer wat jy wil hê jou model moet oplos en die model geleidelik op sy eie laat leer hoe om dit te bereik.

In hierdie artikel sal ons die basiese beginsels van versterkingsleer ondersoek en hoe ons die RL-raamwerk op 'n verskeidenheid verskillende probleme in die werklike wêreld kan toepas.

Wat is versterkingsleer?

Versterkingsleer verwys na 'n bepaalde subset van machine learning wat daarop fokus om oplossings te vind deur gewenste gedrag te beloon en ongewenste gedrag te straf.

diagram van die versterkingsleerraamwerk

Anders as onder toesig leer, het die versterkingsleermetode tipies nie 'n opleidingsdatastel wat die regte uitset vir 'n gegewe inset verskaf nie. In die afwesigheid van opleidingsdata moet die algoritme die oplossing vind deur proef en fout. Die algoritme, waarna ons tipies verwys as 'n agent, moet self die oplossing vind deur interaksie met die omgewing.

Navorsers besluit oor watter spesifieke uitkomste beloon en wat die algoritme kan doen. Elke aksie die algoritme sal 'n vorm van terugvoer ontvang wat bepaal hoe goed die algoritme vaar. Tydens die opleidingsproses sal die algoritme uiteindelik die optimale oplossing vind om 'n sekere probleem op te los.

'n Eenvoudige voorbeeld: 4×4-rooster

Kom ons kyk na 'n eenvoudige voorbeeld van 'n probleem wat ons met versterkingsleer kan oplos.

Gestel ons het 'n 4×4-rooster as ons omgewing. Ons agent word lukraak in een van die blokkies geplaas saam met 'n paar struikelblokke. Die rooster sal drie "put"-hindernisse bevat wat vermy moet word en 'n enkele "diamant"-beloning wat die agent moet vind. Die volledige beskrywing van ons omgewing staan bekend as die omgewing s'n was.

versterkingsleer maak staat op 'n agent wat interaksie het met 'n gesimuleerde omgewing

In ons RL-model kan ons agent na enige aangrensende vierkant beweeg solank daar geen struikelblokke is wat hulle versper nie. Die stel van alle geldige handelinge in 'n gegewe omgewing staan bekend as die aksieruimte. Die doel van ons agent is om die kortste pad na die beloning te vind.

agent het 'n aksieruimte of die stel geldige handelinge in 'n gegewe toestand

Ons agent sal die versterkingsleermetode gebruik om die pad na die diamant te vind wat die minste aantal stappe vereis. Elke regte stap sal die robot 'n beloning gee en elke verkeerde stap sal die beloning van die robot aftrek. Die model bereken die totale beloning sodra die agent die diamant bereik.

Noudat ons die agent en omgewing gedefinieer het, moet ons ook die reëls definieer om te gebruik vir die bepaling van die volgende aksie wat die agent sal neem gegewe sy huidige toestand en die omgewing.

Beleide en belonings

In 'n versterkingsleermodel, a beleid verwys na die strategie wat 'n agent gebruik om hul doelwitte te bereik. Die agent se beleid is wat besluit wat die agent volgende moet doen gegewe die huidige toestand van die agent en sy omgewing.

Die agent moet alle moontlike beleide evalueer om te sien watter beleid optimaal is.

beleid te evalueer

In ons eenvoudige voorbeeld sal landing op 'n leë spasie 'n waarde van -1 gee. Wanneer die agent op 'n spasie land met die diamantbeloning, sal hulle 'n waarde van 10 ontvang. Deur hierdie waardes te gebruik, kan ons die verskillende polisse vergelyk deur 'n nutsfunksie U.

Kom ons vergelyk nou die nut van die twee beleide hierbo gesien:

U(A) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

Die resultate toon dat beleid A die beter pad is om die beloning te vind. Die agent sal dus pad A oor beleid B gebruik.

Eksplorasie vs. Uitbuiting

Die eksplorasie-teen-uitbuiting-uitruilprobleem in versterkingsleer is 'n dilemma waarvoor 'n agent tydens die besluitnemingsproses te staan moet kom.

Moet agente daarop fokus om nuwe paaie of opsies te verken of moet hulle voortgaan om die opsies wat hulle reeds ken te ontgin?

As die agent kies om te verken, is daar 'n moontlikheid vir die agent om 'n beter opsie te vind, maar dit kan ook die risiko loop om tyd en hulpbronne te mors. Aan die ander kant, as die agent kies om die oplossing wat hy reeds ken te ontgin, kan hy 'n beter opsie misloop.

Praktiese Aansoeke

Hier is 'n paar maniere KI-navorsers het versterkingsleermodelle toegepas om werklike probleme op te los:

Versterkingsleer in selfbestuurmotors

Versterkingsleer is toegepas op selfbesturende motors om hul vermoë om veilig en doeltreffend te bestuur te verbeter. Die tegnologie stel outonome motors in staat om uit hul foute te leer en hul gedrag voortdurend aan te pas om hul werkverrigting te optimaliseer.

versterkingsleer wat vir selfbestuur gebruik word

Byvoorbeeld, die Londense KI-maatskappy Wayve het 'n diepversterkingsleermodel vir outonome bestuur suksesvol toegepas. In hul eksperiment het hulle 'n beloningsfunksie gebruik wat die hoeveelheid tyd wat die voertuig ry sonder dat die bestuurder aan boord insette verskaf, maksimeer.

RL-modelle help ook motors om besluite te neem wat gebaseer is op die omgewing, soos om hindernisse te vermy of in die verkeer saam te smelt. Hierdie modelle moet 'n manier vind om die komplekse omgewing rondom 'n motor te omskep in 'n verteenwoordigende staatsruimte wat die model kan verstaan.

Versterkingsleer in Robotika

Navorsers het ook versterkingsleer gebruik om robotte te ontwikkel wat komplekse take kan aanleer. Deur hierdie RL-modelle is robotte in staat om hul omgewing waar te neem en besluite te neem op grond van hul waarnemings.

Daar is byvoorbeeld navorsing gedoen oor die gebruik van versterkingsleermodelle om tweevoetige robotte toe te laat om te leer hoe om loop op hul eie.

versterkingsleer om 'n robot te leer loop

Navorsers beskou RL as 'n sleutelmetode op die gebied van robotika. Versterkingsleer gee robotagente 'n raamwerk om gesofistikeerde aksies aan te leer wat andersins moeilik kan wees om te ontwerp.

Versterkingsleer in spel

RL-modelle is ook gebruik om te leer hoe om videospeletjies te speel. Agente kan opgestel word om uit hul foute te leer en voortdurend hul prestasie in die spel te verbeter.

Navorsers het reeds agente ontwikkel wat speletjies soos skaak, Go en poker kan speel. In 2013, DeepMind Deep Reinforcement Learning gebruik om 'n model toe te laat om te leer hoe om Atari-speletjies van nuuts af te speel.

Baie bordspeletjies en videospeletjies het 'n beperkte aksieruimte en 'n goed gedefinieerde konkrete doelwit. Hierdie eienskappe werk tot die RL-model se voordeel. RL-metodes kan vinnig oor miljoene gesimuleerde speletjies herhaal om die optimale strategieë te leer om oorwinning te behaal.

Gevolgtrekking

Of dit nou is om te leer hoe om te loop of te leer hoe om videospeletjies te speel, RL-modelle is bewys dat dit nuttige KI-raamwerke is om probleme op te los wat komplekse besluitneming verg.

Soos die tegnologie voortgaan om te ontwikkel, sal beide navorsers en ontwikkelaars voortgaan om nuwe toepassings te vind wat voordeel trek uit die model se selfonderrigvermoë.

Met watter praktiese toepassings dink jy kan versterkingsleer help?

Versterkingsleer: KI wat uit sy foute leer

Wat is versterkingsleer?