Styrkingarnám: gervigreind sem lærir af mistökum sínum

Efnisyfirlit[Fela][Sýna]

Hvað er styrkingarnám?
Einfalt dæmi: 4×4 Grid+-
- Stefna og verðlaun
- Könnun vs nýtingu
Hagnýt Umsóknir+-
Niðurstaða

Ímyndum okkur að þú sért að reyna að kenna vélmenni hvernig á að ganga. Ólíkt því að kenna tölvu hvernig á að spá fyrir um hlutabréfaverð eða flokka myndir, höfum við í raun ekki stórt gagnasafn sem við getum notað til að þjálfa vélmennið okkar.

Þó að það geti komið þér eðlilega fyrir, er ganga er í raun mjög flókin aðgerð. Að ganga skref felur venjulega í sér að tugir mismunandi vöðva vinna saman. Áreynsla og tækni sem notuð er til að ganga frá einum stað til annars fer einnig eftir ýmsum þáttum, þar á meðal hvort þú ert að bera eitthvað eða hvort það sé halli eða annars konar hindranir.

Í aðstæðum sem þessum getum við notað aðferð sem kallast styrkingarnám eða RL. Með RL geturðu skilgreint ákveðið markmið sem þú vilt að líkanið þitt leysi og smám saman látið líkanið læra á eigin spýtur hvernig á að ná því.

Í þessari grein munum við kanna grunnatriði styrkingarnáms og hvernig við getum beitt RL rammanum á margvísleg mismunandi vandamál í hinum raunverulega heimi.

Hvað er styrkingarnám?

Styrkingarnám vísar til ákveðins undirmengis vél nám sem leggur áherslu á að finna lausnir með því að verðlauna æskilega hegðun og refsa fyrir óæskilega hegðun.

skýringarmynd um styrkingarnámsramma

Ólíkt nám undir eftirliti hefur styrkingarnámsaðferðin venjulega ekki þjálfunargagnasett sem gefur rétta úttakið fyrir tiltekið inntak. Ef þjálfunargögn eru ekki til verður reikniritið að finna lausnina með því að prófa og villa. Reikniritið, sem við vísum venjulega til sem an umboðsmaður, verður að finna lausnina af sjálfu sér með því að hafa samskipti við umhverfi.

Vísindamenn ákveða hvaða tiltekna niðurstöður verða umbuna og hvað reikniritið er fær um að gera. Hvert aðgerð reikniritið tekur mun fá einhvers konar endurgjöf sem mælir hversu vel reikniritið stendur sig. Meðan á þjálfunarferlinu stendur mun reikniritið að lokum finna bestu lausnina til að leysa ákveðið vandamál.

Einfalt dæmi: 4×4 Grid

Við skulum skoða einfalt dæmi um vandamál sem við getum leyst með styrkingarnámi.

Segjum að við höfum 4×4 rist sem umhverfi okkar. Umboðsmaður okkar er settur af handahófi í einu af reitunum ásamt nokkrum hindrunum. Ristið skal innihalda þrjár „holu“ hindranir sem verður að forðast og eina „tígul“ verðlaun sem umboðsmaðurinn verður að finna. Heildarlýsing á umhverfi okkar er þekkt sem umhverfið voru.

styrkingarnám byggir á umboðsmanni sem hefur samskipti við hermt umhverfi

Í RL líkaninu okkar getur umboðsmaður okkar flutt á hvaða aðliggjandi torg sem er svo framarlega sem engar hindranir hindra þá. Samstæða allra gildara aðgerða í tilteknu umhverfi er þekkt sem aðgerðarými. Markmið umboðsmanns okkar er að finna stystu leiðina til verðlaunanna.

umboðsmaður hefur aðgerðarými eða mengi gildra aðgerða í tilteknu ástandi

Umboðsmaður okkar mun nota styrkingarnámsaðferðina til að finna leiðina að demantinum sem krefst sem minnsts fjölda skrefa. Hvert rétt skref mun gefa vélmenni verðlaun og hvert rangt skref mun draga frá verðlaun vélmennisins. Líkanið reiknar út heildarverðlaunin þegar umboðsmaðurinn nær tígulnum.

Nú þegar við höfum skilgreint umboðsmanninn og umhverfið, verðum við einnig að skilgreina reglurnar til að nota til að ákvarða næstu aðgerð sem umboðsmaðurinn mun grípa til í ljósi núverandi ástands hans og umhverfisins.

Stefna og verðlaun

Í styrkingarnámslíkani, a stefna vísar til þeirrar stefnu sem umboðsmaður notar til að ná markmiðum sínum. Stefna umboðsmannsins er það sem ákveður hvað umboðsmaðurinn á að gera næst miðað við núverandi ástand umboðsmannsins og umhverfi hans.

Umboðsmaðurinn verður að meta allar mögulegar stefnur til að sjá hvaða stefna er ákjósanleg.

að leggja mat á stefnu

Í einfalda dæminu okkar mun það skila gildinu -1 þegar þú lendir á tómu rými. Þegar umboðsmaðurinn lendir á bili með tígulverðlaunin mun hann fá gildið 10. Með því að nota þessi gildi getum við borið saman mismunandi reglur með því að nota gagnsemi virka U.

Við skulum nú bera saman notagildi tveggja reglna sem sjást hér að ofan:

U(A) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

Niðurstöðurnar sýna að stefna A er betri leiðin til að finna verðlaunin. Þannig mun umboðsmaðurinn nota leið A yfir stefnu B.

Könnun vs nýtingu

Könnunarvandamálið vs hagnýtingarvandamálið í styrktarnámi er vandamál sem umboðsmaður verður að standa frammi fyrir í ákvörðunarferlinu.

Ættu umboðsmenn að einbeita sér að því að kanna nýjar leiðir eða valkosti eða ættu þeir að halda áfram að nýta þá valkosti sem þeir þekkja nú þegar?

Ef umboðsmaður kýs að kanna, er möguleiki fyrir umboðsmann að finna betri kost, en það getur líka átt á hættu að sóa tíma og fjármagni. Á hinn bóginn, ef umboðsmaðurinn kýs að nýta lausnina sem hann þekkir nú þegar, gæti hann farið á mis við betri kost.

Hagnýt Umsóknir

Hér eru nokkrar leiðir AI vísindamenn hafa beitt styrkingarnámslíkönum til að leysa raunveruleg vandamál:

Styrkingarnám í sjálfkeyrandi bílum

Styrkingarnámi hefur verið beitt á sjálfkeyrandi bíla til að bæta hæfni þeirra til að aka á öruggan og skilvirkan hátt. Tæknin gerir sjálfstýrðum bílum kleift að læra af mistökum sínum og aðlaga hegðun sína stöðugt til að hámarka frammistöðu sína.

styrkingarnám notað til að keyra sjálft

Til dæmis, gervigreindarfyrirtæki í London Wayve hefur með góðum árangri beitt djúpstyrkingarnámi fyrir sjálfvirkan akstur. Í tilraun sinni notuðu þeir verðlaunaaðgerð sem hámarkar þann tíma sem ökutækið keyrir án þess að ökumaður um borð hafi gefið inntak.

RL módel hjálpa einnig bílum að taka ákvarðanir byggðar á umhverfinu, eins og að forðast hindranir eða sameinast í umferð. Þessi líkön verða að finna leið til að breyta flóknu umhverfi í kringum bíl í dæmigert ástandsrými sem líkanið getur skilið.

Styrkingarnám í vélfærafræði

Vísindamenn hafa einnig notað styrkingarnám til að þróa vélmenni sem geta lært flókin verkefni. Með þessum RL líkönum geta vélmenni fylgst með umhverfi sínu og tekið ákvarðanir byggðar á athugunum þeirra.

Til dæmis hafa verið gerðar rannsóknir á því að nota styrkingarnámslíkön til að leyfa tvífættu vélmenni að læra hvernig á að gera það ganga á eigin spýtur.

styrkingarnám að kenna vélmenni að ganga

Vísindamenn telja RL vera lykilaðferð á sviði vélfærafræði. Styrkingarnám gefur vélmennaverkefnum ramma til að læra háþróaðar aðgerðir sem annars gæti verið erfitt að hanna.

Styrktarnám í leikjum

RL módel hafa einnig verið notuð til að læra að spila tölvuleiki. Umboðsmenn geta verið settir upp til að læra af mistökum sínum og bæta stöðugt frammistöðu sína í leiknum.

Vísindamenn hafa þegar þróað umboðsmenn sem geta spilað leiki eins og skák, Go og póker. Árið 2013, DeepMind notaði Deep Reinforcement Learning til að leyfa líkani að læra hvernig á að spila Atari leiki frá grunni.

Margir borð- og tölvuleikir hafa takmarkað aðgerðarými og vel skilgreint áþreifanlegt markmið. Þessir eiginleikar virka RL líkaninu í hag. RL aðferðir geta fljótt endurtekið yfir milljónir herma leikja til að læra bestu aðferðir til að ná sigri.

Niðurstaða

Hvort sem það er að læra hvernig á að ganga eða læra hvernig á að spila tölvuleiki, RL líkön hafa reynst gagnleg gervigreind ramma til að leysa vandamál sem krefjast flóknar ákvarðanatöku.

Þegar tæknin heldur áfram að þróast munu bæði rannsakendur og þróunaraðilar halda áfram að finna ný forrit sem nýta sér sjálfskennslugetu líkansins.

Hvaða hagnýtu forrit heldurðu að styrkingarnám geti hjálpað við?

Styrkingarnám: gervigreind sem lærir af mistökum sínum

Hvað er styrkingarnám?