Inhaltsverzeechnes[Verstoppen][Show]
Loosst eis virstellen datt Dir probéiert e Roboter ze léieren wéi ze goen. Am Géigesaz zu engem Computer ze léieren wéi een Aktiepräisser viraussoe kann oder Biller kategoriséieren, hu mir net wierklech e grousst Datesaz dee mir benotze kënne fir eise Roboter ze trainéieren.
Och wann et Iech natierlech kënnt, ass Spazéieren eigentlech eng ganz komplex Handlung. E Schrëtt trëppelen involvéiert typesch Dosende vu verschiddene Muskelen déi zesumme schaffen. D'Ustrengung an d'Techniken, déi benotzt gi fir vun enger Plaz op déi aner ze goen, hänkt och vu ville Faktoren of, och ob Dir eppes droen oder ob et eng Steigung oder aner Forme vun Hindernisser ass.
An Szenarie wéi dës kënne mir eng Method benotzen bekannt als Verstäerkung Léieren oder RL. Mat RL kënnt Dir e spezifescht Zil definéieren, deen Dir wëllt datt Äre Modell léist a lues a lues de Modell eleng léiere wéi een et erreechen kann.
An dësem Artikel wäerte mir d'Grondlage vum Verstäerkungsléieren entdecken a wéi mir den RL Kader op eng Vielfalt vu verschiddene Probleemer an der realer Welt kënnen applizéieren.
Wat ass Verstäerkung Léieren?
Verstäerkung Léieren bezitt sech op e bestëmmten Ënnerdeel vun Maschinn léieren dat konzentréiert sech op Léisungen ze fannen andeems Dir gewënscht Verhalen belount an ongewollt Verhalen bestrooft.
Am Géigesaz zum iwwerwaachte Léieren, huet d'Verstäerkungs-Léiermethod typesch keng Trainingsdataset déi de richtege Output fir e bestëmmten Input ubitt. Beim Fehlen vun Trainingsdaten muss den Algorithmus d'Léisung duerch Versuch a Feeler fannen. Den Algorithmus, dee mir normalerweis als an Agent, muss d'Léisung selwer fannen andeems se mat der Emwelt.
D'Fuerscher entscheeden iwwer wéi eng spezifesch Resultater Belounung a wat den Algorithmus fäeg ass ze maachen. All Aktiounen den Algorithmus hëlt wäert eng Form vu Feedback kréien, déi notéiert wéi gutt den Algorithmus mécht. Wärend dem Trainingsprozess fënnt den Algorithmus schliisslech déi optimal Léisung fir e bestëmmte Problem ze léisen.
En einfacht Beispill: 4 × 4 Gitter
Loosst eis en einfacht Beispill vun engem Problem kucken, dee mir mat Verstäerkungsléiere kënne léisen.
Ugeholl mir hunn e 4 × 4 Gitter als eist Ëmfeld. Eisen Agent gëtt zoufälleg an engem vun de Plazen zesumme mat e puer Hindernisser plazéiert. D'Gitter enthält dräi "Pit" Hindernisser déi vermeide musse ginn an eng eenzeg "Diamant" Belounung déi den Agent muss fannen. Déi komplett Beschreiwung vun eiser Ëmwelt ass bekannt als d'Ëmwelt Staat.
An eisem RL Modell kann eisen Agent op all ugrenzend Quadrat plënneren soulaang et keng Hindernisser sinn déi se blockéieren. De Set vun all valabelen Aktiounen an engem bestëmmten Ëmfeld ass bekannt als Aktioun Raum. D'Zil vun eisem Agent ass de kuerste Wee fir d'Belounung ze fannen.
Eisen Agent wäert d'Verstäerkungs-Léiermethod benotzen fir de Wee zum Diamant ze fannen deen déi mannst Quantitéit u Schrëtt erfuerdert. All richteg Schrëtt gëtt dem Roboter eng Belounung an all falsch Schrëtt wäert d'Belounung vum Roboter subtrahéieren. De Modell berechent d'total Belounung eemol den Agent den Diamant erreecht.
Elo datt mir den Agent an d'Ëmfeld definéiert hunn, musse mir och d'Regele definéieren fir ze benotzen fir déi nächst Handlung ze bestëmmen déi den Agent wäert huelen no sengem aktuellen Zoustand an der Ëmwelt.
Politiken a Belounungen
An engem Verstäerkung Léiermodell, a Politik bezitt sech op d'Strategie déi vun engem Agent benotzt gëtt fir hir Ziler z'erreechen. D'Politik vum Agent ass wat entscheet wat den Agent als nächst maache soll no dem aktuellen Zoustand vum Agent a senger Ëmwelt.
Den Agent muss all méiglech Politik evaluéieren fir ze kucken wéi eng Politik optimal ass.
An eisem einfache Beispill, Landung op engem eidele Raum gëtt e Wäert vun -1 zréck. Wann den Agent op engem Raum mat der Diamantbelounung landen, kréien se e Wäert vun 10. Mat dëse Wäerter kënne mir déi verschidde Politiken mat engem vergläichen Utility Funktioun U.
Loosst eis elo d'Nëtzlechkeet vun den zwou Politiken hei uewe vergläichen:
U(A) = -1 - 1 -1 + 10 = 7
U(B) = -1 - 1 - 1 - 1 - 1 + 10 = 5
D'Resultater weisen datt Politik A dee bessere Wee ass fir d'Belounung ze fannen. Also benotzt den Agent Path A iwwer Politik B.
Exploratioun vs Exploitatioun
D'Exploratioun vs Exploitatioun Trade-Off Problem am Verstäerkungsléieren ass en Dilemma en Agent muss während dem Entscheedungsprozess konfrontéieren.
Sollten d'Agenten sech fokusséieren op nei Weeër oder Optiounen ze entdecken oder solle se weiderhin d'Optiounen ausnotzen déi se scho kennen?
Wann den Agent wielt ze entdecken, ass et eng Méiglechkeet fir den Agent eng besser Optioun ze fannen, awer et kann och riskéieren Zäit a Ressourcen ze verschwenden. Op der anerer Säit, wann den Agent wielt d'Léisung auszenotzen déi se scho weess, kann et eng besser Optioun verpassen.
Praktesch Applikatiounen
Hei sinn e puer Weeër AI Fuerscher hunn Verstäerkung Léiermodeller applizéiert fir Real-Welt Problemer ze léisen:
Verstäerkung Léieren an Self-Driving Autoen
Verstäerkungsléiere gouf op selbstfahrend Autoen applizéiert fir hir Fäegkeet fir sécher an effizient ze fueren ze verbesseren. D'Technologie erlaabt autonom Autoen aus hire Feeler ze léieren an hir Verhalen kontinuéierlech unzepassen fir hir Leeschtung ze optimiséieren.
Zum Beispill d'London-baséiert AI Firma Wayve huet erfollegräich en déif Verstäerkung Léiermodell fir autonom Fuere applizéiert. An hirem Experiment hu si eng Belounungsfunktioun benotzt déi d'Zäit maximéiert wou d'Gefier leeft ouni datt de Chauffer u Bord Input gëtt.
RL Modeller hëllefen och Autoen Entscheedungen op Basis vun der Ëmwelt ze huelen, wéi Hindernisser ze vermeiden oder an de Verkéier fusionéieren. Dës Modeller mussen e Wee fannen fir dat komplext Ëmfeld ronderëm en Auto an e representativen Staatsraum ze konvertéieren deen de Modell kann verstoen.
Verstäerkung Léieren an der Robotik
D'Fuerscher hunn och Verstäerkungsléiere benotzt fir Roboteren z'entwéckelen déi komplex Aufgabe kënne léieren. Duerch dës RL Modeller kënnen Roboter hir Ëmwelt beobachten an Entscheedungen treffen op Basis vun hiren Observatiounen.
Zum Beispill gouf Fuerschung gemaach fir Verstäerkungsmodeller ze benotzen fir bipedal Roboter z'erméiglechen ze léieren wéi goen op sech selwer.
Fuerscher betruechten RL als eng Schlësselmethod am Beräich vun der Robotik. Verstäerkung Léieren gëtt Roboter Agenten e Kader fir sophistikéiert Handlungen ze léieren déi soss schwéier ze konstruéieren kënnen.
Verstäerkung Léieren am Gaming
RL Modeller goufen och benotzt fir ze léieren wéi een Videospiller spillt. Agente kënnen opgestallt ginn fir aus hire Feeler ze léieren a kontinuéierlech hir Leeschtung am Spill ze verbesseren.
Fuerscher hu schonn Agenten entwéckelt déi Spiller wéi Schach, Go a Poker spille kënnen. Am Joer 2013, Deepmind benotzt Deep Reinforcement Learning fir e Modell ze erlaben ze léieren wéi een Atari Spiller vun Null spillt.
Vill Brietspiller a Videospiller hunn e limitéierten Aktiounsraum an e gutt definéiert konkret Zil. Dës Eegeschafte funktionnéieren zum Virdeel vum RL Modell. RL Methoden kënne séier iwwer Millioune vu simuléierte Spiller iteréieren fir déi optimal Strategien ze léieren fir d'Victoire z'erreechen.
Konklusioun
Egal ob et léiert wéi een ze trëppelen oder léiert wéi een Videospiller spillt, RL Modeller goufen als nëtzlech AI Kaderen bewisen fir Probleemer ze léisen déi komplex Entscheedungen erfuerderen.
Wéi d'Technologie sech weider entwéckelt, wäerte béid Fuerscher an Entwéckler weider nei Uwendungen fannen, déi d'Selbstunterrichtfäegkeet vum Modell profitéieren.
Wéi eng praktesch Uwendungen mengt Dir datt d'Verstäerkungsléiere hëllefe kann?
Hannerlooss eng Äntwert