Reinforcement Learning: KI, die aus ihren Fehlern lernt

Inhaltsverzeichnis[Ausblenden][Zeigen]

Was ist bestärkendes Lernen?
Ein einfaches Beispiel: 4×4-Raster+-
- Richtlinien und Belohnungen
- Exploration vs. Ausbeutung
Praktische Anwendungen+-
Zusammenfassung

Stellen wir uns vor, Sie versuchen, einem Roboter das Laufen beizubringen. Anders als wenn wir einem Computer beibringen, Aktienkurse vorherzusagen oder Bilder zu kategorisieren, haben wir nicht wirklich einen großen Datensatz, mit dem wir unseren Roboter trainieren können.

Auch wenn es für Sie selbstverständlich ist, ist Gehen tatsächlich eine sehr komplexe Handlung. Beim Gehen eines Schrittes arbeiten normalerweise Dutzende verschiedener Muskeln zusammen. Die Anstrengung und die Techniken, mit denen Sie von einem Ort zum anderen gehen, hängen auch von verschiedenen Faktoren ab, unter anderem davon, ob Sie etwas tragen, ob es eine Steigung oder andere Formen von Hindernissen gibt.

In Szenarien wie diesen können wir eine Methode verwenden, die als Reinforcement Learning oder RL bekannt ist. Mit RL können Sie ein bestimmtes Ziel definieren, das Ihr Modell lösen soll, und das Modell nach und nach selbst lernen lassen, wie es es erreicht.

In diesem Artikel werden wir die Grundlagen des verstärkenden Lernens untersuchen und wie wir das RL-Framework auf eine Vielzahl unterschiedlicher Probleme in der realen Welt anwenden können.

Was ist bestärkendes Lernen?

Reinforcement Learning bezieht sich auf eine bestimmte Teilmenge von Maschinelles Lernen die sich darauf konzentriert, Lösungen zu finden, indem erwünschte Verhaltensweisen belohnt und unerwünschte Verhaltensweisen bestraft werden.

Diagramm des Reinforcement Learning Frameworks

Im Gegensatz zum überwachten Lernen verfügt die Reinforcement-Learning-Methode normalerweise nicht über einen Trainingsdatensatz, der die richtige Ausgabe für eine bestimmte Eingabe liefert. In Ermangelung von Trainingsdaten muss der Algorithmus die Lösung durch Versuch und Irrtum finden. Der Algorithmus, den wir normalerweise als Agent, muss die Lösung selbst finden, indem er mit dem interagiert Umwelt.

Forscher entscheiden, welche bestimmten Ergebnisse zu belohnen und was der Algorithmus kann. Jeden Aktion Der Algorithmus erhält eine Art Feedback, das bewertet, wie gut der Algorithmus funktioniert. Während des Trainingsprozesses findet der Algorithmus schließlich die optimale Lösung, um ein bestimmtes Problem zu lösen.

Ein einfaches Beispiel: 4×4-Raster

Schauen wir uns ein einfaches Beispiel für ein Problem an, das wir mit Reinforcement Learning lösen können.

Angenommen, wir haben ein 4×4-Gitter als Umgebung. Unser Agent wird zusammen mit einigen Hindernissen zufällig auf einem der Felder platziert. Das Raster enthält drei „Gruben“-Hindernisse, die vermieden werden müssen, und eine einzelne „Diamant“-Belohnung, die der Agent finden muss. Die vollständige Beschreibung unserer Umgebung wird als Umgebung bezeichnet Zustand.

Reinforcement Learning beruht auf einem Agenten, der mit einer simulierten Umgebung interagiert

In unserem RL-Modell kann sich unser Agent auf jedes benachbarte Feld bewegen, solange keine Hindernisse ihn blockieren. Die Menge aller gültigen Aktionen in einer bestimmten Umgebung wird als bezeichnet Aktionsraum. Das Ziel unseres Agenten ist es, den kürzesten Weg zur Belohnung zu finden.

Agent hat einen Aktionsraum oder die Menge gültiger Aktionen in einem bestimmten Zustand

Unser Agent wird die Reinforcement-Learning-Methode verwenden, um den Weg zum Diamanten zu finden, der die wenigsten Schritte erfordert. Jeder richtige Schritt gibt dem Roboter eine Belohnung und jeder falsche Schritt wird die Belohnung des Roboters abziehen. Das Modell berechnet die Gesamtprämie, sobald der Agent den Diamanten erreicht.

Nachdem wir nun den Agenten und die Umgebung definiert haben, müssen wir auch die Regeln definieren, die verwendet werden, um die nächste Aktion zu bestimmen, die der Agent angesichts seines aktuellen Zustands und der Umgebung ausführen wird.

Richtlinien und Belohnungen

In einem Reinforcement-Learning-Modell a Datenschutzrichtlinien bezieht sich auf die Strategie, die von einem Agenten verwendet wird, um seine Ziele zu erreichen. Die Richtlinie des Agenten entscheidet, was der Agent angesichts des aktuellen Zustands des Agenten und seiner Umgebung als nächstes tun soll.

Der Agent muss alle möglichen Richtlinien auswerten, um zu sehen, welche Richtlinie optimal ist.

Politik bewerten

In unserem einfachen Beispiel wird das Landen auf einem leeren Feld einen Wert von -1 zurückgeben. Wenn der Agent auf einem Feld mit der Diamant-Belohnung landet, erhält er einen Wert von 10. Mit diesen Werten können wir die verschiedenen Richtlinien mit a vergleichen Dienstprogrammfunktion U.

Vergleichen wir nun den Nutzen der beiden oben gezeigten Richtlinien:

U(A) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

Die Ergebnisse zeigen, dass Richtlinie A der bessere Weg ist, um die Belohnung zu finden. Daher verwendet der Agent Pfad A gegenüber Richtlinie B.

Exploration vs. Ausbeutung

Das Kompromissproblem zwischen Exploration und Exploitation beim Reinforcement Learning ist ein Dilemma, dem sich ein Agent während des Entscheidungsprozesses stellen muss.

Sollten Agenten sich darauf konzentrieren, neue Wege oder Optionen zu erkunden, oder sollten sie weiterhin die Optionen nutzen, die sie bereits kennen?

Wenn sich der Agent für eine Erkundung entscheidet, besteht für den Agenten die Möglichkeit, eine bessere Option zu finden, aber es kann auch das Risiko eingehen, Zeit und Ressourcen zu verschwenden. Wenn sich der Agent dagegen dafür entscheidet, die ihm bereits bekannte Lösung zu nutzen, verpasst er möglicherweise eine bessere Option.

Praktische Anwendungen

Hier sind einige Möglichkeiten KI-Forscher haben bestärkende Lernmodelle angewendet, um reale Probleme zu lösen:

Reinforcement Learning in selbstfahrenden Autos

Reinforcement Learning wurde auf selbstfahrende Autos angewendet, um ihre Fähigkeit zu verbessern, sicher und effizient zu fahren. Die Technologie ermöglicht es autonomen Autos, aus ihren Fehlern zu lernen und ihr Verhalten kontinuierlich anzupassen, um ihre Leistung zu optimieren.

Reinforcement Learning für autonomes Fahren

Zum Beispiel das in London ansässige KI-Unternehmen Weg hat erfolgreich ein Deep-Reinforcement-Learning-Modell für das autonome Fahren angewendet. In ihrem Experiment verwendeten sie eine Belohnungsfunktion, die die Zeit maximiert, in der das Fahrzeug fährt, ohne dass der Fahrer an Bord Eingaben macht.

RL-Modelle helfen Autos auch dabei, Entscheidungen basierend auf der Umgebung zu treffen, z. B. um Hindernissen auszuweichen oder in den Verkehr einzuordnen. Diese Modelle müssen einen Weg finden, die komplexe Umgebung eines Autos in einen repräsentativen Zustandsraum umzuwandeln, den das Modell verstehen kann.

Reinforcement Learning in der Robotik

Forscher haben auch verstärktes Lernen eingesetzt, um Roboter zu entwickeln, die komplexe Aufgaben lernen können. Durch diese RL-Modelle können Roboter ihre Umgebung beobachten und Entscheidungen basierend auf ihren Beobachtungen treffen.

Zum Beispiel wurde an der Verwendung von Reinforcement-Learning-Modellen geforscht, damit zweibeinige Roboter lernen können, wie es geht Spaziergang alleine.

Reinforcement Learning, das einem Roboter das Laufen beibringt

Forscher betrachten RL als Schlüsselmethode im Bereich der Robotik. Reinforcement Learning gibt Roboteragenten einen Rahmen, um ausgefeilte Aktionen zu lernen, die sonst möglicherweise schwer zu konstruieren sind.

Reinforcement Learning im Gaming

RL-Modelle wurden auch verwendet, um zu lernen, wie man Videospiele spielt. Agenten können so eingestellt werden, dass sie aus ihren Fehlern lernen und ihre Leistung im Spiel kontinuierlich verbessern.

Forscher haben bereits Agenten entwickelt, die Spiele wie Schach, Go und Poker spielen können. Im Jahr 2013, DeepMind nutzte Deep Reinforcement Learning, um einem Modell zu ermöglichen, Atari-Spiele von Grund auf neu zu lernen.

Viele Brettspiele und Videospiele haben einen begrenzten Aktionsraum und ein genau definiertes konkretes Ziel. Diese Eigenschaften arbeiten zum Vorteil des RL-Modells. RL-Methoden können schnell über Millionen von simulierten Spielen iterieren, um die optimalen Strategien für den Sieg zu erlernen.

Zusammenfassung

Ob es darum geht, zu gehen oder Videospiele zu spielen, RL-Modelle haben sich als nützliche KI-Frameworks zur Lösung von Problemen erwiesen, die eine komplexe Entscheidungsfindung erfordern.

Während sich die Technologie weiterentwickelt, werden sowohl Forscher als auch Entwickler weiterhin neue Anwendungen finden, die sich die Selbstlernfähigkeit des Modells zunutze machen.

Bei welchen praktischen Anwendungen kann Reinforcement Learning Ihrer Meinung nach helfen?

Reinforcement Learning: KI, die aus ihren Fehlern lernt

Was ist bestärkendes Lernen?