Uczenie się ze wzmocnieniem: sztuczna inteligencja uczy się na swoich błędach

Spis treści[Ukryć][Pokazać]

Co to jest uczenie się przez wzmacnianie?
Prosty przykład: siatka 4×4+-
- Zasady i nagrody
- Eksploracja a eksploatacja
Praktyczne zastosowania+-
Wnioski

Wyobraźmy sobie, że próbujesz nauczyć robota chodzić. W przeciwieństwie do uczenia komputera, jak przewidywać ceny akcji lub kategoryzować obrazy, tak naprawdę nie mamy dużego zbioru danych, którego moglibyśmy użyć do szkolenia naszego robota.

Chociaż może to przychodzić ci naturalnie, chodzenie jest w rzeczywistości bardzo złożoną czynnością. Chodzenie po kroku zwykle wymaga współpracy dziesiątek różnych mięśni. Wysiłek i techniki używane do przechodzenia z jednego miejsca do drugiego zależą również od wielu czynników, w tym od tego, czy coś niesiesz lub czy istnieje pochylenie lub inne formy przeszkód.

W takich scenariuszach możemy zastosować metodę znaną jako uczenie się przez wzmacnianie lub RL. Dzięki RL możesz zdefiniować konkretny cel, który ma rozwiązać Twój model i stopniowo pozwolić modelowi samodzielnie uczyć się, jak go osiągnąć.

W tym artykule przyjrzymy się podstawom uczenia się przez wzmacnianie i sposobom zastosowania struktury RL do różnych problemów w prawdziwym świecie.

Co to jest uczenie się przez wzmacnianie?

Uczenie się przez wzmacnianie odnosi się do określonego podzbioru uczenie maszynowe która koncentruje się na znajdowaniu rozwiązań poprzez nagradzanie pożądanych zachowań i karanie niepożądanych.

diagram ram uczenia się przez wzmacnianie

W przeciwieństwie do uczenia nadzorowanego, metoda uczenia przez wzmacnianie zwykle nie ma zestawu danych szkoleniowych, który zapewnia właściwy wynik dla danego wejścia. W przypadku braku danych uczących algorytm musi znaleźć rozwiązanie metodą prób i błędów. Algorytm, który zwykle nazywamy algorytmem agent, musi sam znaleźć rozwiązanie, wchodząc w interakcję z środowisko.

Badacze decydują o tym, jakie konkretne wyniki uzyskać nagradzać i co algorytm jest w stanie zrobić. Każdy akcja algorytm otrzyma jakąś formę informacji zwrotnej, która ocenia, jak dobrze radzi sobie algorytm. Podczas procesu uczenia algorytm ostatecznie znajdzie optymalne rozwiązanie określonego problemu.

Prosty przykład: siatka 4×4

Rzućmy okiem na prosty przykład problemu, który możemy rozwiązać za pomocą uczenia się przez wzmacnianie.

Załóżmy, że naszym środowiskiem jest siatka 4×4. Nasz agent zostaje losowo umieszczony na jednym z kwadratów wraz z kilkoma przeszkodami. Siatka zawiera trzy przeszkody „dołkowe”, których należy unikać, oraz jedną nagrodę w postaci „diamentu”, którą agent musi znaleźć. Pełny opis naszego środowiska jest znany jako środowisko były.

uczenie się przez wzmacnianie opiera się na agencie, który wchodzi w interakcję z symulowanym środowiskiem

W naszym modelu RL nasz agent może przesunąć się na dowolne sąsiednie pole, o ile nie ma przeszkód, które go blokują. Zbiór wszystkich prawidłowych działań w danym środowisku to tzw przestrzeń akcji. Celem naszego agenta jest znalezienie najkrótszej drogi do nagrody.

agent ma pole akcji lub zbiór prawidłowych akcji w danym stanie

Nasz agent użyje metody uczenia się przez wzmacnianie, aby znaleźć drogę do diamentu, która wymaga jak najmniejszej liczby kroków. Każdy właściwy krok da robotowi nagrodę, a każdy zły krok odejmie nagrodę robota. Model oblicza całkowitą nagrodę, gdy agent dotrze do diamentu.

Teraz, gdy zdefiniowaliśmy agenta i środowisko, musimy również zdefiniować reguły, które mają być używane do określania następnej akcji, którą agent podejmie, biorąc pod uwagę jego bieżący stan i środowisko.

Zasady i nagrody

W modelu uczenia się przez wzmacnianie, a polityka odnosi się do strategii stosowanej przez agenta, aby osiągnąć swoje cele. Polityka agenta decyduje o tym, co agent powinien zrobić dalej, biorąc pod uwagę bieżący stan agenta i jego środowiska.

Agent musi ocenić wszystkie możliwe strategie, aby zobaczyć, która z nich jest optymalna.

ocenianie polityk

W naszym prostym przykładzie wylądowanie na pustym miejscu zwróci wartość -1. Kiedy agent wyląduje na polu z nagrodą w postaci diamentu, otrzyma wartość 10. Korzystając z tych wartości, możemy porównać różne polisy za pomocą funkcja użytkowa U.

Porównajmy teraz użyteczność dwóch powyższych zasad:

U(A) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

Wyniki pokazują, że polityka A jest lepszą drogą do znalezienia nagrody. W ten sposób agent użyje Ścieżki A zamiast Polityki B.

Eksploracja a eksploatacja

Problem kompromisu między eksploracją a eksploatacją w uczeniu się przez wzmacnianie jest dylematem, z którym agent musi się zmierzyć podczas procesu decyzyjnego.

Czy agenci powinni skupić się na odkrywaniu nowych ścieżek lub opcji, czy też powinni nadal wykorzystywać opcje, które już znają?

Jeśli agent zdecyduje się na eksplorację, istnieje możliwość znalezienia lepszej opcji, ale może to również spowodować utratę czasu i zasobów. Z drugiej strony, jeśli agent zdecyduje się wykorzystać rozwiązanie, które już zna, może przegapić lepszą opcję.

Praktyczne zastosowania

Oto kilka sposobów Badacze AI zastosowali modele uczenia się przez wzmacnianie do rozwiązywania rzeczywistych problemów:

Uczenie się ze wzmocnieniem w samochodach autonomicznych

Uczenie się ze wzmocnieniem zostało zastosowane w samojezdnych samochodach, aby poprawić ich zdolność do bezpiecznej i wydajnej jazdy. Technologia pozwala autonomicznym samochodom uczyć się na własnych błędach i stale dostosowywać swoje zachowanie w celu optymalizacji ich osiągów.

uczenie się wzmacniające wykorzystywane do samodzielnej jazdy

Na przykład londyńska firma AI Wayve z powodzeniem zastosował model uczenia się głębokiego wzmacniania do autonomicznej jazdy. W swoim eksperymencie wykorzystali funkcję nagrody, która maksymalizuje czas jazdy pojazdu bez wkładu kierowcy na pokładzie.

Modele RL pomagają również samochodom podejmować decyzje w oparciu o otoczenie, takie jak unikanie przeszkód lub włączanie się do ruchu. Modele te muszą znaleźć sposób na przekształcenie złożonego środowiska otaczającego samochód w reprezentatywną przestrzeń stanów, którą model może zrozumieć.

Uczenie się ze wzmocnieniem w robotyce

Naukowcy wykorzystali również uczenie się przez wzmacnianie do opracowania robotów, które mogą uczyć się złożonych zadań. Dzięki tym modelom RL roboty są w stanie obserwować otoczenie i podejmować decyzje na podstawie swoich obserwacji.

Na przykład przeprowadzono badania nad wykorzystaniem modeli uczenia się ze wzmocnieniem, aby umożliwić robotom dwunożnym naukę spacer na własną rękę.

uczenie się przez wzmacnianie uczące robota chodzić

Naukowcy uważają RL za kluczową metodę w dziedzinie robotyki. Uczenie się przez wzmacnianie daje agentom robotów ramy do uczenia się skomplikowanych działań, które w innym przypadku mogą być trudne do zaprojektowania.

Uczenie się przez wzmacnianie w grach

Modele RL zostały również wykorzystane do nauki grania w gry wideo. Agentów można skonfigurować tak, aby uczyli się na swoich błędach i stale poprawiali swoje wyniki w grze.

Naukowcy opracowali już agentów, którzy mogą grać w gry takie jak szachy, Go i poker. W 2013, DeepMind wykorzystał Deep Reinforcement Learning, aby umożliwić modelowi naukę gry na Atari od podstaw.

Wiele gier planszowych i gier wideo ma ograniczoną przestrzeń akcji i dobrze zdefiniowany konkretny cel. Te cechy działają na korzyść modelu RL. Metody RL mogą szybko powtarzać miliony symulowanych gier, aby poznać optymalne strategie osiągnięcia zwycięstwa.

Wnioski

Niezależnie od tego, czy chodzi o naukę chodzenia, czy naukę grania w gry wideo, modele RL okazały się przydatnymi platformami sztucznej inteligencji do rozwiązywania problemów wymagających podejmowania złożonych decyzji.

W miarę rozwoju technologii zarówno badacze, jak i programiści będą nadal znajdować nowe aplikacje wykorzystujące zdolność samouczenia się modelu.

W jakich praktycznych zastosowaniach uczenie się przez wzmacnianie może pomóc?

Uczenie się ze wzmocnieniem: sztuczna inteligencja, która uczy się na swoich błędach

Co to jest uczenie się przez wzmacnianie?