Představme si, že se snažíte naučit robota chodit. Na rozdíl od učení počítače, jak předpovídat ceny akcií nebo kategorizovat obrázky, ve skutečnosti nemáme velký soubor dat, který bychom mohli použít k výcviku našeho robota.
I když to pro vás může být přirozené, chůze je ve skutečnosti velmi složitá činnost. Chůze do kroku obvykle zahrnuje desítky různých svalů, které spolupracují. Úsilí a techniky používané při chůzi z jednoho místa na druhé závisí také na různých faktorech, včetně toho, zda něco nesete nebo zda je tam sklon nebo jiné formy překážek.
Ve scénářích, jako jsou tyto, můžeme použít metodu známou jako zesílení učení nebo RL. Pomocí RL můžete definovat konkrétní cíl, který chcete, aby váš model řešil, a postupně nechat model, aby se sám naučil, jak jej dosáhnout.
V tomto článku prozkoumáme základy posilovacího učení a jak můžeme aplikovat rámec RL na řadu různých problémů v reálném světě.
Co je posilovací učení?
Posílení učení se týká konkrétní podmnožiny strojové učení která se zaměřuje na hledání řešení odměňováním žádoucího chování a trestáním nežádoucího chování.
Na rozdíl od řízeného učení metoda posilovacího učení obvykle nemá trénovací datovou sadu, která poskytuje správný výstup pro daný vstup. Při absenci trénovacích dat musí algoritmus najít řešení metodou pokusů a omylů. Algoritmus, který obvykle označujeme jako an zástupce, musí najít řešení sám interakcí s životní prostředí.
Výzkumníci rozhodují o konkrétních výsledcích odměna a co je algoritmus schopen dělat. Každý akce algoritmus obdrží určitou formu zpětné vazby, která hodnotí, jak dobře si algoritmus vede. Během tréninkového procesu algoritmus nakonec najde optimální řešení pro vyřešení určitého problému.
Jednoduchý příklad: 4×4 mřížka
Podívejme se na jednoduchý příklad problému, který můžeme vyřešit posilovacím učením.
Předpokládejme, že máme jako prostředí mřížku 4×4. Náš agent je náhodně umístěn na jedno ze čtverců spolu s několika překážkami. Mřížka bude obsahovat tři „jámové“ překážky, kterým je třeba se vyhnout, a jednu „diamantovou“ odměnu, kterou musí agent najít. Úplný popis našeho prostředí je známý jako prostředí stát.
V našem RL modelu se náš agent může přesunout na libovolné sousední pole, pokud mu nebrání žádné překážky. Sada všech platných akcí v daném prostředí je známá jako akční prostor. Cílem našeho agenta je najít nejkratší cestu k odměně.
Náš agent použije metodu učení výztuže k nalezení cesty k diamantu, která vyžaduje nejmenší počet kroků. Každý správný krok dá robotovi odměnu a každý špatný krok odečte odměnu robota. Model vypočítá celkovou odměnu, jakmile agent dosáhne diamantu.
Nyní, když jsme definovali agenta a prostředí, musíme také definovat pravidla, která se použijí pro určení další akce, kterou agent provede vzhledem ke svému aktuálnímu stavu a prostředí.
Zásady a odměny
V modelu posilování učení a politika odkazuje na strategii, kterou agent používá k dosažení svých cílů. Zásada agenta je to, co rozhoduje o tom, co by měl agent dělat dále vzhledem k aktuálnímu stavu agenta a jeho prostředí.
Agent musí vyhodnotit všechny možné zásady, aby zjistil, která politika je optimální.
V našem jednoduchém příkladu vrátí přistání na prázdné místo hodnotu -1. Když agent přistane na poli s diamantovou odměnou, obdrží hodnotu 10. Pomocí těchto hodnot můžeme porovnat různé politiky pomocí užitková funkce U.
Pojďme nyní porovnat užitečnost dvou výše uvedených zásad:
U(A) = -1 – 1 -1 + 10 = 7
U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5
Výsledky ukazují, že politika A je lepší cestou k nalezení odměny. Agent tedy použije cestu A přes zásadu B.
Průzkum vs. využívání
Problém kompromisu mezi průzkumem a vykořisťováním v posilovacím učení je dilema, kterému musí agent čelit během rozhodovacího procesu.
Měli by se agenti zaměřit na zkoumání nových cest nebo možností, nebo by měli pokračovat ve využívání možností, které již znají?
Pokud se agent rozhodne prozkoumat, má možnost najít lepší možnost, ale může také riskovat plýtvání časem a zdroji. Na druhou stranu, pokud se agent rozhodne využít řešení, které již zná, může přijít o lepší možnost.
Praktické aplikace
Zde je několik způsobů Výzkumníci AI použili modely učení se zesílením k řešení problémů v reálném světě:
Posílení učení v samořídících autech
Posílené učení bylo aplikováno na samořídící auta s cílem zlepšit jejich schopnost řídit bezpečně a efektivně. Tato technologie umožňuje autonomním vozům učit se ze svých chyb a neustále upravovat své chování za účelem optimalizace výkonu.
Například londýnská společnost AI Wayve úspěšně aplikoval model hlubokého posílení učení pro autonomní řízení. Ve svém experimentu použili funkci odměn, která maximalizuje dobu, po kterou vozidlo jede, aniž by řidič na palubě poskytl vstup.
Modely RL také pomáhají autům rozhodovat se na základě prostředí, jako je vyhýbání se překážkám nebo zařazování do provozu. Tyto modely musí najít způsob, jak převést složité prostředí obklopující automobil na reprezentativní stavový prostor, kterému model rozumí.
Posílení učení v robotice
Výzkumníci také využívají učení s posilováním k vývoji robotů, kteří se dokážou naučit složité úkoly. Prostřednictvím těchto RL modelů jsou roboti schopni pozorovat své prostředí a rozhodovat se na základě svých pozorování.
Byl například proveden výzkum využití výukových modelů výztuže, které umožňují bipedálním robotům naučit se, jak na to chůze na vlastní pěst.
Vědci považují RL za klíčovou metodu v oblasti robotiky. Posílení učení dává robotickým agentům rámec pro učení se sofistikovaným akcím, které mohou být jinak obtížné sestrojit.
Posílení učení ve hrách
RL modely byly také použity k učení, jak hrát videohry. Agenty lze nastavit tak, aby se poučili ze svých chyb a neustále zlepšovali svůj výkon ve hře.
Výzkumníci již vyvinuli agenty, kteří mohou hrát hry, jako jsou šachy, Go a poker. V roce 2013, DeepMind použil Deep Reinforcement Learning, aby umožnil modelu naučit se hrát hry Atari od nuly.
Mnoho deskových her a videoher má omezený akční prostor a přesně definovaný konkrétní cíl. Tyto vlastnosti fungují ve prospěch RL modelu. Metody RL mohou rychle opakovat miliony simulovaných her a naučit se optimální strategie k dosažení vítězství.
Proč investovat do čističky vzduchu?
Ať už jde o učení se chůze nebo učení se hraní videoher, modely RL se ukázaly jako užitečné rámce umělé inteligence pro řešení problémů, které vyžadují komplexní rozhodování.
Jak se technologie neustále vyvíjí, výzkumníci i vývojáři budou i nadále nacházet nové aplikace, které využívají schopnosti samoučení modelu.
S jakými praktickými aplikacemi může podle vás posilovací učení pomoci?
Napsat komentář