Mokymosi stiprinimas: AI, kuris mokosi iš savo klaidų

Turinys[Slėpti][Rodyti]

Kas yra pastiprinimo mokymasis?
Paprastas pavyzdys: 4 × 4 tinklelis+-
- Politika ir apdovanojimai
- Tyrinėjimas prieš išnaudojimą
Praktiniai Programos+-
Išvada

Įsivaizduokime, kad bandote išmokyti robotą vaikščioti. Priešingai nei mokydami kompiuterį nuspėti akcijų kainas ar suskirstyti vaizdus į kategorijas, mes iš tikrųjų neturime didelio duomenų rinkinio, kurį galėtume panaudoti mokydami savo robotą.

Nors tai gali pasirodyti savaime suprantama, vaikščiojimas iš tikrųjų yra labai sudėtingas veiksmas. Žingsnis paprastai apima daugybę skirtingų raumenų, kurie dirba kartu. Pastangos ir metodai, naudojami einant iš vienos vietos į kitą, taip pat priklauso nuo įvairių veiksnių, įskaitant tai, ar ką nors nešate, ar yra nuolydis ar kitokių kliūčių.

Tokiuose scenarijuose kaip šie galime naudoti metodą, žinomą kaip sustiprinimo mokymasis arba RL. Naudodami RL galite apibrėžti konkretų tikslą, kurį norite pasiekti savo modeliu, ir palaipsniui leisti modeliui pačiam išmokti tai pasiekti.

Šiame straipsnyje mes išnagrinėsime sustiprinimo mokymosi pagrindus ir tai, kaip galime pritaikyti RL sistemą įvairioms problemoms realiame pasaulyje.

Kas yra pastiprinimo mokymasis?

Sustiprinimo mokymasis reiškia tam tikrą pogrupį mašininis mokymasis kuri orientuota į sprendimų ieškojimą, atlyginant už norimą elgesį ir baudžiant už nepageidaujamą elgesį.

sustiprinimo mokymosi sistemos diagrama

Skirtingai nuo prižiūrimo mokymosi, sustiprinimo mokymosi metodas paprastai neturi mokymo duomenų rinkinio, kuris suteiktų reikiamą išvestį tam tikrai įvestiei. Nesant mokymo duomenų, algoritmas turi rasti sprendimą per bandymus ir klaidas. Algoritmas, kurį paprastai vadiname an agentas, turi pats rasti sprendimą bendraudamas su aplinka.

Tyrėjai nusprendžia, kokių konkrečių rezultatų pasiekti apdovanoti ir ką algoritmas gali padaryti. kas veiksmas algoritmas gaus tam tikrą grįžtamąjį ryšį, kuris įvertins, kaip gerai veikia algoritmas. Mokymo proceso metu algoritmas ilgainiui suras optimalų sprendimą tam tikrai problemai išspręsti.

Paprastas pavyzdys: 4 × 4 tinklelis

Pažvelkime į paprastą problemos, kurią galime išspręsti stiprindami mokymąsi, pavyzdį.

Tarkime, kad mūsų aplinka yra 4 × 4 tinklelis. Mūsų agentas atsitiktinai padėtas vienoje iš kvadratų kartu su keliomis kliūtimis. Tinklelyje turi būti trys „duobės“ kliūtys, kurių reikia vengti, ir vienas „deimantinis“ apdovanojimas, kurį agentas turi rasti. Visas mūsų aplinkos aprašymas yra žinomas kaip aplinkos valstybės.

sustiprinimo mokymasis priklauso nuo agento, kuris sąveikauja su imituojama aplinka

Mūsų RL modelyje mūsų agentas gali pereiti į bet kurią gretimą aikštę, jei nėra kliūčių, trukdančių jiems. Visų galiojančių veiksmų tam tikroje aplinkoje rinkinys yra žinomas kaip veiksmų erdvė. Mūsų agento tikslas – rasti trumpiausią kelią į atlygį.

agentas turi veiksmų erdvę arba galiojančių veiksmų rinkinį tam tikroje būsenoje

Mūsų agentas naudos sutvirtinimo mokymosi metodą, kad surastų kelią iki deimanto, kuriam reikia mažiausiai žingsnių. Kiekvienas teisingas žingsnis suteiks robotui atlygį, o kiekvienas neteisingas žingsnis atims roboto atlygį. Modelis apskaičiuoja bendrą atlygį, kai agentas pasiekia deimantą.

Dabar, kai apibrėžėme agentą ir aplinką, taip pat turime apibrėžti taisykles, kurios bus naudojamos nustatant kitą veiksmą, kurį agentas atliks atsižvelgiant į dabartinę jo būseną ir aplinką.

Politika ir apdovanojimai

Taikant sustiprinimo mokymosi modelį, a politika reiškia strategiją, kurią agentas naudoja siekdamas savo tikslų. Agento politika yra tai, kas nusprendžia, ką agentas turėtų daryti toliau, atsižvelgiant į esamą agento ir jo aplinkos būklę.

Agentas turi įvertinti visas galimas strategijas, kad pamatytų, kuri politika yra optimali.

vertinant politiką

Mūsų paprastame pavyzdyje nusileidus tuščioje vietoje bus gauta vertė -1. Kai agentas nusileis į tarpą su deimantu, jis gaus 10 vertę. Naudodami šias reikšmes galime palyginti skirtingas strategijas naudodami naudingumo funkcija U.

Palyginkime dviejų aukščiau pateiktų politikos krypčių naudingumą:

U(A) = -1 – 1 -1 + 10 = 7

U(B) = –1 – 1 – 1 – 1 – 1 + 10 = 5

Rezultatai rodo, kad A politika yra geresnis būdas gauti atlygį. Taigi agentas naudos A kelią, o ne B politiką.

Tyrinėjimas prieš išnaudojimą

Tyrinėjimo ir išnaudojimo kompromiso problema stiprinimo mokymosi metu yra dilema, su kuria agentas turi susidurti priimdamas sprendimą.

Ar agentai turėtų sutelkti dėmesį į naujų kelių ar galimybių tyrinėjimą, ar jie turėtų toliau naudotis jau žinomomis galimybėmis?

Jei agentas pasirenka tyrinėti, agentas gali rasti geresnį variantą, tačiau taip pat gali rizikuoti eikvoti laiką ir išteklius. Kita vertus, jei agentas pasirenka išnaudoti jau žinomą sprendimą, jis gali praleisti geresnį variantą.

Praktiniai Programos

Štai keletas būdų Dirbtinio intelekto tyrėjai pritaikė sustiprinimo mokymosi modelius realaus pasaulio problemoms spręsti:

Mokymasis savarankiškai vairuojančių automobilių srityje

Sustiprinimo mokymasis buvo pritaikytas savarankiškai važiuojantiems automobiliams, siekiant pagerinti jų gebėjimą vairuoti saugiai ir efektyviai. Ši technologija leidžia autonominiams automobiliams mokytis iš savo klaidų ir nuolat koreguoti savo elgesį, kad būtų optimizuotas jų veikimas.

sustiprinimo mokymasis, naudojamas savarankiškam vairavimui

Pavyzdžiui, Londone įsikūrusi AI įmonė Wayve sėkmingai pritaikė gilaus sustiprinimo mokymosi modelį autonominiam vairavimui. Savo eksperimente jie naudojo atlygio funkciją, kuri maksimaliai padidina transporto priemonės važiavimo laiką, kai vairuotojas nepateikia įvesties.

RL modeliai taip pat padeda automobiliams priimti sprendimus atsižvelgiant į aplinką, pavyzdžiui, išvengti kliūčių ar įsilieti į eismą. Šie modeliai turi rasti būdą, kaip sudėtingą automobilį supančią aplinką paversti reprezentatyvia būsenos erdve, kurią modelis gali suprasti.

Stiprinamasis mokymasis robotikoje

Tyrėjai taip pat naudojo sustiprinimo mokymąsi, kad sukurtų robotus, galinčius išmokti sudėtingų užduočių. Naudodamiesi šiais RL modeliais, robotai gali stebėti savo aplinką ir priimti sprendimus remdamiesi savo stebėjimais.

Pavyzdžiui, buvo atlikti tyrimai, kaip naudoti mokymosi sutvirtinimo modelius, kad dvikojai robotai galėtų išmokti vaikščioti patys.

pastiprinimo mokymasis, mokantis robotą vaikščioti

Mokslininkai mano, kad RL yra pagrindinis metodas robotikos srityje. Sustiprinimo mokymasis suteikia robotų agentams pagrindą mokytis sudėtingų veiksmų, kuriuos kitaip gali būti sunku sukurti.

Mokymosi žaidimuose stiprinimas

RL modeliai taip pat buvo naudojami norint išmokti žaisti vaizdo žaidimus. Agentus galima nustatyti taip, kad jie mokytųsi iš savo klaidų ir nuolat gerintų savo veiklą žaidime.

Tyrėjai jau sukūrė agentus, galinčius žaisti tokius žaidimus kaip šachmatai, Go ir pokeris. 2013 m. DeepMind naudojo Deep Reinforcement Learning, kad modelis galėtų išmokti žaisti Atari žaidimus nuo nulio.

Daugelis stalo žaidimų ir vaizdo žaidimų turi ribotą veiksmų erdvę ir aiškiai apibrėžtą konkretų tikslą. Šios savybės yra naudingos RL modeliui. RL metodai gali greitai kartoti milijonus imituotų žaidimų, kad išmoktų optimalias strategijas pasiekti pergalę.

Išvada

Nesvarbu, ar tai būtų mokymasis vaikščioti, ar žaisti vaizdo žaidimus, buvo įrodyta, kad RL modeliai yra naudingi AI sistemos sprendžiant problemas, kurioms reikia sudėtingų sprendimų.

Technologijai toliau tobulėjant, tiek mokslininkai, tiek kūrėjai ir toliau ieškos naujų programų, kurios išnaudotų modelio savarankiško mokymosi galimybes.

Kokie praktiniai pritaikymai, jūsų manymu, gali padėti stiprinimo mokymuisi?

Mokymosi stiprinimas: AI, kuris mokosi iš savo klaidų

Kas yra pastiprinimo mokymasis?