Mācību pastiprināšana: AI, kas mācās no savām kļūdām

Saturs[Paslēpt][Rādīt]

Kas ir pastiprināšanas mācības?
Vienkāršs piemērs: 4 × 4 režģis+-
- Politikas un atlīdzības
- Izpēte pret ekspluatāciju
Praktiskie Pieteikumi+-
Secinājumi

Pieņemsim, ka jūs mēģināt iemācīt robotam staigāt. Atšķirībā no datora mācīšanas, kā prognozēt akciju cenas vai klasificēt attēlus, mums īsti nav lielas datu kopas, ko varētu izmantot sava robota apmācīšanai.

Lai gan tas jums var nākt dabiski, staigāšana patiesībā ir ļoti sarežģīta darbība. Ejot soli, parasti kopā strādā desmitiem dažādu muskuļu. Piepūle un paņēmieni, kas tiek izmantoti, ejot no vienas vietas uz otru, ir atkarīgi arī no dažādiem faktoriem, tostarp no tā, vai jūs kaut ko nēsājat, vai ir slīpums vai cita veida šķēršļi.

Šādos scenārijos mēs varam izmantot metodi, kas pazīstama kā pastiprināšanas mācīšanās vai RL. Izmantojot RL, varat definēt konkrētu mērķi, kuru vēlaties, lai jūsu modelis atrisinātu, un pakāpeniski ļaut modelim pašam iemācīties, kā to sasniegt.

Šajā rakstā mēs izpētīsim pastiprināšanas mācīšanās pamatus un to, kā mēs varam piemērot RL sistēmu dažādām problēmām reālajā pasaulē.

Kas ir pastiprināšanas mācības?

Pastiprināšanas mācīšanās attiecas uz noteiktu apakškopu mašīna mācīšanās kas koncentrējas uz risinājumu meklēšanu, atalgojot vēlamo uzvedību un sodot par nevēlamu uzvedību.

pastiprināšanas mācību sistēmas diagramma

Atšķirībā no uzraudzītās mācīšanās, pastiprināšanas mācīšanās metodei parasti nav apmācības datu kopas, kas nodrošinātu pareizo izvadi konkrētai ievadei. Ja nav apmācības datu, algoritmam ir jāatrod risinājums, izmantojot izmēģinājumus un kļūdas. Algoritms, ko mēs parasti saucam par an aģents, pašam jāatrod risinājums, mijiedarbojoties ar vide.

Pētnieki izlemj, kādus konkrētus rezultātus sasniegt apbalvot un ko algoritms spēj paveikt. Katrs rīcība algoritms saņems sava veida atgriezenisko saiti, kas novērtē, cik labi algoritms darbojas. Apmācības procesā algoritms galu galā atradīs optimālo risinājumu noteiktas problēmas risināšanai.

Vienkāršs piemērs: 4 × 4 režģis

Apskatīsim vienkāršu problēmas piemēru, ko varam atrisināt ar pastiprināšanas apmācību.

Pieņemsim, ka mūsu vide ir 4 × 4 režģis. Mūsu aģents tiek nejauši novietots vienā no laukumiem kopā ar dažiem šķēršļiem. Režģī ir jāietver trīs “bedres” šķēršļi, no kuriem jāizvairās, un viena “dimanta” balva, kas aģentam jāatrod. Pilnīgs mūsu vides apraksts ir pazīstams kā vides apraksts bija.

pastiprināšanas mācīšanās balstās uz aģentu, kas mijiedarbojas ar simulētu vidi

Mūsu RL modelī mūsu aģents var pārvietoties uz jebkuru blakus esošo laukumu, ja vien nav šķēršļu, kas tos bloķē. Visu derīgo darbību kopa dotajā vidē ir pazīstama kā darbības telpa. Mūsu aģenta mērķis ir atrast īsāko ceļu uz atlīdzību.

aģentam ir darbības telpa vai derīgu darbību kopa noteiktā stāvoklī

Mūsu aģents izmantos pastiprināšanas mācību metodi, lai atrastu ceļu uz dimantu, kas prasa vismazāko soļu skaitu. Katrs pareizais solis dos robotam atlīdzību, un katrs nepareizais solis atņems robota atlīdzību. Modelis aprēķina kopējo atlīdzību, tiklīdz aģents sasniedz dimantu.

Tagad, kad esam definējuši aģentu un vidi, mums ir jādefinē arī noteikumi, kas jāizmanto, lai noteiktu nākamo darbību, ko aģents veiks, ņemot vērā tā pašreizējo stāvokli un vidi.

Politikas un atlīdzības

Pastiprināšanas mācību modelī a politika attiecas uz stratēģiju, ko aģents izmanto savu mērķu sasniegšanai. Aģenta politika nosaka, ko aģentam vajadzētu darīt tālāk, ņemot vērā aģenta pašreizējo stāvokli un tā vidi.

Aģentam ir jāizvērtē visas iespējamās politikas, lai noskaidrotu, kura politika ir optimāla.

izvērtējot politiku

Mūsu vienkāršajā piemērā, nolaižoties tukšā vietā, tiks atgriezta vērtība -1. Kad aģents nokļūst laukā ar dimanta atlīdzību, viņš saņems vērtību 10. Izmantojot šīs vērtības, mēs varam salīdzināt dažādas politikas, izmantojot lietderības funkcija U.

Tagad salīdzināsim abu iepriekš minēto politiku lietderību:

U(A) = -1 - 1 -1 + 10 = 7

U(B) = -1 - 1 - 1 - 1 - 1 + 10 = 5

Rezultāti liecina, ka A politika ir labāks veids, kā atrast atlīdzību. Tādējādi aģents izmantos ceļu A, nevis politiku B.

Izpēte pret ekspluatāciju

Izpētes un ekspluatācijas kompromisa problēma pastiprināšanas mācībās ir dilemma, ar kuru aģentam jāsastopas lēmuma pieņemšanas procesā.

Vai aģentiem jākoncentrējas uz jaunu ceļu vai iespēju izpēti vai arī jāturpina izmantot jau zināmās iespējas?

Ja aģents izvēlas izpētīt, aģentam ir iespēja atrast labāku variantu, taču tas var arī riskēt ar laika un resursu izšķērdēšanu. No otras puses, ja aģents izvēlas izmantot risinājumu, ko tas jau zina, tas var palaist garām labāku iespēju.

Praktiskie Pieteikumi

Šeit ir daži veidi AI pētnieki ir izmantojuši pastiprināšanas mācību modeļus, lai atrisinātu reālās pasaules problēmas:

Mācību pastiprināšana pašbraucošās automašīnās

Pastiprināšanas mācības ir piemērotas pašbraucošām automašīnām, lai uzlabotu to spēju braukt droši un efektīvi. Šī tehnoloģija ļauj autonomām automašīnām mācīties no savām kļūdām un nepārtraukti pielāgot savu uzvedību, lai optimizētu savu veiktspēju.

pastiprināšanas mācības, ko izmanto pašbraukšanai

Piemēram, Londonas AI uzņēmums Veivs ir veiksmīgi pielietojis dziļas pastiprināšanas mācīšanās modeli autonomai braukšanai. Savā eksperimentā viņi izmantoja atlīdzības funkciju, kas maksimāli palielina transportlīdzekļa darbības laiku, ja vadītājs nesniedz ieguldījumu.

RL modeļi arī palīdz automašīnām pieņemt lēmumus, pamatojoties uz vidi, piemēram, izvairīties no šķēršļiem vai iekļauties satiksmē. Šiem modeļiem ir jāatrod veids, kā pārvērst sarežģīto vidi, kas ieskauj automašīnu, reprezentatīvā stāvokļa telpā, ko modelis var saprast.

Pastiprināšanas mācības robotikā

Pētnieki ir arī izmantojuši pastiprināšanas mācīšanos, lai izstrādātu robotus, kas var apgūt sarežģītus uzdevumus. Izmantojot šos RL modeļus, roboti var novērot savu vidi un pieņemt lēmumus, pamatojoties uz saviem novērojumiem.

Piemēram, ir veikti pētījumi par pastiprināšanas mācīšanās modeļu izmantošanu, lai ļautu robotiem ar divkājiem mācīties staigāt savā nodabā.

pastiprināšanas mācības, kas māca robotam staigāt

Pētnieki uzskata, ka RL ir galvenā metode robotikas jomā. Pastiprināšanas mācības sniedz robotizētiem aģentiem pamatu, lai apgūtu sarežģītas darbības, kuras citādi varētu būt grūti izstrādāt.

Mācību pastiprināšana spēlēs

RL modeļi ir izmantoti arī, lai iemācītos spēlēt videospēles. Aģentus var iestatīt, lai viņi mācītos no savām kļūdām un nepārtraukti uzlabotu sniegumu spēlē.

Pētnieki jau ir izstrādājuši aģentus, kas var spēlēt tādas spēles kā šahs, Go un pokers. 2013. gadā Deepmind izmantoja Deep Reinforcement Learning, lai ļautu modelim iemācīties spēlēt Atari spēles no nulles.

Daudzām galda spēlēm un videospēlēm ir ierobežota darbības vieta un precīzi definēts konkrēts mērķis. Šīs īpašības darbojas RL modeļa labā. RL metodes var ātri atkārtot miljoniem simulētu spēļu, lai uzzinātu optimālās stratēģijas uzvaras sasniegšanai.

Secinājumi

Neatkarīgi no tā, vai tā ir mācīšanās staigāt vai mācīšanās spēlēt videospēles, RL modeļi ir izrādījušies noderīgi AI ietvari tādu problēmu risināšanai, kurām nepieciešama sarežģīta lēmumu pieņemšana.

Tā kā tehnoloģija turpina attīstīties, gan pētnieki, gan izstrādātāji turpinās atrast jaunas lietojumprogrammas, kas izmanto modeļa pašmācības iespējas.

Kādi praktiski pielietojumi, jūsuprāt, var palīdzēt pastiprināšanas mācīšanās?

Mācību pastiprināšana: AI, kas mācās no savām kļūdām

Kas ir pastiprināšanas mācības?