Pangajaran Penguatan: AI Anu Diajar Tina Kasalahanna

Daptar eusi[Sumputkeun][Témbongkeun]

Naon ari pangajaran reinforcement?
Hiji conto basajan: 4 × 4 Grid+-
- Kawijakan sareng Ganjaran
- Éksplorasi vs Eksploitasi
Aplikasi praktis+-
kacindekan

Hayu urang bayangkeun anjeun nyobian ngajar robot cara leumpang. Beda sareng ngajarkeun komputer kumaha ngaduga harga saham atanapi ngagolongkeun gambar, urang henteu gaduh set data ageung anu tiasa dianggo pikeun ngalatih robot urang.

Bari eta bisa datang sacara alami ka anjeun, leumpang sabenerna hiji aksi pisan kompléks. Leumpang léngkah biasana ngalibatkeun puluhan otot anu béda-béda gawé bareng. Usaha sareng téknik anu dianggo pikeun leumpang ti hiji tempat ka tempat anu sanés ogé gumantung kana sababaraha faktor, kalebet naha anjeun mawa hiji hal atanapi naha aya anu condong atanapi halangan anu sanés.

Dina skenario sapertos kieu, urang tiasa nganggo metode anu katelah reinforcement learning atanapi RL. Kalayan RL, anjeun tiasa netepkeun tujuan khusus anu anjeun hoyong direngsekeun ku model anjeun sareng laun-laun ngantepkeun modél diajar nyalira kumaha cara ngalaksanakeunana.

Dina artikel ieu, urang bakal ngajalajah dasar-dasar pembelajaran penguatan sareng kumaha urang tiasa nerapkeun kerangka RL kana rupa-rupa masalah anu béda di dunya nyata.

Naon ari pangajaran reinforcement?

Pangajaran penguatan nujul kana sawaréh tinangtu learning mesin nu museurkeun kana manggihan solusi ku rewarding paripolah nu dipikahoyong tur ngahukum paripolah nu teu dipikahayang.

diagram kerangka pembelajaran penguatan

Beda sareng diajar diawasan, metode pembelajaran penguatan biasana henteu gaduh set data pelatihan anu nyayogikeun kaluaran anu pas pikeun input anu dipasihkeun. Dina henteuna data latihan, algoritma kudu manggihan solusi ngaliwatan trial and error. Algoritma, anu biasana urang sebutkeun salaku agen, kudu manggihan solusi ku sorangan ku interacting jeung lingkungan.

Panaliti mutuskeun naon hasil tinangtu balesan jeung naon algoritma sanggup ngalakukeun. Unggal aksi algoritma nyokot bakal nampa sababaraha bentuk eupan balik nu skor kumaha ogé algoritma ieu lakukeun. Salila prosés palatihan, algoritma ahirna bakal mendakan solusi anu optimal pikeun ngabéréskeun masalah anu tangtu.

Hiji conto basajan: 4 × 4 Grid

Hayu urang tingali conto saderhana masalah anu tiasa direngsekeun ku diajar penguatan.

Anggap urang boga grid 4 × 4 salaku lingkungan urang. Agén kami disimpen sacara acak dina salah sahiji alun-alun sareng sababaraha halangan. grid nu wajib ngandung tilu "pit" halangan nu kudu dihindari sarta ganjaran tunggal "inten" nu agén kudu manggihan. Katerangan lengkep ngeunaan lingkungan urang katelah lingkungan urang kaayaan.

Pangajaran penguatan ngandelkeun agén anu berinteraksi sareng lingkungan simulasi

Dina modél RL kami, agén kami tiasa ngalih ka alun-alun anu padeukeut salami teu aya halangan anu ngahalangan. Susunan sadaya tindakan anu valid dina lingkungan anu dipasihkeun katelah rohangan aksi. Tujuan agén kami nyaéta pikeun milarian jalan anu paling pondok pikeun ganjaran.

agén gaduh rohangan aksi atanapi sakumpulan tindakan anu sah dina kaayaan anu ditangtukeun

Agén kami bakal nganggo metodeu diajar tulangan pikeun milarian jalan ka inten anu peryogi léngkah-léngkah pangsaeutikna. Unggal léngkah anu leres bakal masihan robot ganjaran sareng unggal léngkah anu salah bakal ngirangan ganjaran robot. Model ngitung total ganjaran sakali agén ngahontal inten.

Ayeuna urang parantos netepkeun agén sareng lingkungan, urang ogé kedah netepkeun aturan anu dianggo pikeun nangtukeun tindakan salajengna anu bakal dilakukeun ku agén tina kaayaan ayeuna sareng lingkunganana.

Kawijakan sareng Ganjaran

Dina modél pangajaran penguatan, a kawijakan nujul kana strategi dipaké ku agén pikeun ngahontal tujuan maranéhanana. Kabijakan agén nyaéta naon anu mutuskeun naon anu kedah dilakukeun ku agén salajengna tinangtu kaayaan agén ayeuna sareng lingkunganana.

Agén kedah ngevaluasi sadaya kawijakan anu mungkin pikeun ningali kawijakan mana anu optimal.

kawijakan evaluating

Dina conto basajan urang, badarat dina spasi kosong bakal balik a nilai -1. Nalika agén lemahna dina spasi kalayan ganjaran inten, aranjeunna bakal nampa nilai 10. Ngagunakeun nilai ieu, urang tiasa ngabandingkeun kawijakan béda ngagunakeun a fungsi utiliti U.

Hayu urang ngabandingkeun utilitas tina dua kawijakan anu ditingali di luhur:

U(A) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

Hasilna nunjukkeun yén Kabijakan A mangrupikeun jalan anu langkung saé pikeun milarian ganjaran. Ku kituna, agén bakal ngagunakeun Path A leuwih Sarat jeung Kaayaan B.

Éksplorasi vs Eksploitasi

Masalah eksplorasi vs eksploitasi trade-off dina pembelajaran penguatan mangrupakeun dilema a agén kudu nyanghareupan salila prosés kaputusan.

Naha agén kedah difokuskeun ngajajah jalur atanapi pilihan énggal atanapi kedah aranjeunna teraskeun ngamangpaatkeun pilihan anu aranjeunna terang?

Lamun agén milih ngajajah, aya kamungkinan pikeun agén pikeun manggihan hiji pilihan hadé, tapi ogé résiko wasting waktu jeung sumber. Di sisi anu sanés, upami agén milih ngamangpaatkeun solusi anu parantos terang, éta tiasa sono kana pilihan anu langkung saé.

Aplikasi praktis

Ieu sababaraha cara peneliti AI geus nerapkeun modél pangajaran reinforcement pikeun ngajawab masalah dunya nyata:

Pangajaran Panguatan dina Mobil Nyetir Mandiri

Pangajaran penguatan parantos diterapkeun kana mobil anu nyetir mandiri pikeun ningkatkeun kamampuan nyetir sacara aman sareng éfisién. Téknologi ieu ngamungkinkeun mobil otonom diajar tina kasalahanana sareng terus-terusan nyaluyukeun paripolahna pikeun ngaoptimalkeun kinerjana.

pangajaran reinforcement dipaké pikeun timer nyetir

Contona, pausahaan AI basis London Wayve parantos suksés ngalarapkeun modél pangajaran penguatan jero pikeun nyetir otonom. Dina percobaan maranéhanana, aranjeunna ngagunakeun fungsi ganjaran nu maximizes jumlah waktu wahana ngalir tanpa supir onboard nyadiakeun input.

Modél RL ogé ngabantosan mobil nyandak kaputusan dumasar kana lingkungan, sapertos ngahindarkeun halangan atanapi ngagabung kana lalu lintas. Modél ieu kedah mendakan cara pikeun ngarobih lingkungan kompléks anu ngurilingan mobil janten rohangan kaayaan perwakilan anu tiasa ngartos modél.

Pangajaran Panguatan dina Robotika

Panaliti ogé parantos ngagunakeun pembelajaran penguatan pikeun ngembangkeun robot anu tiasa diajar tugas anu rumit. Ngaliwatan model RL ieu, robot bisa niténan lingkungan maranéhanana sarta nyieun kaputusan dumasar kana observasi maranéhanana.

Contona, panalungtikan geus dilakukeun dina ngagunakeun modél pangajaran tulangan pikeun ngidinan robot bipedal diajar kumaha carana leumpang sorangan.

reinforcement learning ngajarkeun robot leumpang

Panaliti nganggap RL janten metode konci dina widang robotika. Pangajaran penguatan masihan agén robotik kerangka pikeun diajar tindakan canggih anu tiasa sesah direkayasa.

Pangajaran Panguatan dina Kaulinan

Modél RL ogé parantos dianggo pikeun diajar maén pidéo. Agén tiasa disetél pikeun diajar tina kasalahanana sareng teras-terasan ningkatkeun kamampuanana dina pertandingan.

Panaliti parantos ngembangkeun agén anu tiasa maénkeun kaulinan sapertos catur, Go, sareng poker. Dina 2013, Deepmind dipaké Deep Reinforcement Learning pikeun ngidinan model pikeun neuleuman kumaha carana maén kaulinan Atari ti scratch.

Loba kaulinan dewan jeung vidéo kaulinan boga spasi Peta kawates sarta tujuan beton well-diartikeun. Tret ieu dianggo pikeun kaunggulan model RL urang. métode RL bisa gancang iterate leuwih jutaan kaulinan simulated pikeun neuleuman strategi optimal pikeun ngahontal kameunangan .

kacindekan

Naha éta téh diajar kumaha carana leumpang atawa diajar kumaha carana maén video kaulinan, model RL geus kabuktian mangpaatna kerangka AI pikeun ngarengsekeun masalah anu merlukeun pajeulitna-pembuatan kaputusan.

Nalika téknologi terus mekar, panaliti sareng pamekar bakal teras-terasan milarian aplikasi énggal anu ngamangpaatkeun kamampuan ngajar mandiri modél éta.

Aplikasi praktis naon anu anjeun pikir tiasa ngabantosan diajar penguatan?

Pangajaran Panguatan: AI Anu Diajar Tina Kasalahanna

Naon ari pangajaran reinforcement?