Ƙarfafa Koyo: AI Mai Koyi Daga Kurakuransa

Teburin Abubuwan Ciki[Boye][Nuna]

Menene koyon ƙarfafawa?
Misali Mai Sauƙi: 4×4 Grid+-
- Manufofi da lada
- Binciken vs. Amfani
Practical aikace-aikacen kwamfuta+-
Kammalawa

Bari mu yi tunanin kana ƙoƙarin koya wa mutum-mutumi yadda ake tafiya. Ba kamar koyar da kwamfuta yadda ake hasashen farashin hannun jari ko rarraba hotuna ba, ba mu da babban adadin bayanai da za mu iya amfani da su don horar da robot ɗinmu.

Duk da yake yana iya zuwa gare ku a zahiri, tafiya haƙiƙa wani aiki ne mai rikitarwa. Tafiya mataki yawanci ya ƙunshi ɗimbin tsoka daban-daban suna aiki tare. Ƙoƙari da dabarun da ake amfani da su don tafiya daga wannan wuri zuwa wani kuma sun dogara ne akan abubuwa daban-daban, ciki har da ko kuna ɗaukar wani abu ko kuma akwai karkata ko wasu nau'o'in cikas.

A cikin yanayi irin waɗannan, za mu iya amfani da hanyar da aka sani da ƙarfafa koyo ko RL. Tare da RL, zaku iya ayyana takamaiman manufa da kuke son ƙirar ku ta warware kuma sannu a hankali bari ƙirar ta koyi da kanta yadda ake cim ma ta.

A cikin wannan labarin, za mu bincika tushen ƙarfafa koyo da yadda za mu iya amfani da tsarin RL zuwa matsaloli daban-daban a cikin ainihin duniya.

Menene koyon ƙarfafawa?

Ƙarfafa koyo yana nufin wani yanki na musamman na injin inji wanda ke mayar da hankali kan nemo mafita ta hanyar ba da ladan halayen da ake so da kuma hukunta halayen da ba a so.

zane na tsarin ƙarfafawa koyo

Ba kamar ilmantarwa da ake kulawa ba, hanyar ƙarfafa koyo yawanci ba ta da saitin horo wanda ke ba da ingantaccen fitarwa don shigarwar da aka bayar. Idan babu bayanan horo, algorithm dole ne ya sami mafita ta hanyar gwaji da kuskure. Algorithm, wanda yawanci muke magana a kai azaman wakili, dole ne nemo mafita da kanta ta hanyar yin hulɗa tare da yanayi.

Masu bincike sun yanke shawara akan wane sakamako na musamman kyauta da abin da algorithm ke iya yi. Kowanne mataki Algorithm yana ɗauka zai sami wani nau'i na martani wanda ke nuna yadda algorithm ke aiki. A lokacin aikin horo, algorithm zai sami mafi kyawun mafita don magance wata matsala.

Misali Mai Sauƙi: 4×4 Grid

Bari mu kalli misali mai sauƙi na matsala da za mu iya warwarewa tare da ƙarfafa koyo.

A ce muna da grid 4 × 4 azaman yanayin mu. Ana sanya wakilinmu ba da gangan ba a cikin ɗaya daga cikin murabba'ai tare da ƴan cikas. Grid ɗin zai ƙunshi cikas uku na "rami" waɗanda dole ne a guji su da kuma tukuicin "lu'u-lu'u" guda ɗaya wanda dole ne wakili ya samo. Cikakken bayanin yanayin mu ana kiransa muhalli jihar.

ilmantarwa na ƙarfafawa ya dogara ga wakili wanda ke hulɗa tare da yanayin da aka kwatanta

A cikin tsarin mu na RL, wakilinmu na iya matsawa zuwa kowane fili na kusa muddin babu wani cikas da ke toshe su. Saitin duk ingantattun ayyuka a cikin yanayin da aka bayar ana kiran su da sararin aiki. Manufar wakilin mu shine neman mafi guntu hanyar zuwa ga lada.

wakili yana da filin aiki ko saitin ingantattun ayyuka a cikin jihar da aka bayar

Wakilinmu zai yi amfani da hanyar koyo na ƙarfafawa don nemo hanyar zuwa lu'u-lu'u wanda ke buƙatar mafi ƙarancin matakan matakai. Kowane matakin da ya dace zai ba wa robot lada kuma kowane matakin da ba daidai ba zai rage ladan na'urar. Samfurin yana ƙididdige jimlar lada da zarar wakili ya kai lu'u-lu'u.

Yanzu da muka zayyana wakili da muhalli, dole ne kuma mu ayyana dokokin da za mu yi amfani da su don tantance mataki na gaba da wakilin zai ɗauka idan aka yi la’akari da yanayin da yake ciki da kuma yanayin da yake ciki.

Manufofi da lada

A cikin samfurin ƙarfafawa, a siyasa yana nufin dabarun da wakili ke amfani da shi don cimma burinsu. Manufar wakilin ita ce ta yanke shawarar abin da wakilin zai yi na gaba idan aka yi la'akari da halin da wakilin yake ciki da kuma yanayin da yake ciki.

Dole ne wakili ya kimanta duk manufofin da za a iya gani don ganin wace manufa ce mafi kyau.

kimanta manufofin

A cikin misalinmu mai sauƙi, saukowa akan sarari mara komai zai dawo da ƙimar -1. Lokacin da wakilin ya sauka a sararin samaniya tare da ladan lu'u-lu'u, za su sami darajar 10. Yin amfani da waɗannan dabi'u, zamu iya kwatanta manufofi daban-daban ta amfani da aikin mai amfani U.

Yanzu bari mu kwatanta amfanin manufofin biyu da aka gani a sama:

U(A) = -1 - 1 -1 + 10 = 7

U(B) = -1 - 1 - 1 - 1 - 1 + 10 = 5

Sakamakon ya nuna cewa Manufar A ita ce hanya mafi kyau don gano ladan. Don haka, wakilin zai yi amfani da Hanyar A akan Manufofin B.

Binciken vs. Amfani

Matsalolin ciniki da cin zarafi a cikin ƙarfafa ilmantarwa matsala ce da wani wakili ya fuskanta yayin aiwatar da yanke shawara.

Ya kamata wakilai su mayar da hankali kan bincika sabbin hanyoyi ko zaɓuɓɓuka ko su ci gaba da yin amfani da zaɓuɓɓukan da suka rigaya suka sani?

Idan wakilin ya zaɓi ya bincika, akwai yuwuwar wakilin ya sami zaɓi mafi kyau, amma kuma yana iya haɗarin ɓata lokaci da albarkatu. A gefe guda, idan wakili ya zaɓi yin amfani da maganin da ya rigaya ya sani, yana iya rasa mafi kyawun zaɓi.

Practical aikace-aikacen kwamfuta

Ga wasu hanyoyi Masu binciken AI sun yi amfani da samfuran ƙarfafawa don magance matsalolin duniya na ainihi:

Ƙarfafa Koyo a Motocin Tuƙi da Kai

An yi amfani da koyon ƙarfafawa ga motoci masu tuƙa da kansu don haɓaka ikon su na tuƙi cikin aminci da inganci. Fasahar tana baiwa motoci masu cin gashin kansu damar koyo daga kura-kuransu da ci gaba da daidaita halayensu domin inganta aikinsu.

koyon ƙarfafawa da ake amfani da shi don tuƙi da kai

Misali, kamfanin AI na London Way ya yi nasarar aiwatar da samfurin ƙarfafawa mai zurfi don tuƙi mai cin gashin kansa. A cikin gwajin nasu, sun yi amfani da aikin lada wanda ke ƙara yawan lokacin da abin hawa ke gudana ba tare da direban da ke kan jirgin ya ba da labari ba.

Samfuran RL kuma suna taimaka wa motoci yin yanke shawara dangane da muhalli, kamar guje wa cikas ko haɗuwa cikin zirga-zirga. Dole ne waɗannan samfuran su nemo hanyar da za su canza yanayin hadaddun da ke kewaye da mota zuwa sararin jihar wakilai wanda ƙirar zata iya fahimta.

Ƙarfafa Koyo a cikin Robotics

Masu bincike sun kuma yi amfani da koyon ƙarfafawa don haɓaka mutum-mutumi waɗanda za su iya koyon ayyuka masu rikitarwa. Ta hanyar waɗannan samfuran RL, robots suna iya lura da muhallinsu kuma suna yanke shawara bisa abubuwan da suka lura.

Misali, an yi bincike kan yin amfani da tsarin koyo na ƙarfafawa don ba da damar mutummutumi masu bipedal su koyi yadda ake tafiya akan nasu.

ƙarfafa koyo koyar da mutum-mutumi don tafiya

Masu bincike sunyi la'akari da RL a matsayin hanya mai mahimmanci a fagen aikin mutum-mutumi. Ƙarfafa ilmantarwa yana ba wakilan mutum-mutumi tsarin koyan ƙwararrun ayyuka waɗanda ƙila ba su da wahala ga injiniya.

Ƙarfafa Koyo a Wasa

Hakanan an yi amfani da ƙirar RL don koyon yadda ake yin wasannin bidiyo. Ana iya saita wakilai don koyo daga kurakuran su kuma a ci gaba da inganta ayyukansu a wasan.

Masu bincike sun riga sun haɓaka wakilai waɗanda za su iya yin wasanni kamar dara, Go, da karta. A shekarar 2013, Deepmind An yi amfani da Ilimin Ƙarfafa Ƙarfafawa don ba da damar samfuri don koyon yadda ake kunna wasannin Atari daga karce.

Yawancin wasannin allo da wasannin bidiyo suna da iyakataccen filin aiki da ingantaccen maƙasudin maƙasudi. Waɗannan halayen suna aiki ga fa'idar ƙirar RL. Hanyoyin RL na iya yin sauri sama da miliyoyin wasannin kwaikwaya don koyan ingantattun dabarun cimma nasara.

Kammalawa

Ko yana koyon yadda ake tafiya ko koyan yadda ake yin wasannin bidiyo, samfuran RL an tabbatar da cewa suna da amfani da tsarin AI don magance matsalolin da ke buƙatar yanke shawara mai rikitarwa.

Yayin da fasahar ke ci gaba da bunkasa, duka masu bincike da masu haɓakawa za su ci gaba da samun sabbin aikace-aikacen da ke cin gajiyar ikon koyar da kai na samfurin.

Wadanne aikace-aikace masu amfani kuke tsammanin ƙarfafawa koyo zai iya taimakawa da su?

Ƙarfafa Koyo: AI Mai Koyi Daga Kurakuransa

Menene koyon ƙarfafawa?