Mafunzo ya Kuimarisha: AI Ambayo Hujifunza Kutokana na Makosa Yake

Orodha ya Yaliyomo[Ficha][Onyesha]

Mafunzo ya kuimarisha ni nini?
Mfano Rahisi: 4×4 Gridi+-
- Sera na Zawadi
- Uchunguzi dhidi ya Unyonyaji
vitendo Matumizi+-
Hitimisho

Hebu fikiria unajaribu kufundisha roboti jinsi ya kutembea. Tofauti na kufundisha kompyuta jinsi ya kutabiri bei za hisa au kuainisha picha, kwa kweli hatuna mkusanyiko mkubwa wa data ambao tunaweza kutumia kufunza roboti yetu.

Ingawa inaweza kuja kwa kawaida kwako, kutembea kwa kweli ni hatua ngumu sana. Kutembea hatua kwa kawaida huhusisha kadhaa ya misuli tofauti kufanya kazi pamoja. Juhudi na mbinu zinazotumiwa kutembea kutoka sehemu moja hadi nyingine hutegemea mambo mbalimbali, ikiwa ni pamoja na ikiwa umebeba kitu au kuna mteremko au aina nyingine za vikwazo.

Katika hali kama hizi, tunaweza kutumia njia inayojulikana kama ujifunzaji wa kuimarisha au RL. Ukiwa na RL, unaweza kufafanua lengo mahususi unalotaka kielelezo chako kusuluhisha na polepole kuruhusu kielelezo kijifunze kivyake jinsi ya kulitimiza.

Katika makala haya, tutachunguza misingi ya uimarishaji wa kujifunza na jinsi tunavyoweza kutumia mfumo wa RL kwa matatizo mbalimbali katika ulimwengu wa kweli.

Mafunzo ya kuimarisha ni nini?

Kujifunza kwa uimarishaji kunarejelea sehemu ndogo ya mashine kujifunza ambayo inalenga kutafuta suluhu kwa kuthawabisha tabia zinazotakikana na kuadhibu tabia zisizotakikana.

mchoro wa mfumo wa mafunzo ya kuimarisha

Tofauti na ujifunzaji unaosimamiwa, mbinu ya ujifunzaji ya kuimarisha kwa kawaida haina mkusanyiko wa data wa mafunzo ambao hutoa matokeo sahihi kwa ingizo fulani. Kwa kukosekana kwa data ya mafunzo, algorithm lazima ipate suluhisho kwa jaribio na makosa. Algorithm, ambayo kwa kawaida tunarejelea kama wakala, lazima itafute suluhisho yenyewe kwa kuingiliana na mazingira.

Watafiti huamua juu ya matokeo gani maalum walipa na kile algorithm ina uwezo wa kufanya. Kila hatua algorithm inachukua itapokea aina fulani ya maoni ambayo yanaonyesha jinsi algoriti inavyofanya vizuri. Wakati wa mchakato wa mafunzo, algorithm hatimaye itapata suluhisho mojawapo ya kutatua tatizo fulani.

Mfano Rahisi: 4×4 Gridi

Hebu tuangalie mfano rahisi wa tatizo tunaloweza kutatua kwa mafunzo ya kuimarisha.

Tuseme tuna gridi ya 4x4 kama mazingira yetu. Wakala wetu amewekwa nasibu katika moja ya miraba pamoja na vizuizi vichache. Gridi hiyo itakuwa na vizuizi vitatu vya "shimo" ambavyo lazima viepukwe na zawadi moja ya "almasi" ambayo wakala lazima apate. Maelezo kamili ya mazingira yetu yanajulikana kama mazingira walikuwa.

ujifunzaji wa kuimarisha hutegemea wakala anayeingiliana na mazingira yaliyoigwa

Katika muundo wetu wa RL, wakala wetu anaweza kuhamia mraba wowote ulio karibu mradi tu hakuna vizuizi vinavyowazuia. Seti ya vitendo vyote halali katika mazingira fulani hujulikana kama nafasi ya hatua. Lengo la wakala wetu ni kutafuta njia fupi zaidi ya kupata zawadi.

wakala ana nafasi ya kitendo au seti ya vitendo halali katika hali fulani

Wakala wetu atatumia mbinu ya uimarishaji wa kujifunza ili kutafuta njia ya kuelekea almasi ambayo inahitaji kiwango kidogo zaidi cha hatua. Kila hatua sahihi itampa roboti zawadi na kila hatua isiyo sahihi itaondoa zawadi ya roboti. Muundo hukokotoa jumla ya malipo pindi wakala anapofikia almasi.

Kwa kuwa sasa tumefafanua wakala na mazingira, lazima pia tufafanue sheria za kutumia ili kubainisha hatua inayofuata ambayo wakala atachukua kutokana na hali yake ya sasa na mazingira.

Sera na Zawadi

Katika mfano wa ujifunzaji wa kuimarisha, a sera inahusu mkakati unaotumiwa na wakala kutimiza malengo yao. Sera ya wakala ndiyo huamua wakala afanye nini baada ya kuzingatia hali ya sasa ya wakala na mazingira yake.

Wakala lazima atathmini sera zote zinazowezekana ili kuona ni sera ipi iliyo bora zaidi.

kutathmini sera

Katika mfano wetu rahisi, kutua kwenye nafasi tupu kutarudisha thamani ya -1. Wakala anapotua kwenye nafasi yenye zawadi ya almasi, atapokea thamani ya 10. Kwa kutumia thamani hizi, tunaweza kulinganisha sera tofauti kwa kutumia kazi ya matumizi U.

Wacha sasa tulinganishe matumizi ya sera mbili zilizoonekana hapo juu:

U(A) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

Matokeo yanaonyesha kuwa Sera A ndiyo njia bora ya kupata zawadi. Kwa hivyo, wakala atatumia Njia A juu ya Sera B.

Uchunguzi dhidi ya Unyonyaji

Tatizo la utafutaji dhidi ya unyonyaji katika ujifunzaji wa kuimarisha ni tatizo ambalo wakala lazima akumbane nalo wakati wa mchakato wa uamuzi.

Je, mawakala wanapaswa kuzingatia kuchunguza njia mpya au chaguo au wanapaswa kuendelea kutumia chaguo ambazo tayari wanazijua?

Ikiwa wakala atachagua kuchunguza, kuna uwezekano kwa wakala kupata chaguo bora zaidi, lakini inaweza pia kuhatarisha kupoteza muda na rasilimali. Kwa upande mwingine, ikiwa wakala atachagua kutumia suluhisho ambalo tayari anajua, anaweza kukosa chaguo bora zaidi.

vitendo Matumizi

Hapa kuna njia kadhaa Watafiti wa AI wametumia miundo ya uimarishaji wa kujifunza kutatua matatizo ya ulimwengu halisi:

Mafunzo ya Kuimarisha katika Magari yanayojiendesha

Mafunzo ya uimarishaji yametumika kwa magari yanayojiendesha ili kuboresha uwezo wao wa kuendesha kwa usalama na kwa ufanisi. Teknolojia hiyo huwezesha magari yanayojiendesha kujifunza kutokana na makosa yao na kuendelea kurekebisha tabia zao ili kuboresha utendakazi wao.

mafunzo ya kuimarisha yanayotumika kujiendesha

Kwa mfano, kampuni ya AI yenye makao yake London Njia imefaulu kutumia kielelezo cha uimarishaji wa kina cha kuendesha gari kwa uhuru. Katika jaribio lao, walitumia kipengele cha zawadi ambacho huongeza muda ambao gari hukimbia bila dereva aliye ndani kutoa mchango.

Miundo ya RL pia husaidia magari kufanya maamuzi kulingana na mazingira, kama vile kuepuka vikwazo au kuunganisha kwenye trafiki. Mifano hizi lazima zitafute njia ya kubadilisha mazingira magumu yanayozunguka gari katika nafasi ya hali ya mwakilishi ambayo mtindo anaweza kuelewa.

Mafunzo ya Kuimarisha katika Roboti

Watafiti pia wamekuwa wakitumia mafunzo ya uimarishaji kutengeneza roboti zinazoweza kujifunza kazi ngumu. Kupitia mifano hii ya RL, roboti zinaweza kuchunguza mazingira yao na kufanya maamuzi kulingana na uchunguzi wao.

Kwa mfano, utafiti umefanywa kuhusu kutumia miundo ya uimarishaji wa mafunzo ili kuruhusu roboti zenye miguu miwili kujifunza jinsi ya kufanya kutembea peke yao.

mafunzo ya kuimarisha kufundisha roboti kutembea

Watafiti wanachukulia RL kuwa njia muhimu katika uwanja wa roboti. Kujifunza kwa uimarishaji huwapa mawakala wa roboti mfumo wa kujifunza vitendo vya kisasa ambavyo vinaweza kuwa vigumu kwa uhandisi.

Kuimarisha Mafunzo katika Michezo ya Kubahatisha

Aina za RL pia zimetumika kujifunza jinsi ya kucheza michezo ya video. Mawakala wanaweza kuanzishwa ili kujifunza kutokana na makosa yao na kuendelea kuboresha utendaji wao katika mchezo.

Watafiti tayari wameunda mawakala ambao wanaweza kucheza michezo kama vile chess, Go, na poker. Mwaka 2013, DeepMind ilitumia Mafunzo ya Kuimarisha Kina ili kuruhusu mwanamitindo kujifunza jinsi ya kucheza michezo ya Atari kuanzia mwanzo.

Michezo mingi ya ubao na michezo ya video ina nafasi finyu ya vitendo na lengo thabiti lililobainishwa vyema. Sifa hizi hufanya kazi kwa faida ya mfano wa RL. Mbinu za RL zinaweza kurudia kwa haraka zaidi ya mamilioni ya michezo iliyoiga ili kujifunza mikakati bora ya kupata ushindi.

Hitimisho

Iwe ni kujifunza jinsi ya kutembea au kujifunza jinsi ya kucheza michezo ya video, miundo ya RL imethibitishwa kuwa mifumo muhimu ya AI ya kutatua matatizo ambayo yanahitaji kufanya maamuzi changamano.

Kadiri teknolojia inavyoendelea kubadilika, watafiti na watengenezaji wataendelea kupata programu mpya zinazochukua fursa ya uwezo wa kielelezo wa kujifundisha.

Je, unadhani ujifunzaji wa uimarishaji unaweza kusaidia katika matumizi gani ya vitendo?

Mafunzo ya Kuimarisha: AI Ambayo Hujifunza Kutokana na Makosa Yake

Mafunzo ya kuimarisha ni nini?