Dysgu Atgyfnerthu: AI Sy'n Dysgu O'i Gamgymeriadau

Tabl Cynnwys[Cuddio][Dangos]

Beth yw dysgu atgyfnerthu?
Enghraifft Syml: Grid 4×4+-
- Polisïau a Gwobrau
- Archwilio vs Camfanteisio
Cymwysiadau Ymarferol+-
Casgliad

Gadewch i ni ddychmygu eich bod yn ceisio dysgu robot sut i gerdded. Yn wahanol i ddysgu cyfrifiadur sut i ragfynegi prisiau stoc neu gategoreiddio delweddau, nid oes gennym mewn gwirionedd set ddata fawr y gallwn ei defnyddio i hyfforddi ein robot.

Er y gall ddod yn naturiol i chi, mae cerdded mewn gwirionedd yn weithred gymhleth iawn. Mae cerdded cam fel arfer yn golygu bod dwsinau o gyhyrau gwahanol yn gweithio gyda'i gilydd. Mae'r ymdrech a'r technegau a ddefnyddir i gerdded o un lle i'r llall hefyd yn dibynnu ar amrywiaeth o ffactorau, gan gynnwys a ydych yn cario rhywbeth neu a oes llethr neu fathau eraill o rwystrau.

Mewn senarios fel hyn, gallwn ddefnyddio dull a elwir yn ddysgu atgyfnerthu neu RL. Gydag RL, gallwch chi ddiffinio nod penodol rydych chi am i'ch model ei ddatrys a gadael i'r model ddysgu ar ei ben ei hun yn raddol sut i'w gyflawni.

Yn yr erthygl hon, byddwn yn archwilio hanfodion dysgu atgyfnerthu a sut y gallwn gymhwyso'r fframwaith RL i amrywiaeth o wahanol broblemau yn y byd go iawn.

Beth yw dysgu atgyfnerthu?

Mae dysgu atgyfnerthu yn cyfeirio at is-set benodol o dysgu peiriant sy'n canolbwyntio ar ddod o hyd i atebion trwy wobrwyo ymddygiadau dymunol a chosbi ymddygiadau annymunol.

diagram o'r fframwaith dysgu atgyfnerthu

Yn wahanol i ddysgu dan oruchwyliaeth, fel arfer nid oes gan y dull dysgu atgyfnerthu set ddata hyfforddi sy'n darparu'r allbwn cywir ar gyfer mewnbwn penodol. Yn absenoldeb data hyfforddi, rhaid i'r algorithm ddod o hyd i'r ateb trwy brofi a methu. Mae'r algorithm, yr ydym fel arfer yn cyfeirio ato fel asiant, Rhaid dod o hyd i'r ateb ei ben ei hun trwy ryngweithio â'r amgylchedd.

Mae ymchwilwyr yn penderfynu ar ba ganlyniadau penodol gwobrwyo a beth mae'r algorithm yn gallu ei wneud. Pob gweithredu bydd yr algorithm yn derbyn rhyw fath o adborth sy'n sgorio pa mor dda mae'r algorithm yn ei wneud. Yn ystod y broses hyfforddi, bydd yr algorithm yn y pen draw yn dod o hyd i'r ateb gorau posibl i ddatrys problem benodol.

Enghraifft Syml: Grid 4×4

Gadewch i ni edrych ar enghraifft syml o broblem y gallwn ei datrys gyda dysgu atgyfnerthu.

Tybiwch fod gennym grid 4×4 fel ein hamgylchedd. Rhoddir ein hasiant ar hap yn un o'r sgwariau ynghyd ag ychydig o rwystrau. Bydd y grid yn cynnwys tri rhwystr “pwll” y mae'n rhaid eu hosgoi ac un wobr “diemwnt” y mae'n rhaid i'r asiant ddod o hyd iddi. Gelwir y disgrifiad cyflawn o'n hamgylchedd yn ddisgrifiad yr amgylchedd Roedd.

mae dysgu atgyfnerthu yn dibynnu ar asiant sy'n rhyngweithio ag amgylchedd efelychiedig

Yn ein model RL, gall ein hasiant symud i unrhyw sgwâr cyfagos cyn belled nad oes unrhyw rwystrau yn eu rhwystro. Gelwir y set o bob gweithred ddilys mewn amgylchedd penodol yn gofod gweithredu. Nod ein hasiant yw dod o hyd i'r llwybr byrraf at y wobr.

mae gan yr asiant ofod gweithredu neu'r set o gamau gweithredu dilys mewn cyflwr penodol

Bydd ein hasiant yn defnyddio'r dull dysgu atgyfnerthu i ddod o hyd i'r llwybr i'r diemwnt sy'n gofyn am y camau lleiaf. Bydd pob cam cywir yn rhoi gwobr i'r robot a bydd pob cam anghywir yn tynnu gwobr y robot. Mae'r model yn cyfrifo cyfanswm y wobr unwaith y bydd yr asiant yn cyrraedd y diemwnt.

Nawr ein bod wedi diffinio'r asiant a'r amgylchedd, mae'n rhaid i ni hefyd ddiffinio'r rheolau i'w defnyddio ar gyfer penderfynu ar y camau nesaf y bydd yr asiant yn eu cymryd o ystyried ei gyflwr presennol a'r amgylchedd.

Polisïau a Gwobrau

Mewn model dysgu atgyfnerthu, a polisi yn cyfeirio at y strategaeth a ddefnyddir gan asiant i gyflawni ei nodau. Polisi'r asiant yw'r hyn sy'n penderfynu beth ddylai'r asiant ei wneud nesaf o ystyried cyflwr presennol yr asiant a'i amgylchedd.

Rhaid i'r asiant werthuso pob polisi posibl i weld pa bolisi sydd orau.

gwerthuso polisïau

Yn ein hesiampl syml, bydd glanio ar le gwag yn dychwelyd gwerth o -1. Pan fydd yr asiant yn glanio ar ofod gyda'r wobr diemwnt, bydd yn derbyn gwerth o 10. Gan ddefnyddio'r gwerthoedd hyn, gallwn gymharu'r gwahanol bolisïau gan ddefnyddio a swyddogaeth cyfleustodau U.

Gadewch i ni nawr gymharu defnyddioldeb y ddau bolisi a welir uchod:

U(A) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

Dengys y canlyniadau mai Polisi A yw'r llwybr gorau i ddod o hyd i'r wobr. Felly, bydd yr asiant yn defnyddio Llwybr A dros Bolisi B.

Archwilio vs Camfanteisio

Mae'r broblem cyfaddawdu rhwng archwilio a chamfanteisio mewn dysgu atgyfnerthu yn gyfyng-gyngor y mae'n rhaid i asiant ei wynebu yn ystod y broses benderfynu.

A ddylai asiantau ganolbwyntio ar archwilio llwybrau neu opsiynau newydd neu a ddylent barhau i fanteisio ar yr opsiynau y maent yn gwybod amdanynt eisoes?

Os yw'r asiant yn dewis archwilio, mae posibilrwydd i'r asiant ddod o hyd i opsiwn gwell, ond gallai hefyd fod mewn perygl o wastraffu amser ac adnoddau. Ar y llaw arall, os yw'r asiant yn dewis manteisio ar yr ateb y mae eisoes yn ei wybod, efallai y bydd yn colli opsiwn gwell.

Cymwysiadau Ymarferol

Dyma rai ffyrdd Ymchwilwyr AI wedi defnyddio modelau dysgu atgyfnerthu i ddatrys problemau byd go iawn:

Dysgu Atgyfnerthu mewn Ceir Hunan-yrru

Mae dysgu atgyfnerthu wedi'i gymhwyso i geir hunan-yrru er mwyn gwella eu gallu i yrru'n ddiogel ac yn effeithlon. Mae'r dechnoleg yn galluogi ceir ymreolaethol i ddysgu o'u camgymeriadau ac addasu eu hymddygiad yn barhaus er mwyn optimeiddio eu perfformiad.

dysgu atgyfnerthu a ddefnyddir ar gyfer hunan-yrru

Er enghraifft, y cwmni AI o Lundain Wayve wedi cymhwyso model dysgu atgyfnerthu dwfn yn llwyddiannus ar gyfer gyrru ymreolaethol. Yn eu harbrawf, fe wnaethant ddefnyddio swyddogaeth wobrwyo sy'n gwneud y mwyaf o'r amser y mae'r cerbyd yn ei redeg heb i'r gyrrwr ar y bwrdd ddarparu mewnbwn.

Mae modelau RL hefyd yn helpu ceir i wneud penderfyniadau yn seiliedig ar yr amgylchedd, megis osgoi rhwystrau neu uno i draffig. Rhaid i'r modelau hyn ddod o hyd i ffordd i drosi'r amgylchedd cymhleth o amgylch car yn ofod cyflwr cynrychioliadol y gall y model ei ddeall.

Dysgu Atgyfnerthu mewn Roboteg

Mae ymchwilwyr hefyd wedi bod yn defnyddio dysgu atgyfnerthu i ddatblygu robotiaid a all ddysgu tasgau cymhleth. Trwy'r modelau RL hyn, mae robotiaid yn gallu arsylwi eu hamgylchedd a gwneud penderfyniadau yn seiliedig ar eu harsylwadau.

Er enghraifft, mae ymchwil wedi'i wneud ar ddefnyddio modelau dysgu atgyfnerthu i alluogi robotiaid deupedol i ddysgu sut i wneud hynny cerdded ar eu pen eu hunain.

dysgu atgyfnerthu addysgu robot i gerdded

Mae ymchwilwyr yn ystyried RL yn ddull allweddol ym maes roboteg. Mae dysgu atgyfnerthu yn rhoi fframwaith i asiantau robotig ddysgu gweithredoedd soffistigedig a allai fod yn anodd eu peiriannu fel arall.

Dysgu Atgyfnerthu mewn Hapchwarae

Mae modelau RL hefyd wedi cael eu defnyddio i ddysgu sut i chwarae gemau fideo. Gellir sefydlu asiantau i ddysgu o'u camgymeriadau a gwella eu perfformiad yn y gêm yn barhaus.

Mae ymchwilwyr eisoes wedi datblygu asiantau sy'n gallu chwarae gemau fel gwyddbwyll, Go, a phocer. Yn 2013, DeepMind defnyddio Deep Atari Learning i alluogi model i ddysgu sut i chwarae gemau Atari o'r dechrau.

Mae gan lawer o gemau bwrdd a gemau fideo le gweithredu cyfyngedig a nod concrit wedi'i ddiffinio'n dda. Mae'r nodweddion hyn yn gweithio i fantais y model RL. Gall dulliau RL ailadrodd yn gyflym dros filiynau o gemau efelychiedig i ddysgu'r strategaethau gorau posibl i sicrhau buddugoliaeth.

Casgliad

P'un a yw'n dysgu sut i gerdded neu'n dysgu sut i chwarae gemau fideo, mae modelau RL wedi'u profi i fod yn fframweithiau AI defnyddiol ar gyfer datrys problemau sy'n gofyn am wneud penderfyniadau cymhleth.

Wrth i'r dechnoleg barhau i esblygu, bydd ymchwilwyr a datblygwyr yn parhau i ddod o hyd i gymwysiadau newydd sy'n manteisio ar allu hunan-ddysgu'r model.

Pa gymwysiadau ymarferol ydych chi'n meddwl y gall dysgu atgyfnerthu helpu â nhw?

Dysgu Atgyfnerthu: AI Sy'n Dysgu O'i Gamgymeriadau

Beth yw dysgu atgyfnerthu?