Gadewch i ni ddychmygu eich bod yn ceisio dysgu robot sut i gerdded. Yn wahanol i ddysgu cyfrifiadur sut i ragfynegi prisiau stoc neu gategoreiddio delweddau, nid oes gennym mewn gwirionedd set ddata fawr y gallwn ei defnyddio i hyfforddi ein robot.
Er y gall ddod yn naturiol i chi, mae cerdded mewn gwirionedd yn weithred gymhleth iawn. Mae cerdded cam fel arfer yn golygu bod dwsinau o gyhyrau gwahanol yn gweithio gyda'i gilydd. Mae'r ymdrech a'r technegau a ddefnyddir i gerdded o un lle i'r llall hefyd yn dibynnu ar amrywiaeth o ffactorau, gan gynnwys a ydych yn cario rhywbeth neu a oes llethr neu fathau eraill o rwystrau.
Mewn senarios fel hyn, gallwn ddefnyddio dull a elwir yn ddysgu atgyfnerthu neu RL. Gydag RL, gallwch chi ddiffinio nod penodol rydych chi am i'ch model ei ddatrys a gadael i'r model ddysgu ar ei ben ei hun yn raddol sut i'w gyflawni.
Yn yr erthygl hon, byddwn yn archwilio hanfodion dysgu atgyfnerthu a sut y gallwn gymhwyso'r fframwaith RL i amrywiaeth o wahanol broblemau yn y byd go iawn.
Beth yw dysgu atgyfnerthu?
Mae dysgu atgyfnerthu yn cyfeirio at is-set benodol o dysgu peiriant sy'n canolbwyntio ar ddod o hyd i atebion trwy wobrwyo ymddygiadau dymunol a chosbi ymddygiadau annymunol.
Yn wahanol i ddysgu dan oruchwyliaeth, fel arfer nid oes gan y dull dysgu atgyfnerthu set ddata hyfforddi sy'n darparu'r allbwn cywir ar gyfer mewnbwn penodol. Yn absenoldeb data hyfforddi, rhaid i'r algorithm ddod o hyd i'r ateb trwy brofi a methu. Mae'r algorithm, yr ydym fel arfer yn cyfeirio ato fel asiant, Rhaid dod o hyd i'r ateb ei ben ei hun trwy ryngweithio â'r amgylchedd.
Mae ymchwilwyr yn penderfynu ar ba ganlyniadau penodol gwobrwyo a beth mae'r algorithm yn gallu ei wneud. Pob gweithredu bydd yr algorithm yn derbyn rhyw fath o adborth sy'n sgorio pa mor dda mae'r algorithm yn ei wneud. Yn ystod y broses hyfforddi, bydd yr algorithm yn y pen draw yn dod o hyd i'r ateb gorau posibl i ddatrys problem benodol.
Enghraifft Syml: Grid 4×4
Gadewch i ni edrych ar enghraifft syml o broblem y gallwn ei datrys gyda dysgu atgyfnerthu.
Tybiwch fod gennym grid 4×4 fel ein hamgylchedd. Rhoddir ein hasiant ar hap yn un o'r sgwariau ynghyd ag ychydig o rwystrau. Bydd y grid yn cynnwys tri rhwystr “pwll” y mae'n rhaid eu hosgoi ac un wobr “diemwnt” y mae'n rhaid i'r asiant ddod o hyd iddi. Gelwir y disgrifiad cyflawn o'n hamgylchedd yn ddisgrifiad yr amgylchedd Roedd.
Yn ein model RL, gall ein hasiant symud i unrhyw sgwâr cyfagos cyn belled nad oes unrhyw rwystrau yn eu rhwystro. Gelwir y set o bob gweithred ddilys mewn amgylchedd penodol yn gofod gweithredu. Nod ein hasiant yw dod o hyd i'r llwybr byrraf at y wobr.
Bydd ein hasiant yn defnyddio'r dull dysgu atgyfnerthu i ddod o hyd i'r llwybr i'r diemwnt sy'n gofyn am y camau lleiaf. Bydd pob cam cywir yn rhoi gwobr i'r robot a bydd pob cam anghywir yn tynnu gwobr y robot. Mae'r model yn cyfrifo cyfanswm y wobr unwaith y bydd yr asiant yn cyrraedd y diemwnt.
Nawr ein bod wedi diffinio'r asiant a'r amgylchedd, mae'n rhaid i ni hefyd ddiffinio'r rheolau i'w defnyddio ar gyfer penderfynu ar y camau nesaf y bydd yr asiant yn eu cymryd o ystyried ei gyflwr presennol a'r amgylchedd.
Polisïau a Gwobrau
Mewn model dysgu atgyfnerthu, a polisi yn cyfeirio at y strategaeth a ddefnyddir gan asiant i gyflawni ei nodau. Polisi'r asiant yw'r hyn sy'n penderfynu beth ddylai'r asiant ei wneud nesaf o ystyried cyflwr presennol yr asiant a'i amgylchedd.
Rhaid i'r asiant werthuso pob polisi posibl i weld pa bolisi sydd orau.
Yn ein hesiampl syml, bydd glanio ar le gwag yn dychwelyd gwerth o -1. Pan fydd yr asiant yn glanio ar ofod gyda'r wobr diemwnt, bydd yn derbyn gwerth o 10. Gan ddefnyddio'r gwerthoedd hyn, gallwn gymharu'r gwahanol bolisïau gan ddefnyddio a swyddogaeth cyfleustodau U.
Gadewch i ni nawr gymharu defnyddioldeb y ddau bolisi a welir uchod:
U(A) = -1 – 1 -1 + 10 = 7
U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5
Dengys y canlyniadau mai Polisi A yw'r llwybr gorau i ddod o hyd i'r wobr. Felly, bydd yr asiant yn defnyddio Llwybr A dros Bolisi B.
Archwilio vs Camfanteisio
Mae'r broblem cyfaddawdu rhwng archwilio a chamfanteisio mewn dysgu atgyfnerthu yn gyfyng-gyngor y mae'n rhaid i asiant ei wynebu yn ystod y broses benderfynu.
A ddylai asiantau ganolbwyntio ar archwilio llwybrau neu opsiynau newydd neu a ddylent barhau i fanteisio ar yr opsiynau y maent yn gwybod amdanynt eisoes?
Os yw'r asiant yn dewis archwilio, mae posibilrwydd i'r asiant ddod o hyd i opsiwn gwell, ond gallai hefyd fod mewn perygl o wastraffu amser ac adnoddau. Ar y llaw arall, os yw'r asiant yn dewis manteisio ar yr ateb y mae eisoes yn ei wybod, efallai y bydd yn colli opsiwn gwell.
Cymwysiadau Ymarferol
Dyma rai ffyrdd Ymchwilwyr AI wedi defnyddio modelau dysgu atgyfnerthu i ddatrys problemau byd go iawn:
Dysgu Atgyfnerthu mewn Ceir Hunan-yrru
Mae dysgu atgyfnerthu wedi'i gymhwyso i geir hunan-yrru er mwyn gwella eu gallu i yrru'n ddiogel ac yn effeithlon. Mae'r dechnoleg yn galluogi ceir ymreolaethol i ddysgu o'u camgymeriadau ac addasu eu hymddygiad yn barhaus er mwyn optimeiddio eu perfformiad.
Er enghraifft, y cwmni AI o Lundain Wayve wedi cymhwyso model dysgu atgyfnerthu dwfn yn llwyddiannus ar gyfer gyrru ymreolaethol. Yn eu harbrawf, fe wnaethant ddefnyddio swyddogaeth wobrwyo sy'n gwneud y mwyaf o'r amser y mae'r cerbyd yn ei redeg heb i'r gyrrwr ar y bwrdd ddarparu mewnbwn.
Mae modelau RL hefyd yn helpu ceir i wneud penderfyniadau yn seiliedig ar yr amgylchedd, megis osgoi rhwystrau neu uno i draffig. Rhaid i'r modelau hyn ddod o hyd i ffordd i drosi'r amgylchedd cymhleth o amgylch car yn ofod cyflwr cynrychioliadol y gall y model ei ddeall.
Dysgu Atgyfnerthu mewn Roboteg
Mae ymchwilwyr hefyd wedi bod yn defnyddio dysgu atgyfnerthu i ddatblygu robotiaid a all ddysgu tasgau cymhleth. Trwy'r modelau RL hyn, mae robotiaid yn gallu arsylwi eu hamgylchedd a gwneud penderfyniadau yn seiliedig ar eu harsylwadau.
Er enghraifft, mae ymchwil wedi'i wneud ar ddefnyddio modelau dysgu atgyfnerthu i alluogi robotiaid deupedol i ddysgu sut i wneud hynny cerdded ar eu pen eu hunain.
Mae ymchwilwyr yn ystyried RL yn ddull allweddol ym maes roboteg. Mae dysgu atgyfnerthu yn rhoi fframwaith i asiantau robotig ddysgu gweithredoedd soffistigedig a allai fod yn anodd eu peiriannu fel arall.
Dysgu Atgyfnerthu mewn Hapchwarae
Mae modelau RL hefyd wedi cael eu defnyddio i ddysgu sut i chwarae gemau fideo. Gellir sefydlu asiantau i ddysgu o'u camgymeriadau a gwella eu perfformiad yn y gêm yn barhaus.
Mae ymchwilwyr eisoes wedi datblygu asiantau sy'n gallu chwarae gemau fel gwyddbwyll, Go, a phocer. Yn 2013, DeepMind defnyddio Deep Atari Learning i alluogi model i ddysgu sut i chwarae gemau Atari o'r dechrau.
Mae gan lawer o gemau bwrdd a gemau fideo le gweithredu cyfyngedig a nod concrit wedi'i ddiffinio'n dda. Mae'r nodweddion hyn yn gweithio i fantais y model RL. Gall dulliau RL ailadrodd yn gyflym dros filiynau o gemau efelychiedig i ddysgu'r strategaethau gorau posibl i sicrhau buddugoliaeth.
Casgliad
P'un a yw'n dysgu sut i gerdded neu'n dysgu sut i chwarae gemau fideo, mae modelau RL wedi'u profi i fod yn fframweithiau AI defnyddiol ar gyfer datrys problemau sy'n gofyn am wneud penderfyniadau cymhleth.
Wrth i'r dechnoleg barhau i esblygu, bydd ymchwilwyr a datblygwyr yn parhau i ddod o hyd i gymwysiadau newydd sy'n manteisio ar allu hunan-ddysgu'r model.
Pa gymwysiadau ymarferol ydych chi'n meddwl y gall dysgu atgyfnerthu helpu â nhw?
Gadael ymateb