Samhlóimid go bhfuil tú ag iarraidh róbat a mhúineadh conas siúl. Murab ionann agus ríomhaire a mhúineadh conas praghsanna stoc a thuar nó íomhánna a chatagóiriú, níl tacar sonraí mór againn i ndáiríre is féidir linn a úsáid chun ár róbat a oiliúint.
Cé go bhféadfadh sé teacht go nádúrtha duit, is gníomh an-chasta é siúl. Is gnách go mbíonn mórán matáin éagsúla ag obair le chéile agus tú ag siúl céim. Braitheann an iarracht agus na teicníochtaí a úsáidtear chun siúl ó áit amháin go háit eile ar fhachtóirí éagsúla, lena n-áirítear cibé an bhfuil rud éigin á iompar agat nó an bhfuil claonas nó cineálacha eile constaicí ann.
I gcásanna mar seo, is féidir linn modh ar a dtugtar foghlaim treisithe nó RL a úsáid. Le RL, is féidir leat sprioc shonrach a shainiú a theastaíonn uait do mhúnla a réiteach agus de réir a chéile ligean don mhúnla foghlaim leis féin conas é a chur i gcrích.
San Airteagal seo, déanfaimid iniúchadh ar na bunghnéithe a bhaineann le foghlaim athneartaithe agus conas is féidir linn an creat RL a chur i bhfeidhm ar éagsúlacht fadhbanna éagsúla sa saol fíor.
Cad is foghlaim atreisiúcháin ann?
Tagraíonn foghlaim treisithe d'fhothacar ar leith de foghlaim meaisín a dhíríonn ar réitigh a aimsiú trí luach saothair a thabhairt d’iompraíochtaí inmhianaithe agus trí iompraíochtaí neamh-inmhianaithe a phionósú.
Murab ionann agus foghlaim faoi mhaoirseacht, de ghnáth ní bhíonn tacar sonraí oiliúna ag an modh foghlama treisithe a sholáthraíonn an t-aschur ceart d’ionchur áirithe. In éagmais sonraí oiliúna, ní mór don algartam an réiteach a aimsiú trí thriail agus earráid. Tá an t-algartam, a dtagraíonn muid go hiondúil dó mar gníomhaire, Ní mór teacht ar an réiteach leis féin trí idirghníomhú leis an timpeallacht.
Cinneann taighdeoirí cad iad na torthaí ar leith a bhaineann leis luach saothair a agus cad atá an algartam in ann a dhéanamh. Gach gníomh gheobhaidh an t-algartam aiseolas de chineál éigin a scórálann cé chomh maith agus atá ag éirí leis an algartam. Le linn an phróisis oiliúna, gheobhaidh an t-algartam ar deireadh thiar an réiteach is fearr chun fadhb áirithe a réiteach.
Sampla Simplí: Eangach 4×4
Breathnaímis ar shampla simplí d’fhadhb is féidir linn a réiteach le foghlaim athneartaithe.
Cuir i gcás go bhfuil eangach 4×4 againn mar ár dtimpeallacht. Cuirtear ár ngníomhaire go randamach i gceann de na cearnóga mar aon le roinnt constaicí. Beidh trí “chlais” chonstaic nach mór a sheachaint agus duais “diamaint” amháin a chaithfidh an gníomhaire a aimsiú sa ghreille. Tugtar cur síos iomlán ar ár dtimpeallacht Bhí.
In ár múnla RL, is féidir lenár ngníomhaire bogadh go dtí aon chearnóg in aice láimhe chomh fada agus nach bhfuil aon chonstaicí ag cur bac orthu. Tugtar an tacar de gach gníomh bailí i dtimpeallacht ar leith spás gníomhaíochta. Is é sprioc ár ngníomhaire an cosán is giorra don luach saothair a fháil.
Úsáidfidh ár ngníomhaire an modh foghlama treisithe chun an cosán go dtí an Diamond a aimsiú a éilíonn an méid is lú céimeanna. Tabharfaidh gach céim cheart luaíocht don róbat agus déanfaidh gach céim mícheart luach saothair an róbat a dhealú. Ríomhann an tsamhail an luach saothair iomlán a luaithe a shroicheann an gníomhaire an diamant.
Anois go bhfuil an gníomhaire agus an comhshaol sainmhínithe againn, ní mór dúinn freisin na rialacha a shainiú a úsáidfear chun an chéad ghníomh eile a dhéanamh a dhéanfaidh an gníomhaire i bhfianaise a staid reatha agus an comhshaol.
Beartais agus Luaíochtaí
I múnla foghlama treisithe, a polasaí tagairt don straitéis a úsáideann gníomhaire chun a spriocanna a bhaint amach. Is é beartas an ghníomhaire a chinneann an chéad rud eile ba chóir don ghníomhaire a dhéanamh i bhfianaise staid reatha an ghníomhaire agus a thimpeallachta.
Ní mór don ghníomhaire measúnú a dhéanamh ar gach beartas féideartha féachaint cén beartas is fearr.
Inár sampla simplí, tabharfaidh tuirlingthe ar spás folamh luach -1 ar ais. Nuair a thuirlingíonn an gníomhaire ar spás leis an luach saothair diamanta, gheobhaidh siad luach 10. Agus na luachanna seo á n-úsáid, is féidir linn na polasaithe éagsúla a chur i gcomparáid le húsáid a feidhm fóntais U.
Déanaimis anois feidhmiúlacht an dá pholasaí atá le feiceáil thuas a chur i gcomparáid:
U(A) = -1 – 1 -1 + 10 = 7
U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5
Léiríonn na torthaí gurb é Beartas A an bealach is fearr chun an luach saothair a fháil. Mar sin, úsáidfidh an gníomhaire Conair A thar Bheartas B.
Taiscéalaíocht vs. Saothrú
Is aincheist í an fhadhb taiscéalaíochta vs dúshaothraithe san fhoghlaim atreisithe nach mór do ghníomhaire aghaidh a thabhairt air le linn an phróisis chinnidh.
Ar cheart do ghníomhairí díriú ar bhealaí nó ar roghanna nua a fhiosrú nó ar cheart dóibh leanúint ag baint leasa as na roghanna atá ar eolas acu cheana féin?
Má roghnaíonn an gníomhaire iniúchadh a dhéanamh, tá an deis ann don ghníomhaire rogha níos fearr a fháil, ach d'fhéadfadh sé go gcuirfí amú ama agus acmhainní i mbaol freisin. Ar an láimh eile, má roghnaíonn an gníomhaire leas a bhaint as an réiteach atá ar eolas aige cheana féin, seans go gcaillfidh sé rogha níos fearr.
Feidhmchláir Praiticiúla
Seo roinnt bealaí Taighdeoirí AI samhlacha foghlama treisithe a bheith curtha i bhfeidhm acu chun fadhbanna sa saol fíor a réiteach:
Foghlaim Neartú i gCluaisteáin Féin-Thiomána
Cuireadh an fhoghlaim treisithe i bhfeidhm ar ghluaisteáin féin-tiomána chun a gcumas tiomáint go sábháilte agus go héifeachtach a fheabhsú. Cuireann an teicneolaíocht ar chumas gluaisteáin uathrialacha foghlaim óna gcuid botún agus a n-iompraíocht a choigeartú go leanúnach chun a bhfeidhmíocht a bharrfheabhsú.
Mar shampla, an chuideachta AI atá bunaithe i Londain Bealach d'éirigh leis múnla foghlama treisithe domhain a chur i bhfeidhm maidir le tiomáint uathrialach. Ina dturgnamh, d'úsáid siad feidhm luaíochta a uasmhéadaíonn an méid ama a ritheann an fheithicil gan an tiománaí ar bord a sholáthar.
Cuidíonn samhlacha RL freisin le gluaisteáin cinntí a dhéanamh bunaithe ar an gcomhshaol, mar bhacainní a sheachaint nó a chumasc isteach sa trácht. Caithfidh na samhlacha seo bealach a aimsiú chun an timpeallacht chasta a bhaineann le carr a thiontú ina spás stáit ionadaíoch ar féidir leis an múnla a thuiscint.
Foghlaim Neartú i Róbataic
Tá taighdeoirí ag baint úsáide as foghlaim athneartaithe freisin chun róbait a fhorbairt ar féidir leo tascanna casta a fhoghlaim. Trí na samhlacha RL seo, bíonn róbait in ann a dtimpeallacht a bhreathnú agus cinntí a dhéanamh bunaithe ar a gcuid breathnuithe.
Mar shampla, tá taighde déanta ar mhúnlaí foghlama treisithe a úsáid chun ligean do róbait déchosach foghlaim conas siúl ina n-aonar.
Measann taighdeoirí go bhfuil RL ina phríomh-mhodh i réimse na róbataic. Tugann foghlaim treisithe creat oibre do ghníomhairí róbatacha chun gníomhartha sofaisticiúla a fhoghlaim a d’fhéadfadh a bheith deacair in innealtóireacht a dhéanamh ar bhealach eile.
Foghlaim Neartú sa Chearrbhachas
Baineadh úsáid as samhlacha RL freisin chun foghlaim conas físchluichí a imirt. Is féidir gníomhairí a bhunú chun foghlaim óna gcuid botún agus feabhas leanúnach a chur ar a bhfeidhmíocht sa chluiche.
Tá gníomhairí forbartha cheana féin ag taighdeoirí ar féidir leo cluichí cosúil le fichille, Téigh agus poker a imirt. In 2013, Deepmind úsáid Deep Atari Learning chun ligean do mhúnla foghlaim conas cluichí Atari a imirt ón tús.
Tá spás gníomhaíochta teoranta agus sprioc nithiúil dea-shainithe ag go leor cluichí boird agus cluichí físeáin. Feidhmíonn na tréithe seo chun buntáiste na samhla RL. Is féidir le modhanna RL níos mó ná na milliúin cluichí insamhlaithe a athrá go tapa chun na straitéisí is fearr a fhoghlaim chun bua a bhaint amach.
Conclúid
Cibé an bhfuil sé ag foghlaim conas siúl nó ag foghlaim conas cluichí físeáin a imirt, tá samhlacha RL cruthaithe mar chreataí úsáideacha AI chun fadhbanna a réiteach a éilíonn cinnteoireacht chasta.
De réir mar a leanann an teicneolaíocht ag teacht chun cinn, leanfaidh taighdeoirí agus forbróirí araon ag teacht ar iarratais nua a bhaineann leas as cumas féin-mhúinte an tsamhail.
Cad iad na feidhmeanna praiticiúla a bhféadfadh foghlaim athneartaithe cabhrú leo, dar leat?
Leave a Reply