Clàr-innse[Falaich][Seall]
Smaoinich gu bheil thu a’ feuchainn ri robot a theagasg mar a choisicheas tu. Eu-coltach ri bhith a’ teagasg coimpiutair mar a nì sinn ro-innse air prìsean stoc no mar a bhithear a’ seòrsachadh ìomhaighean, chan eil stòr-dàta mòr againn as urrainn dhuinn a chleachdadh gus an inneal-fuadain againn a thrèanadh.
Ged a dh’ fhaodadh e tighinn gu nàdarra dhut, tha coiseachd dha-rìribh na ghnìomhachd gu math toinnte. Mar as trice bidh coiseachd ceum a’ toirt a-steach dusanan de fhèithean eadar-dhealaichte ag obair còmhla. Tha an oidhirp agus na dòighean a thathas a’ cleachdadh airson coiseachd bho aon àite gu àite eile cuideachd an urra ri grunn nithean, a’ gabhail a-steach a bheil thu a’ giùlan rudeigin no a bheil leathad no cnapan-starra eile ann.
Ann an suidheachaidhean mar seo, is urrainn dhuinn modh ris an canar ionnsachadh neartachaidh no RL a chleachdadh. Le RL, faodaidh tu amas sònraichte a mhìneachadh a tha thu airson do mhodail fhuasgladh agus mean air mhean leigeil leis a’ mhodail ionnsachadh leis fhèin mar a choileanas tu e.
San artaigil seo, nì sinn sgrùdadh air bunaitean ionnsachadh neartachaidh agus mar as urrainn dhuinn am frèam RL a chuir an sàs ann an grunn dhuilgheadasan eadar-dhealaichte san fhìor shaoghal.
Dè a th’ ann an ionnsachadh neartachaidh?
Tha ionnsachadh neartachaidh a’ toirt iomradh air fo-sheata sònraichte de ionnsachadh innealan a tha ag amas air fuasglaidhean a lorg le bhith a’ toirt duais do ghiùlan a tha thu ag iarraidh agus a’ peanasachadh giùlan neo-mhiannach.
Eu-coltach ri ionnsachadh fo stiùir, mar as trice chan eil dàta trèanaidh aig an dòigh ionnsachaidh neartachaidh a bheir seachad an toradh ceart airson cuir a-steach sònraichte. Às aonais dàta trèanaidh, feumaidh an algairim am fuasgladh a lorg tro dheuchainn agus mearachd. Tha an algairim, air a bheil sinn mar as trice a’ toirt iomradh mar an àidseant, feumaidh am fuasgladh a lorg leis fhèin le bhith ag eadar-obrachadh leis an àrainneachd.
Bidh luchd-rannsachaidh a 'co-dhùnadh dè na builean sònraichte a th' ann duais agus na tha an algairim comasach air a dhèanamh. A h-uile gnìomha gheibh an algairim fios air ais de sheòrsa air choreigin a chomharraicheas cho math sa tha an algairim a’ dèanamh. Rè a 'phròiseas trèanaidh, bidh an algairim mu dheireadh a' lorg am fuasgladh as fheàrr airson fuasgladh fhaighinn air duilgheadas sònraichte.
Eisimpleir shìmplidh: Grid 4 × 4
Bheir sinn sùil air eisimpleir shìmplidh de dhuilgheadas as urrainn dhuinn fhuasgladh le ionnsachadh ath-neartachaidh.
Seach gu bheil cliath 4 × 4 againn mar an àrainneachd againn. Tha an neach-ionaid againn air a chuir air thuaiream ann an aon de na ceàrnagan còmhla ri beagan chnapan-starra. Bidh trì cnapan-starra “sloc” anns a’ ghriod a dh’ fheumar a sheachnadh agus aon duais “daoimean” a dh’ fheumas an neach-ionaid a lorg. Canar an àrainneachd ris an tuairisgeul iomlan air an àrainneachd againn stàite.
Anns a’ mhodal RL againn, faodaidh an neach-ionaid againn gluasad gu ceàrnag sam bith a tha faisg air làimh fhad ‘s nach eil cnapan-starra gan bacadh. Canar an seata de ghnìomhan dligheach uile ann an àrainneachd shònraichte àite gnìomh. Is e amas ar neach-ionaid an t-slighe as giorra a lorg chun duais.
Cleachdaidh an neach-ionaid againn an dòigh ionnsachaidh neartachaidh gus an t-slighe chun daoimean a lorg a dh’ fheumas an ìre as lugha de cheumannan. Bheir gach ceum ceart duais don inneal-fuadain agus bheir gach ceum ceàrr air falbh duais an robot. Bidh am modail a’ tomhas an duais iomlan aon uair ‘s gun ruig an neach-ionaid an daoimean.
A-nis gu bheil sinn air an neach-ionaid agus an àrainneachd a mhìneachadh, feumaidh sinn cuideachd na riaghailtean a mhìneachadh airson an ath ghnìomh a nì an neach-ionaid leis an staid làithreach agus an àrainneachd a dhearbhadh.
Poileasaidhean agus Duaisean
Ann am modail ionnsachaidh ath-neartachaidh, a poileasaidh a’ toirt iomradh air an ro-innleachd a bhios àidseant a’ cleachdadh gus na h-amasan aca a choileanadh. Is e poileasaidh an neach-ionaid a bhios a’ co-dhùnadh dè an ath rud a bu chòir don àidseant a dhèanamh leis mar a tha an neach-ionaid agus an àrainneachd aig an àm seo.
Feumaidh an neach-ionaid measadh a dhèanamh air a h-uile poileasaidh a dh’ fhaodadh a bhith ann gus faicinn dè am poileasaidh as fheàrr.
Anns an eisimpleir shìmplidh againn, tillidh tu a-steach air àite falamh luach -1. Nuair a thig an neach-ionaid air tìr air àite leis an duais daoimean, gheibh iad luach 10. A' cleachdadh nan luachan sin, 's urrainn dhuinn coimeas a dhèanamh eadar na diofar phoileasaidhean a' cleachdadh a gnìomh goireasach U.
Dèanamaid coimeas a-nis dè cho feumail sa tha an dà phoileasaidh a chithear gu h-àrd:
U(A) = -1 – 1 -1 + 10 = 7
U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5
Tha na co-dhùnaidhean a’ sealltainn gur e Poileasaidh A an dòigh as fheàrr air an duais a lorg. Mar sin, cleachdaidh an neach-ionaid Slighe A thairis air Poileasaidh B.
Rannsachadh vs
Tha an duilgheadas malairt sgrùdaidh vs. brathaidh ann an ionnsachadh ath-neartachaidh na dhileab a dh’ fheumas a bhith aig neach-ionaid tron phròiseas co-dhùnaidh.
Am bu chòir do riochdairean fòcas a chuir air a bhith a’ sgrùdadh slighean no roghainnean ùra no am bu chòir dhaibh cumail orra a’ cleachdadh nan roghainnean air a bheil iad eòlach mu thràth?
Ma roghnaicheas an neach-ionaid sgrùdadh a dhèanamh, tha e comasach don neach-ionaid roghainn nas fheàrr a lorg, ach dh’ fhaodadh e cuideachd ùine agus goireasan a chaitheamh. Air an làimh eile, ma roghnaicheas an neach-ionaid brath a ghabhail air an fhuasgladh air a bheil e eòlach mu thràth, is dòcha gun caill e roghainn nas fheàrr.
Tagraidhean Practaigeach
Seo cuid de dhòighean Luchd-rannsachaidh AI air modalan ionnsachaidh ath-neartachaidh a chuir an sàs gus fuasgladh fhaighinn air duilgheadasan san t-saoghal fhìor:
Ionnsachadh Daingneachaidh ann an càraichean fèin-dràibhidh
Thathas air ionnsachadh neartachaidh a chuir an sàs ann an càraichean fèin-dràibhidh gus an comas draibheadh gu sàbhailte agus gu h-èifeachdach a leasachadh. Tha an teicneòlas a’ toirt comas do chàraichean fèin-riaghailteach ionnsachadh bho na mearachdan aca agus an giùlan atharrachadh gu cunbhalach gus an coileanadh as fheàrr a dhèanamh.
Mar eisimpleir, companaidh AI stèidhichte ann an Lunnainn Bealach air modal ionnsachaidh neartachaidh domhainn a chuir an sàs airson draibheadh fèin-riaghailteach. Anns an deuchainn aca, chleachd iad gnìomh duais a tha a’ meudachadh na h-ùine a bhios an carbad a’ ruith às aonais an draibhear air bòrd a’ toirt a-steach.
Bidh modalan RL cuideachd a’ cuideachadh chàraichean gus co-dhùnaidhean a dhèanamh stèidhichte air an àrainneachd, leithid cnapan-starra a sheachnadh no tighinn còmhla ri trafaic. Feumaidh na modailean sin dòigh a lorg gus an àrainneachd iom-fhillte timcheall air càr a thionndadh gu bhith na àite stàite riochdachail a thuigeas am modail.
Ionnsachadh Neartachadh ann an Robotics
Tha luchd-rannsachaidh cuideachd air a bhith a’ cleachdadh ionnsachadh neartachaidh gus innealan-fuadain a leasachadh as urrainn gnìomhan iom-fhillte ionnsachadh. Tro na modalan RL sin, bidh e comasach dha innealan-fuadain an àrainneachd aca fhaicinn agus co-dhùnaidhean a dhèanamh stèidhichte air na beachdan aca.
Mar eisimpleir, chaidh rannsachadh a dhèanamh air a bhith a’ cleachdadh mhodalan ionnsachaidh neartachaidh gus leigeil le innealan-fuadain dà-chasach ionnsachadh mar a nì iad coiseachd leotha fhèin.
Tha luchd-rannsachaidh den bheachd gu bheil RL na phrìomh dhòigh ann an raon robotics. Tha ionnsachadh neartachaidh a’ toirt frèam do riochdairean robotach gus gnìomhan sòlaimte ionnsachadh a dh’ fhaodadh a bhith duilich eile innleachadh.
Ionnsachadh Neartachadh ann an Gaming
Chaidh modalan RL a chleachdadh cuideachd gus ionnsachadh mar a chluicheas tu geamannan bhidio. Faodar riochdairean a chuir air dòigh gus ionnsachadh bho na mearachdan aca agus an coileanadh sa gheama a leasachadh gu cunbhalach.
Tha luchd-rannsachaidh air riochdairean a leasachadh mar-thà as urrainn geamannan a chluich leithid tàileasg, Go, agus poker. Ann an 2013, Deepmind chleachd iad Ionnsachadh Neartachadh domhainn gus leigeil le modail ionnsachadh mar a chluicheas e geamannan Atari bhon fhìor thoiseach.
Tha raon gnìomh cuibhrichte aig mòran gheamannan bùird agus geamannan bhidio agus amas cruadhtan air a dheagh mhìneachadh. Bidh na feartan sin ag obair gu buannachd a’ mhodail RL. Faodaidh modhan RL ath-aithris gu sgiobalta thairis air milleanan de gheamannan samhlachail gus na ro-innleachdan as fheàrr ionnsachadh airson buaidh a choileanadh.
Co-dhùnadh
Co-dhiù a tha e ag ionnsachadh mar a choisicheas tu no ag ionnsachadh mar a chluicheas tu geamannan bhidio, chaidh modalan RL a dhearbhadh mar fhrèaman AI feumail airson fuasgladh fhaighinn air duilgheadasan a dh’ fheumas co-dhùnaidhean iom-fhillte.
Mar a bhios an teicneòlas a’ sìor fhàs, cumaidh an dà chuid luchd-rannsachaidh agus luchd-leasachaidh a’ lorg thagraidhean ùra a ghabhas brath air comas fèin-theagasg a’ mhodail.
Dè na cleachdaidhean practaigeach a tha thu a’ smaoineachadh a chuidicheas ionnsachadh ath-neartachaidh leotha?
Leave a Reply