Ka em bifikirin ku hûn hewl didin ku robotek çawa bimeşe hîn bikin. Berevajî hînkirina komputerek ku meriv çawa bihayên stokan pêşbîn dike an wêneyan kategorîze dike, em bi rastî danegehek mezin a ku em bikarin ji bo perwerdekirina robotê xwe bikar bînin tune ne.
Her çend dibe ku ew bi xwezayî ji we re were, meşîn bi rastî çalakiyek pir tevlihev e. Meşa gavekê bi gelemperî bi dehan masûlkeyên cihêreng bi hev re dixebitin. Hewl û teknîkên ku ji bo rêveçûna ji cîhek berbi cîhek din têne bikar anîn jî bi gelek faktoran ve girêdayî ye, di nav de gelo hûn tiştek hildigirin an meylek an celebên din ên astengî hene.
Di senaryoyên mîna van de, em dikarin rêbazek ku wekî fêrbûna xurtkirinê an RL tê zanîn bikar bînin. Bi RL-ê re, hûn dikarin armancek taybetî ya ku hûn dixwazin modela we çareser bike diyar bikin û hêdî hêdî bihêlin ku model bi xwe fêr bibe ka meriv çawa wiya pêk tîne.
Di vê gotarê de, em ê bingehên fêrbûna bihêzkirinê bikolin û ka em çawa dikarin çarçoweya RL-ê li cîhana rastîn li cûrbecûr pirsgirêkên cihêreng bicîh bînin.
Fêrbûna xurtkirinê çi ye?
Fêrbûna xurtkirinê ji binkeyek taybetî re vedibêje fêrbûna makîneyê ku balê dikişîne ser dîtina çareseriyan bi xelatkirina tevgerên xwestî û cezakirina tevgerên nexwestî.
Berevajî fêrbûna çavdêrîkirî, rêbaza fêrbûna xurtkirinê bi gelemperî xwedan databasek perwerdehiyê nîne ku ji bo têketinek diyar encamek rast peyda dike. Di nebûna daneyên perwerdehiyê de, divê algorîtma çareseriyê bi ceribandin û xeletiyê bibîne. Algorîtmaya ku em bi gelemperî wekî an casus, divê çareserîyê bi xwe re bi danûstandinê re bibîne dor.
Lêkolîner biryar didin ka kîjan encamên taybetî xelata û ya ku algorîtma karibe çi bike. Herkes çalakî algorîtma digire dê hin formek bertek werdigire ku destnîşan dike ka algorîtma çiqas baş dike. Di pêvajoya perwerdehiyê de, algorîtm dê di dawiyê de çareseriya çêtirîn bibîne ku pirsgirêkek çareser bike.
Mînakek Hêsan: 4×4 Grid
Ka em li mînakek hêsan a pirsgirêkek ku em dikarin bi fêrbûna xurtkirinê çareser bikin binêrin.
Bifikirin ku wekî hawîrdora me grîdek 4×4 heye. Nûnerê me li yek ji meydanan tevî çend astengan bi rengekî rasthatî tê danîn. Tûr dê sê astengên "pit" yên ku divê werin dûr xistin û xelatek yek "almas" ya ku ajan divê bibîne hebe. Danasîna tevahî ya hawîrdora me wekî jîngehê tê zanîn rewş.
Di modela meya RL-ê de, nûnerê me dikare biçe her çarçoveyek cîran heya ku astengî li pêşiya wan nebin. Komek hemî kiryarên derbasdar di hawîrdorek diyarkirî de wekî tê zanîn qada çalakiyê. Armanca nûnerê me ew e ku riya herî kurt a xelatê bibîne.
Nûnerê me dê rêbaza fêrbûna bihêzkirinê bikar bîne da ku riya almasê ya ku herî kêm gav hewce dike bibîne. Her gavek rast dê xelatek bide robot û her gavek xelet dê xelata robot kêm bike. Dema ku ajan digihîje elmasê, model xelata tevahî hesab dike.
Naha ku me ajan û hawîrdor diyar kir, divê em qaîdeyên ku ji bo destnîşankirina çalakiya din a ku dê ji ber rewşa xwe ya heyî û hawîrdorê re bikar bînin bikar bînin destnîşan bikin.
Polîtîkayên û Xelat
Di modela fêrbûna bihêzkirinê de, a tektîk vedibêje stratejiya ku ji hêla karmendek ve hatî bikar anîn da ku armancên xwe pêk bîne. Siyaseta ajanê ew e ku ji ber rewşa heyî ya ajan û hawîrdora wê biryar dide ku ajan paşê çi bike.
Pêdivî ye ku nûner hemî polîtîkayên gengaz binirxîne da ku bibîne ka kîjan polîtîka çêtirîn e.
Di mînaka meya hêsan de, daketina li cîhek vala dê nirxek -1 vegerîne. Gava ku ajan li cîhek bi xelata elmasê dadikeve, ew ê nirxek 10 werbigirin. Bi karanîna van nirxan, em dikarin polîtîkayên cihêreng bi karanîna a fonksiyona bikêrhatî U.
Ka em naha karanîna du polîtîkayên ku li jor hatine dîtin bidin ber hev:
U(A) = -1 – 1 -1 + 10 = 7
U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5
Encam destnîşan dikin ku Siyaseta A ji bo dîtina xelatê riya çêtir e. Bi vî rengî, ajan dê Rêya A li ser Siyaseta B bikar bîne.
Kêşkirin li hember îstismarkirinê
Pirsgirêka keşf û îstismarkirinê di fêrbûna xurtkirinê de dubendiyek e ku divê ajan di pêvajoya biryarê de rû bi rû bimîne.
Ma ajan divê balê bikişînin ser lêgerîna rê û vebijarkên nû an divê ew îstismarkirina vebijarkên ku jixwe dizanin bidomînin?
Ger ajan vekolînê hildibijêre, îhtîmalek heye ku ajan vebijarkek çêtir bibîne, lê dibe ku xetera windakirina dem û çavkaniyan jî hebe. Ji hêla din ve, heke ajan hilbijêre ku çareseriya ku ew jixwe dizane bikar bîne, dibe ku ew vebijarkek çêtir ji dest bide.
Serketên praktîkî
Li vir çend awayan hene lêkolînerên AI ji bo çareserkirina pirsgirêkên cîhana rastîn modelên fêrbûna hêzdarkirinê sepandiye:
Di Otomobîlên Xwe-Ajovan de Fêrbûna Hêzdarkirinê
Fêrbûna bihêzkirinê li ser otomobîlên xwe-ajotinê hatiye sepandin da ku kapasîteya wan a ajotina bi ewlehî û bi bandor baştir bike. Teknolojî dihêle ku otomobîlên xweser ji xeletiyên xwe fêr bibin û bi domdarî tevgera xwe rast bikin da ku performansa xwe xweştir bikin.
Mînakî, pargîdaniya AI-ya London-ê Wayve ji bo ajotina xweser modelek fêrbûna xurtkirina kûr bi serfirazî sepandiye. Di ceribandina xwe de, wan fonksiyonek xelatê bikar anîn ku dema ku wesayît direve bêyî ku ajokar li ser rê têketinê peyda bike zêde dike.
Modelên RL di heman demê de ji otomobîlan re dibe alîkar ku li gorî jîngehê biryar bidin, mîna dûrketina ji astengiyan an yekbûna nav trafîkê. Pêdivî ye ku ev model rêyek bibînin ku hawîrdora tevlihev a li dora otomobîlê veguherîne cîhek dewleta nûnerê ku model dikare fêm bike.
Di Robotîkê de Fêrbûna Hêzdarkirinê
Lekolînwan her weha fêrbûna bihêzkirinê bikar tînin da ku robotên ku dikarin karên tevlihev fêr bibin pêşve bibin. Bi van modelên RL, robot dikarin hawîrdora xwe bişopînin û li gorî çavdêriyên xwe biryaran bidin.
Mînakî, lêkolîn li ser karanîna modelên fêrbûna hêzdarkirinê hate kirin da ku rê bidin robotên bipedal ku fêr bibin ka meriv çawa gerrik bi xwe.
Lêkolîner RL di warê robotîkê de rêbazek sereke ye. Fêrbûna bihêzkirinê çarçoveyek dide ajanên robotîkî da ku fêrbûna kiryarên sofîstîke yên ku dibe ku ji bo endezyarkirina wan dijwar be.
Di Gaming de Fêrbûna Bihêzkirin
Modelên RL jî ji bo fêrbûna lîstikên vîdyoyê têne bikar anîn. Ajan dikarin werin saz kirin ku ji xeletiyên xwe fêr bibin û bi domdarî performansa xwe di lîstikê de baştir bikin.
Lekolînwanan berê ajanên ku dikarin lîstikên wekî şetrenc, Go, û pokerê bilîzin pêşve xistine. Di sala 2013 de, Deepmind Fêrbûna Deep Reinforcement bikar anî da ku rê bide modelek ku fêr bibe ka meriv çawa lîstikên Atari ji nû ve lîst.
Gelek lîstikên panelê û lîstikên vîdyoyê cîhek çalakiyê ya tixûbdar û armancek berbiçav a diyarkirî heye. Van taybetmendiyan di berjewendiya modela RL de dixebitin. Rêbazên RL dikarin zû bi mîlyonan lîstikên simulasyonê dubare bikin da ku stratejiyên çêtirîn fêr bibin da ku bigihîjin serketinê.
Xelasî
Ka ew fêr dibe ka meriv çawa dimeşe an fêr dibe ka meriv çawa lîstikên vîdyoyê lîstiye, modelên RL-ê hatine îsbat kirin ku ji bo çareserkirina pirsgirêkên ku hewceyê biryarek tevlihev in çarçoveyek AI-yê bikêr in.
Her ku teknolojî pêşdeçûn berdewam dike, hem lêkolîner û hem jî pêşdebiran dê berdewam bikin ku serîlêdanên nû bibînin ku ji kapasîteya xwe-hînkirina modelê sûd werdigirin.
Ma hûn difikirin ku hînbûna xurtkirinê dikare bi kîjan serîlêdanên pratîkî re bibe alîkar?
Leave a Reply