د پیاوړتیا زده کړه: AI چې د خپلو غلطیو څخه زده کوي

فهرست[پټ][ښکاره]

د پیاوړتیا زده کړه څه ده؟
یوه ساده بیلګه: 4×4 گرډ+-
- پالیسۍ او انعامونه
- سپړنه او استخراج
عملي غوښتنلیکونه+-
پایله

راځئ تصور وکړو چې تاسو هڅه کوئ یو روبوټ ته د تګ کولو څرنګوالی زده کړئ. د کمپیوټر د زده کړې برعکس چې څنګه د سټاک قیمتونو وړاندوینه وکړي یا عکسونه طبقه بندي کړي ، موږ واقعیا لوی ډیټاسیټ نلرو چې موږ یې د خپل روبوټ روزنې لپاره وکاروو.

پداسې حال کې چې دا ممکن په طبیعي ډول تاسو ته راشي، چلول واقعا یو خورا پیچلي عمل دی. د یو ګام چلول معمولا په لسګونو مختلف عضلات شامل دي چې یوځای کار کوي. هغه هڅې او تخنیکونه چې د یو ځای څخه بل ځای ته د تګ لپاره کارول کیږي هم په مختلفو فکتورونو پورې اړه لري، پشمول د دې په شمول چې ایا تاسو یو څه لیږدئ یا د خنډ یا بل ډول ډول خنډونه شتون لري.

د دې په څیر سناریوګانو کې، موږ کولی شو یو میتود وکاروو چې د پیاوړتیا زده کړې یا RL په نوم پیژندل کیږي. د RL سره، تاسو کولی شئ یو ځانګړی هدف تعریف کړئ چې تاسو غواړئ خپل ماډل حل کړئ او ورو ورو موډل ته اجازه ورکړئ چې دا پخپله زده کړي چې څنګه یې ترسره کړي.

پدې مقاله کې، موږ به د پیاوړتیا زده کړې اساسات وپلټئ او څنګه کولی شو په ریښتینې نړۍ کې د مختلفو ستونزو لپاره د RL چوکاټ پلي کړو.

د پیاوړتیا زده کړه څه ده؟

د پیاوړتیا زده کړه یو ځانګړي فرعي سیټ ته اشاره کوي ماشین زده کړه چې د مطلوب چلندونو په بدلولو او د ناغوښتل شوي چلندونو په سزا ورکولو سره د حل لارې موندلو تمرکز کوي.

د پیاوړتیا د زده کړې چوکاټ ډیاګرام

د څارنې زده کړې برعکس، د پیاوړتیا زده کړې طریقه معمولا د روزنې ډیټاسیټ نلري چې د ورکړل شوي ان پټ لپاره سم محصول چمتو کوي. د روزنې معلوماتو په نشتوالي کې، الګوریتم باید د آزموینې او تېروتنې له لارې حل ومومي. الګوریتم، کوم چې موږ عموما ورته اشاره کوو اجنټ، باید پخپله د حل لاره ومومي چاپیریال.

څیړونکي د کومې ځانګړې پایلې په اړه پریکړه کوي انعام او الګوریتم د څه کولو توان لري. هر د عمل د الګوریتم اخیستل به یو څه فیډبیک ترلاسه کړي چې د الګوریتم څومره ښه کار کوي. د روزنې پروسې په جریان کې، الګوریتم به په پای کې د یوې ځانګړې ستونزې حل کولو لپاره غوره حل ومومي.

یوه ساده بیلګه: 4×4 گرډ

راځئ چې د یوې ستونزې ساده مثال ته وګورو چې موږ کولی شو د پیاوړتیا زده کړې سره حل کړو.

فرض کړئ چې موږ د خپل چاپیریال په توګه 4 × 4 گرډ لرو. زموږ اجنټ د یو څو خنډونو سره په تصادفي ډول په یوه چوکۍ کې ځای په ځای شوی. گرډ باید درې "پټ" خنډونه ولري چې باید مخنیوی وشي او یو واحد "هیر" انعام چې اجنټ باید ومومي. زموږ د چاپیریال بشپړ توضیح د چاپیریال په نوم پیژندل کیږي دولت.

د پیاوړتیا زده کړه په یوه اجنټ باندې تکیه کوي چې د سمول شوي چاپیریال سره اړیکه لري

زموږ په RL ماډل کې، زموږ اجنټ کولی شي هر نږدې مربع ته لاړ شي تر هغه چې د دوی د مخنیوي لپاره کوم خنډونه شتون نلري. په یو ورکړل شوي چاپیریال کې د ټولو معتبرو کړنو مجموعه په نوم پیژندل کیږي د عمل ځای. زموږ د اجنټ هدف د انعام لپاره ترټولو لنډه لاره موندل دي.

اجنټ په یوه ورکړل شوي حالت کې د عمل ځای یا د اعتبار وړ کړنو سیټ لري

زموږ اجنټ به د تقویت زده کړې میتود وکاروي ترڅو الماس ته لاره ومومي چې لږترلږه ګامونو ته اړتیا لري. هر سم ګام به روبوټ ته انعام ورکړي او هر غلط ګام به د روبوټ اجر کم کړي. ماډل ټول انعام محاسبه کوي کله چې اجنټ الماس ته ورسیږي.

اوس چې موږ ایجنټ او چاپیریال تعریف کړی، موږ باید د راتلونکي عمل ټاکلو لپاره د کارولو مقررات هم تعریف کړو چې اجنټ به خپل اوسني حالت او چاپیریال ته په پام سره ترسره کړي.

پالیسۍ او انعامونه

د پیاوړتیا زده کړې ماډل کې، a د پالیسۍ هغه ستراتیژۍ ته اشاره کوي چې د اجنټ لخوا د خپلو اهدافو د ترسره کولو لپاره کارول کیږي. د اجنټ پالیسي هغه څه دي چې د اجنټ اوسني حالت او چاپیریال ته په کتو سره پریکړه کوي چې اجنټ باید څه وکړي.

اجنټ باید ټولې ممکنه پالیسۍ ارزونه وکړي ترڅو وګوري چې کومه پالیسي غوره ده.

د پالیسیو ارزونه

زموږ په ساده مثال کې، په خالي ځای کې کښته کول به د -1 ارزښت بیرته راولي. کله چې اجنټ د الماس انعام سره په یوه ځای کې ځای په ځای شي، دوی به د 10 ارزښت ترلاسه کړي. د دې ارزښتونو په کارولو سره، موږ کولی شو د مختلفو پالیسیو په کارولو سره پرتله کړو. د کارونې فعالیت U.

راځئ چې اوس د پورته لیدل شویو دوو پالیسیو ګټورتیا پرتله کړو:

U(A) = -1 – 1 -1 + 10 = 7

U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5

پایلې ښیي چې پالیسي A د انعام موندلو لپاره غوره لاره ده. په دې توګه، اجنټ به د B پالیسي په پرتله لاره A وکاروي.

سپړنه او استخراج

د استخراج په مقابل کې د استثمار د سوداګرۍ ستونزه د پیاوړتیا په زده کړه کې یوه ستونزه ده چې یو استازی باید د پریکړې پروسې په جریان کې ورسره مخ شي.

ایا اجنټان باید د نویو لارو یا اختیارونو په سپړلو تمرکز وکړي یا دوی باید د هغه اختیارونو استخراج ته دوام ورکړي چې دوی دمخه پوهیږي؟

که چیرې اجنټ سپړنه غوره کړي، نو د اجنټ لپاره د غوره انتخاب موندلو امکان شتون لري، مګر دا ممکن د وخت او سرچینو ضایع کیدو خطر هم ولري. له بلې خوا، که اجنټ د هغه حل څخه ګټه پورته کړي چې دمخه یې پوهیږي، دا ممکن یو غوره انتخاب له لاسه ورکړي.

عملي غوښتنلیکونه

دلته ځینې لارې دي د AI څیړونکي د ریښتینې نړۍ ستونزې حل کولو لپاره د پیاوړتیا زده کړې ماډل پلي کړي:

په ځان چلولو موټرو کې د پیاوړتیا زده کړه

د پیاوړتیا زده کړه د ځان چلولو موټرو باندې پلي شوې ترڅو د خوندي او مؤثره موټر چلولو وړتیا ته وده ورکړي. ټیکنالوژي خپلواکه موټرو ته وړتیا ورکوي چې له خپلو غلطیو څخه زده کړي او په دوامداره توګه خپل چلند تنظیم کړي ترڅو د دوی فعالیت ښه کړي.

د پیاوړتیا زده کړه د ځان چلولو لپاره کارول کیږي

د مثال په توګه، د لندن میشته AI شرکت لاره د خپلواک موټر چلولو لپاره د ژور تقویت زده کړې ماډل په بریالیتوب سره پلي کړی. د دوی په تجربه کې ، دوی د انعام فعالیت کارولی چې د موټر چلونکي پرته د ان پټ چمتو کولو پرته د موټر چلولو وخت اعظمي کوي.

RL ماډلونه هم د موټرو سره د چاپیریال پراساس پریکړې کولو کې مرسته کوي ، لکه د خنډونو مخنیوی یا په ترافیک کې ضمیمه. دا ماډلونه باید یوه لاره ومومي چې د موټر شاوخوا پیچلي چاپیریال په یوه نمایشي دولتي ځای کې بدل کړي چې ماډل یې درک کولی شي.

په روبوټکس کې د پیاوړتیا زده کړه

څیړونکي د روبوټونو رامینځته کولو لپاره د پیاوړتیا زده کړې هم کاروي چې کولی شي پیچلي دندې زده کړي. د دې RL ماډلونو له لارې، روبوټ کولی شي خپل چاپیریال وڅاري او د دوی د مشاهدو پراساس پریکړې وکړي.

د مثال په توګه، د پیاوړتیا زده کړې ماډلونو کارولو په اړه څیړنې ترسره شوي ترڅو د بایپډال روبوټونو ته اجازه ورکړي چې څنګه زده کړي. ځي په خپله.

د پیاوړتیا زده کړه د روبوټ چلولو ښوونه کوي

څیړونکي RL د روبوټکس په برخه کې کلیدي میتود ګڼي. د پیاوړتیا زده کړه روبوټیک اجنټانو ته یو چوکاټ ورکوي ترڅو پیچلي عملونه زده کړي چې ممکن د انجینر لپاره ستونزمن وي.

په لوبو کې د پیاوړتیا زده کړه

RL ماډلونه د ویډیو لوبو لوبولو څرنګوالي زده کولو لپاره هم کارول شوي. اجنټان د دوی له غلطیو زده کولو لپاره تنظیم کیدی شي او په دوامداره توګه په لوبو کې د دوی فعالیت ښه کړي.

څیړونکو لا دمخه داسې اجنټان رامینځته کړي چې کولی شي لوبې وکړي لکه شطرنج ، ګو ، او پوکر. په 2013 کې، ډیمپینډ د ژور تقویت زده کړې کارول شوي ترڅو ماډل ته اجازه ورکړي چې زده کړي چې څنګه له سکریچ څخه د اټاري لوبې لوبوي.

ډیری بورډ لوبې او ویډیو لوبې د عمل محدود ځای او یو ښه تعریف شوی کانکریټ هدف لري. دا ځانګړتیاوې د RL ماډل په ګټه کار کوي. د RL میتودونه کولی شي په ګړندۍ توګه د ملیونونو څخه ډیر ترکیب شوي لوبې تکرار کړي ترڅو د بریا ترلاسه کولو لپاره غوره ستراتیژیو زده کړي.

پایله

که چیرې دا د چلولو څرنګوالی زده وي یا د ویډیو لوبو لوبولو څرنګوالی زده کړي ، RL ماډلونه د ستونزو حل کولو لپاره ګټور AI چوکاټونه ثابت شوي چې پیچلي پریکړې کولو ته اړتیا لري.

لکه څنګه چې ټیکنالوژي پرمختګ ته دوام ورکوي، دواړه څیړونکي او پراختیا کونکي به د نوي غوښتنلیکونو موندلو ته دوام ورکړي چې د ماډل د ځان ښوونې وړتیا څخه ګټه پورته کړي.

تاسو فکر کوئ چې کوم عملي غوښتنلیکونه د پیاوړتیا زده کړې سره مرسته کولی شي؟

د پیاوړتیا زده کړه: AI چې د خپلو غلطیو څخه زده کوي

د پیاوړتیا زده کړه څه ده؟