စက်ရုပ်တစ်ရုပ်ကို လမ်းလျှောက်နည်းသင်ပေးဖို့ ကြိုးစားနေတယ်လို့ စိတ်ကူးကြည့်ရအောင်။ ကွန်ပြူတာတစ်လုံးအား စတော့စျေးနှုန်းများ ကြိုတင်ခန့်မှန်းရန် သို့မဟုတ် ပုံများကို အမျိုးအစားခွဲနည်းကို သင်ကြားပေးခြင်းနှင့်မတူဘဲ၊ ကျွန်ုပ်တို့တွင် ကျွန်ုပ်တို့၏ စက်ရုပ်ကို လေ့ကျင့်ရန် အသုံးပြုနိုင်သည့် ဒေတာအစုကြီးတစ်ခု မရှိပါ။
၎င်းသည် သင့်ထံ သဘာဝအတိုင်း ရောက်ရှိလာနိုင်သော်လည်း လမ်းလျှောက်ခြင်းသည် အမှန်တကယ်တွင် အလွန်ရှုပ်ထွေးသော လုပ်ဆောင်မှုတစ်ခုဖြစ်သည်။ ခြေလှမ်းတစ်လှမ်းကို လျှောက်ခြင်းသည် ပုံမှန်အားဖြင့် မတူညီသော ကြွက်သားများစွာဖြင့် အတူတကွ လုပ်ဆောင်လေ့ရှိသည်။ တစ်နေရာမှ တစ်နေရာသို့ လျှောက်လှမ်းရာတွင် အသုံးပြုသော အားထုတ်မှုနှင့် နည်းစနစ်များသည် တစ်စုံတစ်ခုကို သယ်ဆောင်ခြင်းရှိမရှိ သို့မဟုတ် တိမ်းစောင်းသွားခြင်း သို့မဟုတ် အခြားအတားအဆီးပုံစံများ ရှိမရှိအပါအဝင် အချက်များစွာပေါ်တွင်လည်း မူတည်ပါသည်။
ဤကဲ့သို့သောအခြေအနေများတွင် အားဖြည့်သင်ကြားခြင်း သို့မဟုတ် RL ဟုလူသိများသောနည်းလမ်းကို ကျွန်ုပ်တို့အသုံးပြုနိုင်ပါသည်။ RL ဖြင့်၊ သင်သည် သင့်မော်ဒယ်ကို ဖြေရှင်းလိုသော တိကျသောပန်းတိုင်တစ်ခုကို သတ်မှတ်နိုင်ပြီး ၎င်းကို ပြီးမြောက်အောင်ပြုလုပ်နည်းကို ၎င်း၏ကိုယ်ပိုင်ပုံစံဖြင့် တဖြည်းဖြည်းလေ့လာခွင့်ပြုပါ။
ဤဆောင်းပါးတွင်၊ အားဖြည့်သင်ကြားခြင်း၏အခြေခံများနှင့် RL မူဘောင်ကို လက်တွေ့ကမ္ဘာရှိ မတူညီသောပြဿနာအမျိုးမျိုးတွင် မည်သို့အသုံးချနိုင်ပုံကို လေ့လာပါမည်။
အားဖြည့်သင်ယူခြင်းဟူသည် အဘယ်နည်း။
အားဖြည့်သင်ကြားမှု ဆိုသည်မှာ သီးခြားအုပ်စုခွဲတစ်ခုကို ရည်ညွှန်းသည်။ စက်သင်ယူမှု လိုချင်သောအပြုအမူများကို ဆုချခြင်းနှင့် မလိုလားအပ်သောအပြုအမူများကို အပြစ်ပေးခြင်းဖြင့် အဖြေရှာခြင်းအပေါ် အာရုံစိုက်သည်။
ကြီးကြပ်ထားသော သင်ယူမှုနှင့် မတူဘဲ အားဖြည့်သင်ကြားမှုနည်းလမ်းတွင် ပုံမှန်အားဖြင့် ပေးထားသော ထည့်သွင်းမှုအတွက် မှန်ကန်သော output ကို ပံ့ပိုးပေးသည့် လေ့ကျင့်ရေးဒေတာအတွဲတစ်ခု မရှိပါ။ လေ့ကျင့်ရေးဒေတာမရှိသောအခါ၊ အယ်လဂိုရီသမ်သည် အစမ်းနှင့် အမှားမှတစ်ဆင့် အဖြေကိုရှာရပါမည်။ ကျွန်ုပ်တို့ အများအားဖြင့် ရည်ညွှန်းသော အယ်လဂိုရီသမ် ကိုယ်စားလှယ်၊ နှင့် ထိတွေ့ဆက်ဆံခြင်းဖြင့် အဖြေရှာရမည် ပတ်ဝန်းကျင်.
သုတေသီများသည် မည်သည့်ရလဒ်များ ထွက်ပေါ်လာမည်ကို ဆုံးဖြတ်ကြသည်။ ဆုလာဘ် နှင့် algorithm သည် မည်သို့လုပ်ဆောင်နိုင်သနည်း။ တိုင်း လှုပ်ရှားမှု အသုံးပြုသော algorithm သည် algorithm မည်မျှကောင်းမွန်သည်ကို အမှတ်ပေးသည့် တုံ့ပြန်မှုပုံစံအချို့ကို လက်ခံရရှိမည်ဖြစ်သည်။ လေ့ကျင့်ရေးလုပ်ငန်းစဉ်အတွင်း၊ algorithm သည် အချို့သောပြဿနာတစ်ခုအား ဖြေရှင်းရန် အကောင်းဆုံးဖြေရှင်းချက်ကို နောက်ဆုံးတွင် တွေ့ရှိမည်ဖြစ်သည်။
ရိုးရှင်းသော ဥပမာ- 4×4 ဂရစ်
အားဖြည့်သင်ကြားမှုဖြင့် ဖြေရှင်းနိုင်သော ပြဿနာတစ်ခု၏ ရိုးရှင်းသော ဥပမာကို ကြည့်ကြပါစို့။
ကျွန်ုပ်တို့၏ပတ်ဝန်းကျင်တွင် 4×4 ဇယားကွက်တစ်ခုရှိသည်ဆိုပါစို့။ ကျွန်ုပ်တို့၏အေးဂျင့်ကို အတားအဆီးအနည်းငယ်နှင့်အတူ ရင်ပြင်တစ်ခုတွင် ကျပန်းချထားပါသည်။ ဇယားကွက်တွင် ရှောင်ရှားရမည့် “တွင်း” အတားအဆီးသုံးခုနှင့် အေးဂျင့်ရှာရမည့် “စိန်” ဆုလာဘ်တစ်ခု ပါရှိသည်။ ကျွန်ုပ်တို့၏ပတ်ဝန်းကျင်၏ အပြည့်အစုံဖော်ပြချက်ကို ပတ်ဝန်း ကျင်ဟု ခေါ်သည်။ ပြည်နယ်.
ကျွန်ုပ်တို့၏ RL မော်ဒယ်တွင်၊ ကျွန်ုပ်တို့၏အေးဂျင့်သည် ၎င်းတို့အား ပိတ်ဆို့ခြင်းအတားအဆီးမရှိသရွေ့ ကျွန်ုပ်တို့၏အေးဂျင့်သည် ကပ်လျက်စတုရန်းသို့ ရွှေ့နိုင်သည်။ ပေးထားသည့် ပတ်ဝန်းကျင်တစ်ခုရှိ မှန်ကန်သော လုပ်ဆောင်ချက်အားလုံး၏ အစုံကို the ဟုခေါ်သည်။ လုပ်ဆောင်ချက်နေရာ. ကျွန်ုပ်တို့၏ အေးဂျင့်၏ပန်းတိုင်မှာ ဆုလာဘ်ဆီသို့ အတိုဆုံးလမ်းကြောင်းကို ရှာဖွေရန်ဖြစ်သည်။
ကျွန်ုပ်တို့၏ အေးဂျင့်သည် ခြေလှမ်းအရေအတွက် အနည်းဆုံးလိုအပ်သော စိန်ဆီသို့ လမ်းကြောင်းရှာဖွေရန် အားဖြည့်သင်ကြားရေးနည်းလမ်းကို အသုံးပြုပါမည်။ မှန်ကန်သောခြေလှမ်းတိုင်းသည် စက်ရုပ်အား ဆုလာဘ်တစ်ခုပေးမည်ဖြစ်ပြီး မှားသောခြေလှမ်းတိုင်းသည် စက်ရုပ်၏ဆုလာဘ်ကို နုတ်ယူမည်ဖြစ်သည်။ အေးဂျင့်က စိန်ရောက်သည်နှင့် မော်ဒယ်သည် စုစုပေါင်းဆုကြေးကို တွက်ချက်သည်။
ယခု ကျွန်ုပ်တို့သည် အေးဂျင့်နှင့် ပတ်ဝန်းကျင်ကို သတ်မှတ်ပြီးသောအခါ၊ အေးဂျင့်သည် ၎င်း၏ လက်ရှိအခြေအနေနှင့် ပတ်ဝန်းကျင်ကို ပေးဆောင်မည့် နောက်လုပ်ဆောင်ချက်ကို ဆုံးဖြတ်ရန်အတွက် အသုံးပြုရမည့် စည်းမျဉ်းများကိုလည်း သတ်မှတ်ရပါမည်။
မူဝါဒများနှင့် ဆုလာဘ်များ
အားဖြည့်သင်ကြားမှုပုံစံတွင်၊ a မူဝါဒက ၎င်းတို့၏ရည်မှန်းချက်များကို ပြီးမြောက်စေရန် အေးဂျင့်အသုံးပြုသည့်ဗျူဟာကို ရည်ညွှန်းသည်။ အေးဂျင့်၏မူဝါဒသည် အေးဂျင့်၏လက်ရှိအခြေအနေနှင့် ၎င်း၏ပတ်ဝန်းကျင်ကိုပေး၍ အေးဂျင့်နောက်ဘာလုပ်သင့်သည်ကို ဆုံးဖြတ်သည်။
ဘယ်မူဝါဒက အကောင်းဆုံးလဲဆိုတာကို သိနိုင်ဖို့ ကိုယ်စားလှယ်က ဖြစ်နိုင်တဲ့မူဝါဒအားလုံးကို အကဲဖြတ်ရပါမယ်။
ကျွန်ုပ်တို့၏ရိုးရှင်းသောဥပမာတွင်၊ နေရာလွတ်တစ်ခုပေါ်တွင်ဆင်းသက်ခြင်းသည် -1 ၏တန်ဖိုးကိုပြန်ပေးလိမ့်မည်။ အေးဂျင့်သည် စိန်ဆုပေးသည့် နေရာကို ရောက်သွားသောအခါ၊ ၎င်းတို့သည် 10 တန်ဖိုးကို ရရှိမည်ဖြစ်သည်။ ဤတန်ဖိုးများကို အသုံးပြုကာ မတူညီသော မူဝါဒများကို အသုံးပြု၍ နှိုင်းယှဉ်နိုင်သည်။ utility function ကို U.
ယခု အထက်ဖော်ပြပါ မူဝါဒနှစ်ခု၏ အသုံးဝင်ပုံကို နှိုင်းယှဉ်ကြည့်ကြပါစို့။
U(A) = -1 – 1 -1 + 10 = 7
U(B) = -1 – 1 – 1 – 1 – 1 + 10 = 5
ရလဒ်များက မူဝါဒ A သည် ဆုလာဘ်ကို ရှာဖွေရန် ပိုမိုကောင်းမွန်သောလမ်းကြောင်းဖြစ်ကြောင်း ပြသသည်။ ထို့ကြောင့် အေးဂျင့်သည် မူဝါဒ B ထက် လမ်းကြောင်း A ကို အသုံးပြုမည်ဖြစ်သည်။
စူးစမ်းခြင်းနှင့် အမြတ်ထုတ်ခြင်း
အားဖြည့်သင်ကြားမှုတွင် စူးစမ်းရှာဖွေခြင်းနှင့် အမြတ်ထုတ်ခြင်းဆိုင်ရာ အပေးအယူပြဿနာသည် ဆုံးဖြတ်ချက်လုပ်ငန်းစဉ်အတွင်း အေးဂျင့်တစ်ဦးရင်ဆိုင်ရမည့် အကျပ်အတည်းတစ်ခုဖြစ်သည်။
အေးဂျင့်များသည် လမ်းကြောင်းသစ်များ သို့မဟုတ် ရွေးချယ်စရာများကို ရှာဖွေရန် အာရုံစိုက်သင့်သလား သို့မဟုတ် ၎င်းတို့သိပြီးသား ရွေးချယ်စရာများကို ဆက်လက်အသုံးချသင့်ပါသလား။
အေးဂျင့်က စူးစမ်းလေ့လာရန် ရွေးချယ်ပါက၊ အေးဂျင့်အတွက် ပိုမိုကောင်းမွန်သော ရွေးချယ်မှုတစ်ခုကို ရှာဖွေရန် ဖြစ်နိုင်ခြေရှိသော်လည်း၊ ၎င်းသည် အချိန်နှင့် အရင်းအမြစ်များကို ဖြုန်းတီးခြင်းကိုလည်း အန္တရာယ်ဖြစ်စေနိုင်သည်။ အခြားတစ်ဖက်တွင်၊ အေးဂျင့်သည် ၎င်းသိပြီးသားဖြေရှင်းချက်ကို အသုံးချရန် ရွေးချယ်ပါက၊ ၎င်းသည် ပိုမိုကောင်းမွန်သောရွေးချယ်မှုကို လက်လွတ်သွားနိုင်သည်။
လက်တွေ့အသုံးပြုခြင်း
ဤသည်မှာ နည်းလမ်းအချို့ဖြစ်သည်။ AI သုတေသီများ လက်တွေ့ကမ္ဘာပြဿနာများကိုဖြေရှင်းရန်အတွက် အားဖြည့်သင်ကြားမှုပုံစံများကို ကျင့်သုံးခဲ့သည်-
မောင်းသူမဲ့ကားများတွင် အားဖြည့်သင်ယူခြင်း။
ဘေးကင်းပြီး ထိရောက်စွာ မောင်းနှင်နိုင်မှု တိုးတက်စေရန်အတွက် အားဖြည့်သင်ကြားမှုအား ကိုယ်တိုင်မောင်းနှင်သည့်ကားများတွင် အသုံးချထားပါသည်။ အဆိုပါနည်းပညာသည် အလိုအလျောက်မောင်းနှင်သောကားများကို ၎င်းတို့၏အမှားများမှ သင်ခန်းစာယူနိုင်စေပြီး ၎င်းတို့၏စွမ်းဆောင်ရည်ကို ပိုမိုကောင်းမွန်စေရန်အတွက် ၎င်းတို့၏အပြုအမူများကို အဆက်မပြတ် ချိန်ညှိပေးသည်။
ဥပမာအားဖြင့် လန်ဒန်အခြေစိုက် AI ကုမ္ပဏီ လမ်းလွဲ အလိုအလျောက်မောင်းနှင်ခြင်းအတွက် နက်နဲသောအားဖြည့်သင်ယူမှုပုံစံကို အောင်မြင်စွာအသုံးချခဲ့သည်။ ၎င်းတို့၏ စမ်းသပ်မှုတွင် ၎င်းတို့သည် ထည့်သွင်းပေးသည့် ယာဉ်မောင်းမပါဘဲ ယာဉ်မောင်းနှင်သည့်အချိန်ကို အမြင့်ဆုံးဖြစ်စေသည့် ဆုပေးသည့်လုပ်ဆောင်ချက်ကို အသုံးပြုခဲ့သည်။
RL မော်ဒယ်များသည် ကားများကို အတားအဆီးများကို ရှောင်ရှားခြင်း သို့မဟုတ် ယာဉ်ကြောပိတ်ဆို့ခြင်းကဲ့သို့ ပတ်ဝန်းကျင်အပေါ် အခြေခံ၍ ဆုံးဖြတ်ချက်များချရာတွင်လည်း ကူညီပေးပါသည်။ ဤမော်ဒယ်များသည် ကားတစ်စီးပတ်လည်ရှိ ရှုပ်ထွေးသောပတ်ဝန်းကျင်ကို မော်ဒယ်နားလည်နိုင်သော ကိုယ်စားလှယ်နေရာအဖြစ်သို့ ပြောင်းလဲရန် နည်းလမ်းရှာရပါမည်။
စက်ရုပ်များတွင် အားဖြည့်သင်ကြားခြင်း။
သုတေသီများသည် ရှုပ်ထွေးသော အလုပ်များကို သင်ယူနိုင်သည့် စက်ရုပ်များကို တီထွင်ရန်အတွက် အားဖြည့်သင်ယူမှုကိုလည်း အသုံးပြုခဲ့သည်။ ဤ RL မော်ဒယ်များမှတဆင့် စက်ရုပ်များသည် ၎င်းတို့၏ ပတ်ဝန်းကျင်ကို စောင့်ကြည့်နိုင်ပြီး ၎င်းတို့၏ လေ့လာတွေ့ရှိချက်များကို အခြေခံ၍ ဆုံးဖြတ်ချက်များ ချနိုင်ကြသည်။
ဥပမာအားဖြင့်၊ bipedal စက်ရုပ်များကို လေ့လာနိုင်စေရန် အားဖြည့်သင်ယူမှုပုံစံများကို အသုံးပြုခြင်းနှင့် ပတ်သက်၍ သုတေသနပြုလုပ်ထားပါသည်။ လမျးလြှောကျသှား သူတို့ကိုယ်ပိုင်။
သုတေသီများက RL ကို စက်ရုပ်နယ်ပယ်တွင် အဓိကနည်းလမ်းအဖြစ် ယူဆကြသည်။ အားဖြည့်သင်ယူခြင်းသည် စက်ရုပ်အေးဂျင့်များအား အင်ဂျင်နီယာလုပ်ရန် ခက်ခဲစေမည့် ခေတ်မီဆန်းပြားသော လုပ်ဆောင်ချက်များကို လေ့လာရန် မူဘောင်တစ်ခုပေးသည်။
ဂိမ်းကစားခြင်းတွင် အားဖြည့်သင်ယူခြင်း။
ဗီဒီယိုဂိမ်းကစားနည်းကို လေ့လာရန် RL မော်ဒယ်များကိုလည်း အသုံးပြုခဲ့သည်။ အေးဂျင့်များသည် ၎င်းတို့၏အမှားများမှ သင်ခန်းစာယူရန်နှင့် ဂိမ်းတွင် ၎င်းတို့၏စွမ်းဆောင်ရည်ကို အဆက်မပြတ်တိုးတက်စေရန် ဖန်တီးနိုင်သည်။
သုတေသီများသည် စစ်တုရင်၊ Go နှင့် poker ကဲ့သို့သော ဂိမ်းများကို ကစားနိုင်သည့် အေးဂျင့်များကို တီထွင်ထားပြီးဖြစ်သည်။ ၂၀၁၃ ခုနှစ်၊ DeepMind မော်ဒယ်တစ်ဦးသည် Atari ဂိမ်းများကို အစမှနေ၍ မည်သို့ကစားရမည်ကို လေ့လာခွင့်ပြုရန် Deep Reinforcement Learning ကို အသုံးပြုခဲ့သည်။
ဘုတ်ဂိမ်းများနှင့် ဗီဒီယိုဂိမ်းများစွာတွင် အကန့်အသတ်ရှိသော လုပ်ဆောင်ချက်နေရာနှင့် ကောင်းစွာသတ်မှတ်ထားသော ခိုင်မာသောပန်းတိုင်ရှိသည်။ ဤအင်္ဂါရပ်များသည် RL မော်ဒယ်၏ အားသာချက်အတွက် အလုပ်လုပ်ပါသည်။ RL နည်းလမ်းများသည် အောင်ပွဲရရှိရန် အကောင်းဆုံးနည်းဗျူဟာများကို လေ့လာရန် သန်းပေါင်းများစွာသော ဂိမ်းများကို လျင်မြန်စွာ ထပ်လောင်းပြောဆိုနိုင်သည်။
ကောက်ချက်
လမ်းလျှောက်နည်းကို သင်ယူခြင်း သို့မဟုတ် ဗီဒီယိုဂိမ်းကစားနည်းကို လေ့လာခြင်းဖြစ်စေ RL မော်ဒယ်များသည် ရှုပ်ထွေးသောဆုံးဖြတ်ချက်ချရန်လိုအပ်သည့် ပြဿနာများကိုဖြေရှင်းရန်အတွက် အသုံးဝင်သော AI မူဘောင်များဖြစ်ကြောင်း သက်သေပြခဲ့သည်။
နည်းပညာများ တိုးတက်ပြောင်းလဲလာသည်နှင့်အမျှ၊ သုတေသီများနှင့် developer နှစ်ဦးစလုံးသည် မော်ဒယ်၏ ကိုယ်တိုင်သင်ကြားမှုစွမ်းရည်ကို အခွင့်ကောင်းယူနိုင်သည့် အပလီကေးရှင်းအသစ်များကို ဆက်လက်ရှာဖွေကြမည်ဖြစ်သည်။
ဘယ်လက်တွေ့အသုံးချနည်းတွေက အားဖြည့်သင်ကြားမှုကို အထောက်အကူပြုနိုင်မယ်လို့ ထင်ပါသလဲ။
တစ်ဦးစာပြန်ရန် Leave