Scikit-learn - HashDork ၏ Beginner's Guide

မာတိကာ[ဖျောက်][ရှိုး]

Scikit-learn ဆိုတာ ဘာလဲ။
Scikit-learn စာကြည့်တိုက်၏ အသုံးချမှုများ+-
Scikit-learn ကို ထည့်သွင်းခြင်း။
အင်္ဂါရပ်များ +-
Pros
အားနည်းချက်များ
ကောက်ချက်

အကယ်၍ သင်သည် Python ပရိုဂရမ်မာတစ်ဦးဖြစ်လျှင် သို့မဟုတ် ထုတ်လုပ်မှုစနစ်တွင် စက်သင်ယူမှုကို မိတ်ဆက်ရန်အတွက် အသုံးပြုရန် အစွမ်းထက်သောကိရိယာအစုံကို ရှာဖွေနေပါက Scikit-learn သည် သင်စစ်ဆေးရန်လိုအပ်သည့်စာကြည့်တိုက်တစ်ခုဖြစ်သည်။

Scikit-learn သည် စက်သင်ယူမှုအသစ်တွင်ဖြစ်စေ၊ မြန်မြန်ဆန်ဆန်ထချင်သည်ဖြစ်စေ သို့မဟုတ် နောက်ဆုံးပေါ် ML သုတေသနတူးလ်ကို အသုံးပြုလိုသည်ဖြစ်စေ ကောင်းစွာမှတ်တမ်းတင်ထားပြီး အသုံးပြုရလွယ်ကူသည်။

၎င်းသည် သင့်အား ကုဒ်မျဉ်းအနည်းငယ်တွင်သာ ခန့်မှန်းနိုင်သော ဒေတာပုံစံတစ်ခုကို တည်ဆောက်နိုင်ပြီး သင်၏ဒေတာကို အဆင့်မြင့်စာကြည့်တိုက်အဖြစ်နှင့် ကိုက်ညီစေရန် ထိုမော်ဒယ်ကို အသုံးပြုနိုင်သည်။ ၎င်းသည် ပြောင်းလွယ်ပြင်လွယ်ဖြစ်ပြီး အခြားသူများနှင့် ကောင်းစွာအလုပ်လုပ်သည်။ Python စာကြည့်တိုက်များ ဇယားကွက်အတွက် Matplotlib၊ array vectorization အတွက် NumPy နှင့် data visualization အတွက် ပန်ဒါများ။

ဤလမ်းညွှန်ချက်တွင်၊ ၎င်းသည် အဘယ်အရာဖြစ်သည်၊ ၎င်းကို သင်မည်ကဲ့သို့ အသုံးပြုနိုင်ကြောင်း၊ ၎င်း၏ အားသာချက်များနှင့် အားနည်းချက်များအကြောင်း အားလုံးသိရှိနိုင်မည်ဖြစ်သည်။

ဘာဖြစ်သလဲ Scikit- လေ့လာပါ?

Scikit-learn (sklearn ဟုလည်းခေါ်သည်) သည် ကွဲပြားသော စာရင်းအင်း မော်ဒယ်များနှင့် စက်သင်ယူမှုကို ပံ့ပိုးပေးပါသည်။ မော်ဂျူးအများစုနှင့်မတူဘဲ၊ sklearn ကို C ထက် Python တွင် တီထွင်ထားသည်။ Python တွင် တီထွင်ထားသော်လည်း၊ စွမ်းဆောင်ရည်မြင့်မားသော linear algebra နှင့် array လုပ်ဆောင်ချက်များအတွက် NumPy ကို အသုံးပြုခြင်းဖြင့် sklearn ၏ ထိရောက်မှုကို သတ်မှတ်ပေးပါသည်။

Scikit-Learn ကို Google ၏ Summer of Code ပရောဂျက်၏ တစ်စိတ်တစ်ပိုင်းအဖြစ် ဖန်တီးထားပြီး ထိုအချိန်မှစ၍ ကမ္ဘာတစ်ဝှမ်းရှိ Python ကိုဗဟိုပြုသော သန်းပေါင်းများစွာသော ဒေတာသိပ္ပံပညာရှင်များ၏ ဘဝများကို ပိုမိုရိုးရှင်းစေသည်။ စီးရီး၏ ဤကဏ္ဍသည် ဒစ်ဂျစ်တိုက်ကိုတင်ပြခြင်းနှင့် ခန့်မှန်းမှုပုံစံတစ်ခုမဖြစ်ထွန်းမီတွင် အဓိကကျပြီး အရေးကြီးသောခြေလှမ်းဖြစ်သည့် ဒေတာအတွဲအသွင်ပြောင်းမှုများကို အာရုံစိုက်ထားသည်။

Sklearn ပါ။

စာကြည့်တိုက်သည် scikit-learn ကို အသုံးမပြုမီ ထည့်သွင်းထားရမည့် SciPy (Scientific Python) ကို အခြေခံထားသည်။ ဤအစုအဝေးတွင် အောက်ပါအရာများ ပါဝင်သည်-

NumPy- Python ၏ standard n-dimensional array package
SciPy- ၎င်းသည် သိပ္ပံနည်းကျတွက်ချက်ခြင်းအတွက် အခြေခံအထုပ်တစ်ခုဖြစ်သည်။
ပန်ဒါများ- ဒေတာတည်ဆောက်ပုံများနှင့် ခွဲခြမ်းစိတ်ဖြာမှု
Matplotlib- ၎င်းသည် အစွမ်းထက်သော 2D/3D ကြံစည်မှုစာကြည့်တိုက်တစ်ခုဖြစ်သည်။
Sympy- သင်္ကေတသင်္ချာ
IPython- ပိုမိုကောင်းမွန်သော အပြန်အလှန်တုံ့ပြန်သော ကွန်ဆိုးလ်

Scikit-learn စာကြည့်တိုက်၏ အသုံးချမှုများ

Scikit-learn သည် ခေတ်မီဆန်းပြားသော ဒေတာခွဲခြမ်းစိတ်ဖြာမှုနှင့် သတ္တုတူးဖော်ခြင်းဆိုင်ရာ အင်္ဂါရပ်များပါရှိသော open-source Python package တစ်ခုဖြစ်သည်။ သင့်ဒေတာသိပ္ပံပရောဂျက်များထဲမှ အကောင်းဆုံးကိုရရန် ကူညီပေးရန်အတွက် ၎င်းတွင် built-in algorithms အများအပြားပါရှိသည်။ Scikit-learn library ကို အောက်ပါနည်းလမ်းများဖြင့် အသုံးပြုပါသည်။

1. ဆုတ်ယုတ်မှု

ဆုတ်ယုတ်မှု ခွဲခြမ်းစိတ်ဖြာခြင်းသည် ကိန်းရှင်နှစ်ခု သို့မဟုတ် နှစ်ခုထက်ပိုသော ကိန်းရှင်များကြား ဆက်စပ်မှုကို ခွဲခြမ်းစိတ်ဖြာ နားလည်သဘောပေါက်စေရန်အတွက် ကိန်းဂဏန်းဆိုင်ရာ နည်းပညာတစ်ခုဖြစ်သည်။ ဆုတ်ယုတ်မှု ခွဲခြမ်းစိတ်ဖြာမှုပြုလုပ်ရန် အသုံးပြုသည့်နည်းလမ်းသည် မည်သည့်ဒြပ်စင်များနှင့် သက်ဆိုင်ကြောင်း၊ လျစ်လျူရှုထားနိုင်ပြီး ၎င်းတို့ မည်သို့အပြန်အလှန် တုံ့ပြန်ကြောင်းကို ဆုံးဖြတ်ရာတွင် အထောက်အကူဖြစ်စေပါသည်။ ဥပမာအားဖြင့် Regression နည်းပညာများကို စတော့စျေးနှုန်းများ၏ အပြုအမူကို ပိုမိုနားလည်ရန် အသုံးပြုနိုင်သည်။

Regression algorithms တွင်-

linear Regression
ခေါင် Regression
လာစို Regression
ဆုံးဖြတ်ချက်သစ်ပင် ဆုတ်ယုတ်မှု
ကျပန်းသစ်တော
ပံ့ပိုးမှု Vector စက်များ (SVM)

၂

အမျိုးအစားခွဲခြားခြင်းနည်းလမ်းသည် အသစ်အဆန်းလေ့လာတွေ့ရှိချက်များအမျိုးအစားကိုခွဲခြားသတ်မှတ်ရန် လေ့ကျင့်ရေးဒေတာကိုအသုံးပြုသည့် ကြီးကြပ်သင်ကြားရေးချဉ်းကပ်မှုတစ်ခုဖြစ်သည်။ Classification တွင် algorithm တစ်ခုသည် ပေးထားသော တစ်ခုမှ သင်ယူသည်။ Datasets သို့မဟုတ် စောင့်ကြည့်လေ့လာပြီးနောက် ထပ်လောင်းလေ့လာချက်များကို အတန်းများစွာထဲမှ တစ်ခုသို့ အမျိုးအစားခွဲသည်။ ဥပမာအားဖြင့် ၎င်းတို့သည် အီးမေးလ်ဆက်သွယ်မှုများကို spam အဖြစ် အမျိုးအစားခွဲခြားရန် အသုံးပြုနိုင်သည်။

အမျိုးအစားခွဲခြင်းဆိုင်ရာ အယ်လဂိုရီသမ်များတွင် အောက်ပါတို့ ပါဝင်သည်-

Logistic Regression
K-အနီးဆုံးအိမ်နီးချင်းများ
Vector Machine ကိုပံ့ပိုးပါ။
ဆုံးဖြတ်ချက်ပင်
ကျပန်းသစ်တော

3. Clustering

Scikit-learn ရှိ အစုလိုက်အပြုံလိုက် အယ်လဂိုရီသမ်များကို ပုံစံတူ ဂုဏ်သတ္တိများဖြင့် ဒေတာများကို အလိုအလျောက် စီစဉ်ပေးရန်အတွက် အသုံးပြုပါသည်။ Clustering သည် အုပ်စုတစ်စုရှိ တူညီသောအုပ်စုရှိအရာများနှင့် ပိုမိုတူညီစေရန် အစုအဝေးတစ်ခုအား အုပ်စုဖွဲ့ခြင်းလုပ်ငန်းစဉ်ဖြစ်သည်။ ဥပမာအားဖြင့် ဖောက်သည်ဒေတာသည် ၎င်းတို့၏တည်နေရာအပေါ်အခြေခံ၍ ခွဲခြားနိုင်သည်။

Clustering algorithms တွင် အောက်ပါတို့ ပါဝင်သည်-

DB-SCAN
K-Means
Mini-Batch K-Means
Spectral Clustering

4. မော်ဒယ်ရွေးချယ်ရေး

မော်ဒယ်ရွေးချယ်မှု အယ်လဂိုရီသမ်များသည် ဒေတာသိပ္ပံအစပျိုးမှုများတွင် အသုံးပြုရန်အတွက် အကောင်းဆုံးသော ကန့်သတ်ဘောင်များနှင့် မော်ဒယ်များကို နှိုင်းယှဉ်ခြင်း၊ အတည်ပြုခြင်းနှင့် ရွေးချယ်ခြင်းအတွက် နည်းလမ်းများကို ပေးပါသည်။ အချက်အလက်အရ၊ မော်ဒယ်ရွေးချယ်မှုသည် ကိုယ်စားလှယ်လောင်းမော်ဒယ်အုပ်စုတစ်စုမှ ကိန်းဂဏန်းစံနမူနာကို ရွေးချယ်ခြင်း၏ ပြဿနာဖြစ်သည်။ အခြေခံအကျဆုံးအခြေအနေများတွင်၊ နဂိုရှိပြီးသားဒေတာစုဆောင်းမှုကို ထည့်သွင်းစဉ်းစားသည်။ သို့သော်၊ ရရှိထားသောဒေတာသည် မော်ဒယ်ရွေးချယ်မှုပြဿနာအတွက် ကောင်းစွာလိုက်ဖက်မှုရှိစေရန်အတွက် အဆိုပါတာဝန်တွင် စမ်းသပ်မှုပုံစံကိုလည်း ထည့်သွင်းနိုင်သည်။

ဘောင်များကို ချိန်ညှိခြင်းဖြင့် တိကျမှုကို မြှင့်တင်နိုင်သော မော်ဒယ်ရွေးချယ်မှု မော်ဂျူးများတွင် ပါဝင်သည်။

အပြန်အလှန်အတည်ပြုချက်
ဂရစ်ရှာ
မက်ထရစ်

5. Dimensionality လျှော့ချရေး

အဘက်ဘက်မှ မြင့်မားသော အာကာသမှ ဒေတာများကို အနိမ့်ပိုင်း အာကာသသို့ လွှဲပြောင်းခြင်းအား အနိမ့်ဘက်မြင် ကိုယ်စားပြုမှုသည် မူရင်းဒေတာ၏ သိသာထင်ရှားသော ရှုထောင့်အချို့ကို ထိန်းသိမ်းထားနိုင်စေရန်၊ အခြေခံအားဖြင့် ၎င်း၏မွေးရာပါ အတိုင်းအတာနှင့် နီးသောကြောင့်၊ အတိုင်းအတာ လျှော့ချခြင်းဟု ခေါ်သည်။ Dimenity ကို လျှော့ချလိုက်သောအခါ ခွဲခြမ်းစိတ်ဖြာမှုအတွက် ကျပန်းကိန်းရှင် အရေအတွက်ကို လျှော့ချသည်။ ဥပမာအားဖြင့်၊ အစွန်းထွက်ဒေတာကို မြင်သာထင်သာမြင်နိုင်စွမ်းကို မြှင့်တင်ရန် ထည့်သွင်းစဉ်းစားမည်မဟုတ်ပါ။

Dimensionality Reduction algorithm တွင် အောက်ပါတို့ ပါဝင်သည်-

feature ကိုရွေးချယ်ရေး
အဓိကအစိတ်အပိုင်းခွဲခြမ်းစိတ်ဖြာခြင်း (PCA)

Scikit-learn ကို ထည့်သွင်းခြင်း။

Scikit-learn ကို အသုံးမပြုမီ NumPy၊ SciPy၊ Matplotlib၊ IPython၊ Sympy နှင့် Pandas တို့ကို ထည့်သွင်းရန် လိုအပ်ပါသည်။ ကွန်ဆိုးလ်မှ pip ကို အသုံးပြု၍ ၎င်းတို့ကို ထည့်သွင်းကြပါစို့ (Windows အတွက်သာ လုပ်ဆောင်သည်)။

Install

Scikit-learn ကို ကျွန်ုပ်တို့ လိုအပ်သော ဒစ်ဂျစ်တိုက်များ ထည့်သွင်းပြီး ယခုပင် တပ်ဆင်ကြပါစို့။

Sklearn ကို ထည့်သွင်းခြင်း။

အင်္ဂါရပ်များ

Scikit-learn သည် တစ်ခါတစ်ရံတွင် sklearn ဟုလူသိများသော၊ သည် စက်သင်ယူမှုပုံစံများနှင့် စာရင်းအင်းပုံစံများကို အကောင်အထည်ဖော်ရန်အတွက် Python toolkit တစ်ခုဖြစ်သည်။ ဆုတ်ယုတ်ခြင်း၊ အမျိုးအစားခွဲခြင်းနှင့် အစုလိုက်အပြုံလိုက် ပြုလုပ်ခြင်းအတွက် စက်သင်ယူမှု မော်ဒယ်များစွာကို ဖန်တီးရန် ၎င်းကို ကျွန်ုပ်တို့ အသုံးပြုနိုင်ပါသည်။ ၎င်းတွင် အတိုင်းအတာ လျှော့ချခြင်း၊ အင်္ဂါရပ်ရွေးချယ်ခြင်း၊ အင်္ဂါရပ် ထုတ်ယူခြင်း၊ အစုအဝေး ချဉ်းကပ်မှုများနှင့် ပါ၀င်သည့် ဒေတာအတွဲများ ပါဝင်သည်။ ကျွန်ုပ်တို့သည် ဤအရည်အသွေးတစ်ခုစီကို တစ်ကြိမ်လျှင် တစ်ခုစီ စူးစမ်းလေ့လာပါမည်။

1. ဒေတာအတွဲများကို တင်သွင်းခြင်း။

Scikit-learn တွင် iris dataset၊ home price dataset၊ titanic dataset ကဲ့သို့သော ကြိုတင်တည်ဆောက်ထားသော dataset အများအပြားပါဝင်ပါသည်။ ဤဒေတာအတွဲများ၏ အဓိကအားသာချက်မှာ ၎င်းတို့ကို ဆုပ်ကိုင်ရန် ရိုးရှင်းပြီး ML မော်ဒယ်များကို ချက်ချင်းတီထွင်ရန်အတွက် အသုံးပြုနိုင်သည်။ ဤဒေတာအတွဲများသည် အတွေ့အကြုံမရှိသေးသူများအတွက် သင့်လျော်ပါသည်။ အလားတူ၊ သင်သည် နောက်ထပ်ဒေတာအတွဲများကို တင်သွင်းရန် sklearn ကို အသုံးပြုနိုင်သည်။ အလားတူ၊ သင်သည် အပိုဒေတာအတွဲများကို တင်သွင်းရန် ၎င်းကို အသုံးပြုနိုင်သည်။

datasets

2. လေ့ကျင့်ရေးနှင့် စမ်းသပ်ခြင်းအတွက် ဒေတာခွဲခြမ်းခြင်း။

Sklearn တွင် ဒေတာအစုံကို လေ့ကျင့်ရေးနှင့် စမ်းသပ်မှုအပိုင်းများအဖြစ် ပိုင်းခြားနိုင်စွမ်း ပါဝင်သည်။ ခန့်မှန်းမှုစွမ်းဆောင်ရည်ကို ဘက်မလိုက်ဘဲ အကဲဖြတ်ရန်အတွက် ဒေတာအတွဲကို ပိုင်းခြားရန် လိုအပ်သည်။ ရထားနှင့် စမ်းသပ်မှုဒေတာအတွဲများတွင် ကျွန်ုပ်တို့၏ဒေတာမည်မျှ ထည့်သွင်းသင့်သည်ကို ကျွန်ုပ်တို့ သတ်မှတ်နိုင်ပါသည်။ ရထားစမ်းသပ်မှုတွင် ဒေတာအစုံကို 80% ပါ၀င်ပြီး စမ်းသပ်မှုတွင် 20% ပါဝင်ကြောင်း ရထားစမ်းသပ်မှုခွဲခြမ်းကို အသုံးပြု၍ ဒေတာအတွဲကို ပိုင်းခြားထားပါသည်။ ဒေတာအတွဲကို အောက်ပါအတိုင်း ပိုင်းခြားနိုင်ပါသည်။

ပိုင်းခြားခြင်း။

3. Linear Regression

Linear Regression သည် ကြီးကြပ်သင်ကြားမှုကို အခြေခံသည့် စက်သင်ယူမှုနည်းပညာတစ်ခုဖြစ်သည်။ ၎င်းသည် ဆုတ်ယုတ်ခြင်းအလုပ်ကို လုပ်ဆောင်သည်။ အမှီအခိုကင်းသော ကိန်းရှင်များအပေါ်အခြေခံ၍ ဆုတ်ယုတ်မှုပုံစံများသည် ပန်းတိုင်ခန့်မှန်းတန်ဖိုးဖြစ်သည်။ ကိန်းရှင်များနှင့် ကြိုတင်ခန့်မှန်းခြင်းကြား ဆက်စပ်မှုကို ဆုံးဖြတ်ရန် ၎င်းကို အများအားဖြင့် အသုံးပြုသည်။ ကွဲပြားခြားနားသော ဆုတ်ယုတ်မှုပုံစံများသည် မှီခိုမှုနှင့် အမှီအခိုကင်းသော ကိန်းရှင်များကြားတွင် ၎င်းတို့အကဲဖြတ်သည့် ချိတ်ဆက်မှုအမျိုးအစားအလိုက် ကွဲပြားသည့်အပြင် အသုံးပြုထားသည့် သီးခြားကိန်းရှင်အရေအတွက်လည်း ကွဲပြားသည်။ အောက်ပါအတိုင်း sklearn ကို အသုံးပြု၍ Linear Regression model ကို ရိုးရိုးရှင်းရှင်း ဖန်တီးနိုင်ပါသည်။

linear Regression

4. Logistic Regression

ယေဘူယျအားဖြင့် အမျိုးအစားခွဲခြင်းနည်းလမ်းမှာ logistic regression ဖြစ်သည်။ ၎င်းသည် polynomial နှင့် linear regression နှင့် တူညီသော မိသားစုတွင်ရှိပြီး linear classifier မိသားစုမှ ပါဝင်သည်။ Logistic regression ၏ တွေ့ရှိချက်များသည် နားလည်ရလွယ်ကူပြီး တွက်ချက်ရန် မြန်ဆန်ပါသည်။ linear regression ကဲ့သို့ပင်၊ logistic regression သည် ကြီးကြပ်ထားသော regression technique တစ်ခုဖြစ်သည်။ output variable သည် categorical ဖြစ်သောကြောင့် တစ်ခုတည်းသော ခြားနားချက်ဖြစ်သည်။ လူနာတစ်ဦးတွင် နှလုံးရောဂါရှိ/မရှိကို ဆုံးဖြတ်နိုင်သည်။

spam ရှာဖွေခြင်းကဲ့သို့သော အမျိုးအစားခွဲခြားခြင်းဆိုင်ရာ ပြဿနာများကို ထောက်ပံ့ပို့ဆောင်မှု ဆုတ်ယုတ်မှုဖြင့် ဖြေရှင်းနိုင်ပါသည်။ ဆီးချိုရောဂါခန့်မှန်းချက်၊ စားသုံးသူသည် တိကျသောထုတ်ကုန်တစ်ခုဝယ်မည်လော သို့မဟုတ် ပြိုင်ဘက်ထံပြောင်းမည်ကို ဆုံးဖြတ်ခြင်း၊ သုံးစွဲသူသည် တိကျသောစျေးကွက်ရှာဖွေရေးလင့်ခ်ကို နှိပ်မည်ဆိုသည်ကို ဆုံးဖြတ်ခြင်းနှင့် အခြားအခြေအနေများစွာသည် ဥပမာအနည်းငယ်မျှသာဖြစ်သည်။

Logistic Regression

5. ဆုံးဖြတ်ချက်သစ်ပင်

အစွမ်းထက်ဆုံးနှင့် အသုံးများဆုံး အမျိုးအစားခွဲခြင်းနှင့် ခန့်မှန်းခြင်းနည်းပညာမှာ ဆုံးဖြတ်ချက်သစ်ပင် ဖြစ်သည်။ ဆုံးဖြတ်ချက်သစ်ပင်သည် စီးဆင်းမှုဇယားပုံသဏ္ဍာန်ရှိသော သစ်ပင်ဖွဲ့စည်းပုံဖြစ်ပြီး၊ အရည်အချင်းတစ်ခုပေါ်ရှိ စမ်းသပ်မှုတစ်ခုစီကို ကိုယ်စားပြုသည့် အတွင်းပိုင်း node တစ်ခုစီ၊ အကိုင်းအခက်တစ်ခုစီတိုင်းသည် စမ်းသပ်မှု၏နိဂုံးချုပ်မှုကို ကိုယ်စားပြုကာ၊ အတန်းတံဆိပ်တစ်ခုစီကိုင်ထားသော အရွက်များ (terminal node) တစ်ခုစီဖြစ်သည်။

မှီခိုကိန်းရှင်များသည် အမှီအခိုကင်းသော variable များနှင့် linear ဆက်ဆံရေးမရှိသောအခါ၊ ဆိုလိုသည်မှာ linear regression သည် မှန်ကန်သောရှာဖွေတွေ့ရှိချက်မထုတ်ပေးသောအခါ၊ ဆုံးဖြတ်ချက်သစ်များသည် အကျိုးရှိသည်။ DecisionTreeRegression() အရာဝတ္တုအား ဆုတ်ယုတ်ခြင်းအတွက် ဆုံးဖြတ်ချက်သစ်ပင်ကို အသုံးပြုရန် အလားတူနည်းလမ်းဖြင့် အသုံးပြုနိုင်သည်။

ဆုံးဖြတ်ချက်ပင်

6. ကျပန်းသစ်တော

ကြုံရာကျပန်းတောအုပ်တစ်ခုဖြစ်သည်။ စက်သင်ယူမှု ဆုတ်ယုတ်ခြင်းနှင့် အမျိုးအစားခွဲခြားခြင်းဆိုင်ရာ ပြဿနာများကို ဖြေရှင်းရန် ချဉ်းကပ်မှု။ ၎င်းသည် ရှုပ်ထွေးသောပြဿနာများကိုဖြေရှင်းရန် အမျိုးအစားခွဲများစွာကို ပေါင်းစပ်ထားသည့် နည်းပညာတစ်ခုဖြစ်သည့် အစုလိုက်သင်ယူမှုကို အသုံးပြုစေသည်။ ကျပန်းသစ်တောနည်းလမ်းကို ဆုံးဖြတ်ချက်သစ်ပင် အများအပြားဖြင့် ဖွဲ့စည်းထားသည်။ ချေးငွေလျှောက်လွှာများကို အမျိုးအစားခွဲရန်၊ လိမ်လည်လှည့်ဖြားသည့်အမူအကျင့်များကို ရှာဖွေဖော်ထုတ်ရန်နှင့် ရောဂါဖြစ်ပွားမှုကို ကြိုတင်ခန့်မှန်းရန်အတွက် ၎င်းကို အသုံးပြုနိုင်သည်။

ကျပန်းသစ်တော

7. Confusion Matrix

ရှုပ်ထွေးမှုမက်ထရစ်သည် အမျိုးအစားခွဲခြားမှုပုံစံစွမ်းဆောင်ရည်ကိုဖော်ပြရန်အသုံးပြုသည့်ဇယားတစ်ခုဖြစ်သည်။ ရှုပ်ထွေးသော matrix ကို စစ်ဆေးရန် အောက်ပါ စကားလုံးလေးလုံးကို အသုံးပြုသည် ။

စစ်မှန်သောအပြုသဘော- မော်ဒယ်သည် နှစ်သက်ဖွယ်ကောင်းသောရလဒ်ကို ခန့်မှန်းပြီး ၎င်းသည် မှန်ကန်ကြောင်းကို ဆိုလိုသည်။
စစ်မှန်သော အနုတ်လက္ခဏာ- မော်ဒယ်သည် ဆိုးရွားသောရလဒ်ကို ခန့်မှန်းပြီး မှန်ကန်ကြောင်း ဆိုလိုသည်။
False Positive- မော်ဒယ်သည် ကောင်းသောရလဒ်ကို မျှော်လင့်ထားသော်လည်း ၎င်းသည် အမှန်တကယ် အနုတ်လက္ခဏာဆောင်သည်ဟု ဆိုလိုပါသည်။
မှားယွင်းသော အနုတ်လက္ခဏာ- ရလဒ်သည် အမှန်တကယ် အပြုသဘောဆောင်နေသော်လည်း မော်ဒယ်သည် အနုတ်လက္ခဏာဆောင်သော ရလဒ်ကို မျှော်လင့်ထားကြောင်း ဆိုလိုသည်။

Confusion Matrix ဓာတ်ပုံ

ရှုပ်ထွေးသော matrix အကောင်အထည်ဖော်မှု-

ရှုပ်ထွေးမှု မက်ထရစ်များ

Pros

သုံးရတာရိုးရှင်းပါတယ်။
Scikit-learn package သည် အလွန်လိုက်လျောညီထွေရှိပြီး အသုံးဝင်ကာ၊ စားသုံးသူအမူအကျင့်ခန့်မှန်းခြင်း၊ neuroimage ဖွံ့ဖြိုးတိုးတက်မှုစသည်ဖြင့် လက်တွေ့ကမ္ဘာရည်မှန်းချက်များကို ဆောင်ရွက်ပေးပါသည်။
အယ်လဂိုရီသမ်များကို ၎င်းတို့၏ပလပ်ဖောင်းများနှင့် ချိတ်ဆက်လိုသော အသုံးပြုသူများသည် Scikit-learn ဝဘ်ဆိုက်တွင် အသေးစိတ် API စာရွက်စာတမ်းများကို တွေ့ရှိမည်ဖြစ်သည်။
မြောက်မြားစွာသော စာရေးဆရာများ၊ ပူးပေါင်းဆောင်ရွက်သူများနှင့် ကမ္ဘာတစ်ဝှမ်းရှိ အွန်လိုင်းအသိုင်းအဝိုင်းကြီးမှ ပံ့ပိုးကူညီပြီး Scikit-learn ကို ခေတ်နှင့်အမီ ဆက်လက်ထားရှိပါ။

အားနည်းချက်များ

နက်ရှိုင်းသောလေ့လာမှုအတွက် စံပြရွေးချယ်မှုမဟုတ်ပါ။

ကောက်ချက်

Scikit-learn သည် ဒေတာသိပ္ပံပညာရှင်တိုင်းအတွက် ခိုင်မာသောဆုပ်ကိုင်မှုနှင့် အတွေ့အကြုံအချို့ရှိရန် အရေးကြီးသောပက်ကေ့ခ်ျတစ်ခုဖြစ်သည်။ ဤလမ်းညွှန်ချက်သည် သင့်အား sklearn ကို အသုံးပြု၍ ဒေတာကို ကိုင်တွယ်ဖြေရှင်းရာတွင် ကူညီပေးသင့်သည်။ သင်၏ဒေတာသိပ္ပံစွန့်စားမှုတစ်လျှောက်တွင်သင်ရှာဖွေတွေ့ရှိနိုင်သည့် Scikit-learn ၏နောက်ထပ်စွမ်းဆောင်ရည်များစွာရှိသည်။ သင့်အတွေးအမြင်များကို မှတ်ချက်များတွင် မျှဝေပါ။

Scikit-learn အတွက် Beginner's Guide

ဘာဖြစ်သလဲ Scikit- လေ့လာပါ?