Table of Contents[Hide][Show]
Yog tias koj yog Python programmer lossis yog tias koj tab tom nrhiav cov cuab yeej muaj zog los siv los qhia txog kev kawm tshuab rau hauv cov txheej txheem tsim khoom, Scikit-kawm yog lub tsev qiv ntawv uas koj yuav tsum tau kuaj xyuas.
Scikit-kawm yog cov ntaub ntawv zoo thiab siv tau yooj yim, txawm tias koj tshiab rau kev kawm tshuab, xav sawv thiab khiav nrawm, lossis xav siv cov cuab yeej tshawb fawb ML tshiab tshaj plaws.
Nws tso cai rau koj los tsim cov qauv kev kwv yees cov ntaub ntawv hauv tsuas yog ob peb kab ntawm cov lej thiab tom qab ntawd siv cov qauv ntawd kom haum koj cov ntaub ntawv raws li lub tsev qiv ntawv qib siab. Nws hloov tau thiab ua haujlwm zoo nrog lwm tus Python cov tsev qiv ntawv zoo li Matplotlib rau charting, NumPy rau array vectorization, thiab pandas rau cov ntaub ntawv visualization.
Hauv phau ntawv qhia no, koj yuav pom txhua yam txog nws yog dab tsi, koj tuaj yeem siv nws li cas, nrog rau nws qhov zoo thiab qhov tsis zoo.
Yuav ua li cas yog Kawm-kawm?
Scikit-kawm (tseem hu ua sklearn) muaj ntau pawg ntawm cov qauv kev txheeb cais thiab kev kawm tshuab. Tsis zoo li feem ntau cov qauv, sklearn yog tsim nyob rau hauv Python es tsis yog C. Txawm hais tias tau tsim hauv Python, qhov ua tau zoo ntawm sklearn yog ascribed rau nws siv NumPy rau high-performance linear algebra thiab array operations.
Scikit-Learn tau tsim los ua ib feem ntawm Google Lub Caij Ntuj Sov ntawm Txoj Cai Txoj Haujlwm thiab txij li ntawd tau ua rau lub neej ntawm ntau lab tus Python-centric cov ntaub ntawv kws tshawb fawb thoob plaws ntiaj teb yooj yim dua. Ntu no ntawm cov koob no tsom mus rau kev nthuav qhia lub tsev qiv ntawv thiab tsom mus rau ib lub ntsiab lus - dataset transformations, uas yog ib qho tseem ceeb thiab tseem ceeb cov kauj ruam uas yuav tsum tau ua ua ntej tsim ib qho kev kwv yees qauv.
Lub tsev qiv ntawv yog raws li SciPy (Scientific Python), uas yuav tsum tau nruab ua ntej koj tuaj yeem siv scikit-kawm. Pawg no muaj cov khoom hauv qab no:
- NumPy: Python tus qauv n-dimensional array pob
- SciPy: Nws yog ib pob khoom siv rau kev xam pom
- Pandas: Cov qauv ntaub ntawv thiab kev tshuaj xyuas
- Matplotlib: Nws yog lub tsev qiv ntawv muaj zog 2D / 3D plotting
- Sympy: Symbolic lej
- IPython: Txhim kho kev sib tham sib console
Daim ntawv thov ntawm Scikit-Learn Library
Scikit-kawm yog qhov qhib-qhov Python pob nrog cov ntaub ntawv txheeb xyuas thiab cov yam ntxwv tsuas. Nws los nrog ntau ntau ntawm built-in algorithms los pab koj kom tau txais txiaj ntsig zoo tshaj plaws ntawm koj cov ntaub ntawv tshawb fawb. Lub tsev qiv ntawv Scikit-kawm yog siv raws li hauv qab no.
1. Regression
Regression tsom xam yog ib qho txheej txheem txheeb xyuas los txheeb xyuas thiab nkag siab txog kev sib txuas ntawm ob lossis ntau qhov sib txawv. Cov txheej txheem siv los ua qhov kev ntsuam xyuas rov qab pab txiav txim siab cov ntsiab lus twg muaj feem cuam tshuam, uas yuav raug tsis quav ntsej, thiab lawv cuam tshuam li cas. Piv txwv li, cov txheej txheem regression tuaj yeem siv los ua kom nkag siab zoo txog tus cwj pwm ntawm cov nqi khoom lag luam.
Regression algorithms muaj xws li:
- Tawm Hloov Kho
- Ridge Regression
- Lasso Regression
- Kev txiav txim ntoo Regression
- Random Hav zoov
- Txhawb Vector Machine (SVM)
2. Kev cais tawm
Txoj kev faib chav kawm yog ib txoj hauv kev Saib Xyuas Kev Kawm uas siv cov ntaub ntawv kev cob qhia los txheeb xyuas cov kev soj ntsuam tshiab. Ib qho algorithm hauv Classification kawm los ntawm qhov muab cov ntaub ntawv los yog kev soj ntsuam thiab tom qab ntawd faib cov kev soj ntsuam ntxiv rau hauv ib qho ntawm ntau chav kawm lossis pab pawg. Lawv tuaj yeem, piv txwv li, siv los faib kev sib txuas lus email li spam lossis tsis.
Classification algorithms muaj xws li cov hauv qab no:
- Logistic Kev Tswj Kev Rov Los
- K-Nyob ze ze
- Txhawb Vector Tshuab
- Kev Txiav Txim Tsob Ntoo
- Random Hav zoov
3. Kev sib koom ua ke
Cov txheej txheem sib koom ua ke hauv Scikit-kawm yog siv los txiav cov ntaub ntawv nrog cov khoom zoo sib xws rau hauv pawg. Clustering yog cov txheej txheem ntawm kev ua ib pawg ntawm cov khoom kom cov neeg nyob hauv tib pab pawg zoo ib yam li cov hauv lwm pab pawg. Cov ntaub ntawv neeg siv khoom, piv txwv li, yuav raug cais raws li lawv qhov chaw nyob.
Clustering algorithms muaj xws li cov hauv qab no:
- DB-SCAN
- K-Means
- Mini-Batch K-Means
- Spectral Clustering
4. Kev xaiv qauv
Cov qauv xaiv algorithms muab txoj hauv kev los sib piv, siv tau, thiab xaiv qhov zoo tshaj plaws thiab cov qauv siv rau hauv cov ntaub ntawv tshawb fawb pib. Muab cov ntaub ntawv, kev xaiv tus qauv yog qhov teeb meem ntawm kev xaiv cov qauv kev txheeb cais los ntawm ib pab pawg neeg sib tw ua qauv. Hauv cov xwm txheej yooj yim tshaj plaws, kev sau ua ntej uas twb muaj lawm ntawm cov ntaub ntawv raug muab coj los rau hauv tus account. Txawm li cas los xij, txoj haujlwm tseem tuaj yeem suav nrog kev tsim cov kev sim kom cov ntaub ntawv tau txais yog qhov zoo rau qhov teeb meem xaiv qauv.
Cov qauv xaiv cov qauv uas tuaj yeem txhim kho qhov tseeb los ntawm kev kho qhov tsis muaj xws li:
- Hla-validation
- Daim phiaj Nrhiav
- kev ntsuas
5. Dimensionality txo
Kev hloov ntawm cov ntaub ntawv los ntawm qhov chaw siab-dav mus rau qhov chaw qis-dimensional kom qhov qis-dimensional sawv cev khaws cia qee qhov tseem ceeb ntawm cov ntaub ntawv qub, qhov zoo tshaj plaws nyob ze rau nws qhov loj me, yog hu ua dimensionality txo. Tus naj npawb ntawm random variables rau kev tsom xam yog txo thaum lub dimensionality txo. Cov ntaub ntawv tshaj tawm, piv txwv li, yuav tsis raug txiav txim siab los txhim kho kev ua haujlwm ntawm kev pom.
Dimensionality Reduction algorithm suav nrog cov hauv qab no:
- Xaiv xaiv
- Cov Txheeb Xyuas Cheeb Tsam Tsev Kawm Ntawv (PCA)
Txhim kho Scikit-kawm
NumPy, SciPy, Matplotlib, IPython, Sympy, thiab Pandas yuav tsum tau nruab ua ntej siv Scikit-kawm. Cia peb nruab lawv siv pip los ntawm lub console (ua haujlwm tsuas yog rau Windows).
Cia peb nruab Scikit-kawm tam sim no uas peb tau teeb tsa cov tsev qiv ntawv xav tau.
nta
Scikit-kawm, qee zaum hu ua sklearn, yog Python cov cuab yeej siv rau kev siv tshuab kev kawm qauv thiab kev ua qauv ntsuas. Peb tuaj yeem siv nws los tsim ntau lub tshuab kev kawm ua qauv rau kev rov qab, kev faib tawm, thiab kev sib koom ua ke, nrog rau cov cuab yeej txheeb xyuas los ntsuas cov qauv no. Nws kuj tseem suav nrog kev txo qhov loj me, kev xaiv qhov tshwj xeeb, kev rho tawm cov yeeb yaj kiab, kev sib xyaw ua ke, thiab cov ntaub ntawv tsim tawm. Peb yuav tshawb xyuas txhua qhov zoo ntawm no ib zaug ib zaug.
1. Importing Datasets
Scikit-kawm suav nrog ntau cov ntaub ntawv tsim ua ntej, xws li iris dataset, tsev nqi dataset, titanic dataset, thiab lwm yam. Qhov txiaj ntsig tseem ceeb ntawm cov ntaub ntawv no yog qhov yooj yim rau kev nkag siab thiab tuaj yeem siv los tsim cov qauv ML tam sim ntawd. Cov ntaub ntawv no tsim nyog rau cov novices. Ib yam li ntawd, koj tuaj yeem siv sklearn los import cov ntaub ntawv ntxiv. Ib yam li ntawd, koj tuaj yeem siv nws los import cov ntaub ntawv ntxiv.
2. Splitting Dataset rau kev cob qhia thiab kev xeem
Sklearn suav nrog lub peev xwm los faib cov ntaub ntawv rau hauv kev cob qhia thiab sim ntu. Splitting cov dataset yog xav tau rau kev ntsuam xyuas tsis ncaj ncees ntawm kev twv ua ntej kev ua tau zoo. Tej zaum peb yuav qhia meej npaum li cas ntawm peb cov ntaub ntawv yuav tsum muab tso rau hauv lub tsheb ciav hlau thiab cov ntaub ntawv xeem. Peb faib cov ntaub ntawv siv tsheb ciav hlau sib cais xws li lub tsheb ciav hlau teeb muaj 80% ntawm cov ntaub ntawv thiab cov ntawv xeem muaj 20%. Cov ntaub ntawv tuaj yeem muab faib raws li hauv qab no:
3. Kab rov tav
Linear Regression yog kev saib xyuas kev kawm-raws li kev kawm tshuab. Nws ua haujlwm regression. Raws li kev hloov pauv ywj pheej, regression qauv ib lub hom phiaj kwv yees tus nqi. Nws feem ntau yog siv los txiav txim qhov sib txuas ntawm qhov sib txawv thiab kev kwv yees. Cov qauv regression sib txawv txawv ntawm hom kev sib txuas uas lawv ntsuas ntawm qhov sib txawv ntawm qhov sib txawv thiab kev ywj pheej, nrog rau cov naj npawb ntawm cov khoom siv ywj pheej siv. Peb tuaj yeem tsim cov qauv Linear Regression siv sklearn raws li hauv qab no:
4. Logistic Regression
Ib txoj hauv kev categorization feem ntau yog logistic regression. Nws nyob hauv tib tsev neeg li polynomial thiab linear regression thiab belongs rau tsev neeg linear classifier. Cov kev tshawb pom ntawm logistic regression yog qhov yooj yim rau kev nkag siab thiab nrawm rau suav. Ib yam li linear regression, logistic regression yog cov txheej txheem saib xyuas kev rov qab los. Cov zis sib txawv yog categorical, yog li ntawd tsuas yog qhov sib txawv. Nws tuaj yeem txiav txim siab seb tus neeg mob puas muaj kab mob plawv.
Ntau yam teeb meem kev faib tawm, xws li kev tshawb nrhiav spam, tuaj yeem daws tau siv logistic regression. Kev ntsuas ntshav qab zib, txiav txim siab yog tias tus neeg siv khoom yuav yuav ib yam khoom tshwj xeeb lossis hloov mus rau tus neeg sib tw, txiav txim siab seb tus neeg siv yuav nyem rau ntawm ib qho kev lag luam tshwj xeeb, thiab ntau qhov xwm txheej tsuas yog qee qhov piv txwv.
5. Tsob ntoo txiav txim
Lub zog tshaj plaws thiab dav siv kev faib tawm thiab kev twv ua ntej yog tsob ntoo txiav txim siab. Ib tsob ntoo txiav txim siab yog cov qauv ntoo uas zoo li daim ntawv qhia, nrog rau txhua qhov ntawm qhov nruab nrab sawv cev rau qhov kev xeem ntawm tus cwj pwm, txhua ceg sawv cev rau qhov kev xeem qhov xaus, thiab txhua nplooj ntawv (qhov node ntawm lub davhlau ya nyob twg) tuav daim ntawv teev npe.
Thaum cov kev hloov pauv tsis muaj kev sib raug zoo nrog cov kev ywj pheej sib txawv, piv txwv li thaum linear regression tsis tsim cov kev tshawb pom tseeb, cov ntoo txiav txim siab tau txais txiaj ntsig. Cov khoom DecisionTreeRegression() tej zaum yuav siv tau zoo ib yam los siv tsob ntoo txiav txim rau kev rov qab los.
6. Ntsuag Hav Zoov
Ib tug random hav zoov yog ib tshuab kev kawm mus kom ze rau kev daws regression thiab kev faib cov teeb meem. Nws ua rau kev siv pawg kawm, uas yog cov txheej txheem sib xyaw ua ke ntau yam kev faib tawm los daws cov teeb meem nyuaj. Ib txoj kev random hav zoov yog tsim los ntawm ntau cov ntoo txiav txim siab. Nws tuaj yeem siv los txheeb xyuas daim ntawv thov qiv nyiaj, txheeb xyuas tus cwj pwm dag, thiab cia siab tias yuav muaj kab mob tshwm sim.
7. Tsis meej pem Matrix
Ib tug tsis meej pem matrix yog ib lub rooj siv los piav qhia txog kev faib ua qauv kev ua tau zoo. Plaub lo lus hauv qab no yog siv los tshuaj xyuas qhov tsis meej pem matrix:
- Qhov Zoo Zoo: Nws qhia tau tias tus qauv npaj tau txais txiaj ntsig zoo thiab nws yog qhov tseeb.
- Tseeb Tsis Zoo: Nws qhia tau tias tus qauv tau ua tiav qhov tshwm sim tsis zoo thiab nws yog.
- False Positive: Nws qhia tau tias tus qauv xav tau qhov txiaj ntsig zoo tab sis nws yog qhov tsis zoo tiag tiag.
- False Negative: Nws qhia tau tias tus qauv xav tau qhov tshwm sim tsis zoo, thaum qhov txiaj ntsig tau zoo tiag tiag.
Kev siv tsis meej pem matrix:
pros
- Nws yooj yim siv.
- Scikit-kawm pob yog qhov hloov tau zoo thiab muaj txiaj ntsig, ua haujlwm rau lub hom phiaj tiag tiag xws li kev kwv yees tus cwj pwm ntawm cov neeg siv khoom, kev txhim kho neuroimage, thiab lwm yam.
- Cov neeg siv uas xav txuas cov algorithms nrog lawv lub platform yuav pom cov ntaub ntawv API ntxaws ntawm Scikit-kawm lub vev xaib.
- Ntau tus kws sau ntawv, cov neeg koom tes, thiab cov zej zog loj thoob ntiaj teb txhawb nqa thiab khaws Scikit-kawm txog niaj hnub no.
cons
- Nws tsis yog qhov kev xaiv zoo tshaj plaws rau kev kawm tob.
xaus
Scikit-kawm yog ib pob tseem ceeb rau txhua tus kws tshawb fawb cov ntaub ntawv kom muaj kev nkag siab zoo thiab qee qhov kev paub nrog. Phau ntawv qhia no yuav tsum pab koj nrog kev tswj cov ntaub ntawv siv sklearn. Muaj ntau ntau lub peev xwm ntawm Scikit-kawm uas koj yuav pom thaum koj nce qib ntawm koj cov ntaub ntawv tshawb fawb taug txuj kev nyuaj. Qhia koj cov kev xav hauv cov lus.
Sau ntawv cia Ncua