Kaundan[Itago][Ipakita]
Kung ikaw usa ka Python programmer o kung nangita ka usa ka kusgan nga toolkit nga magamit aron ipakilala ang pagkat-on sa makina sa usa ka sistema sa produksiyon, ang Scikit-pagkat-on usa ka librarya nga kinahanglan nimong susihon.
Ang Scikit-learn kay dokumentado ug yano nga gamiton, bag-o ka man sa pagkat-on sa makina, gusto nga mobangon ug modagan dayon, o gusto nga mogamit sa pinakabag-o nga himan sa panukiduki sa ML.
Gitugotan ka niini sa paghimo ug predictive data model sa pipila lang ka linya sa code ug dayon gamiton kana nga modelo aron mohaum sa imong data isip high-level library. Kini flexible ug maayo sa uban Mga librarya sa Python sama sa Matplotlib para sa pag-chart, NumPy para sa array vectorization, ug pandas para sa data visualization.
Niini nga giya, mahibal-an nimo ang tanan kung unsa kini, kung giunsa nimo kini magamit, kauban ang mga kaayohan ug kahusay niini.
Unsa ang Scikit-pagkat-on?
Ang Scikit-learn (nailhan usab nga sklearn) nagtanyag usa ka lainlaing hugpong sa mga modelo sa istatistika ug pagkat-on sa makina. Dili sama sa kadaghanan nga mga module, ang sklearn gigama sa Python kaysa sa C. Bisan pa nga naugmad sa Python, ang kahusayan sa sklearn gipahinungod sa paggamit niini sa NumPy alang sa high-performance nga linear algebra ug array nga mga operasyon.
Ang Scikit-Learn gimugna isip kabahin sa proyekto sa Summer of Code sa Google ug sukad niadto naghimo sa kinabuhi sa minilyon nga Python-centric data scientist sa tibuok kalibutan nga mas simple. Kini nga seksyon sa serye nagpunting sa pagpresentar sa librarya ug pagtutok sa usa ka elemento - ang mga pagbag-o sa dataset, nga usa ka yawe ug hinungdanon nga lakang nga buhaton sa dili pa maghimo usa ka modelo sa panagna.
Ang librarya gibase sa SciPy (Scientific Python), nga kinahanglang i-install sa dili pa nimo magamit ang scikit-learn. Kini nga stack naglangkob sa mosunod nga mga butang:
- NumPy: Ang standard n-dimensional array package sa Python
- SciPy: Kini usa ka sukaranan nga pakete alang sa siyentipikong pagkalkula
- Pandas: Mga istruktura sa datos ug pagtuki
- Matplotlib: Kini usa ka gamhanan nga librarya sa pagplano sa 2D/3D
- Sympy: Simboliko nga matematika
- IPython: Gipauswag nga interactive console
Mga aplikasyon sa librarya sa pagkat-on sa Scikit
Ang Scikit-learn usa ka open-source nga Python nga pakete nga adunay sopistikado nga pagtuki sa datos ug mga bahin sa pagmina. Nag-abut kini sa daghang mga built-in nga algorithm aron matabangan ka nga makuha ang labing kaayo sa imong mga proyekto sa syensya sa datos. Ang Scikit-learn library gigamit sa mosunod nga mga paagi.
1. Pagbalikbalik
Ang pag-analisa sa pagbalik usa ka estadistika nga teknik alang sa pag-analisar ug pagsabut sa koneksyon tali sa duha o daghan pa nga mga variable. Ang pamaagi nga gigamit sa paghimo sa regression analysis makatabang sa pagtino kung unsang mga elemento ang may kalabutan, nga mahimong ibaliwala, ug kung giunsa kini makig-uban. Pananglitan, ang mga teknik sa regression mahimong gamiton aron mas masabtan ang kinaiya sa mga presyo sa stock.
Ang mga algorithm sa regression naglakip sa:
- Linear nga Pagbag-o
- Pagbalik sa Ridge
- Pag-usab sa Lasso
- Pagbag-o sa Desisyon sa Punoan
- Random nga Lasang
- Suporta sa Vector Machines (SVM)
2. Klasipikasyon
Ang pamaagi sa Klasipikasyon usa ka pamaagi sa Supervised Learning nga naggamit sa datos sa pagbansay aron mahibal-an ang kategorya sa mga bag-ong obserbasyon. Ang usa ka algorithm sa Klasipikasyon nakakat-on gikan sa gihatag set sa datos o mga obserbasyon ug dayon giklasipikar ang dugang nga mga obserbasyon sa usa sa daghang mga klase o grupo. Mahimo kini, pananglitan, magamit sa pagklasipikar sa mga komunikasyon sa email ingon spam o dili.
Ang mga algorithm sa klasipikasyon naglakip sa mosunod:
- Logistic Regression
- K-Pinaduol nga mga Silingan
- Pagsuporta sa Vector Machine
- Kahoy nga Pagdesisyon
- Random nga Lasang
3. Clustering
Ang clustering algorithms sa Scikit-learn gigamit aron awtomatiko nga mahan-ay ang mga datos nga adunay parehas nga mga kabtangan sa mga set. Ang Clustering mao ang proseso sa paggrupo sa usa ka set sa mga butang aron ang mga naa sa parehas nga grupo mas parehas sa uban nga mga grupo. Ang datos sa kustomer, pananglitan, mahimong mabulag base sa ilang lokasyon.
Ang mga algorithm sa clustering naglakip sa mosunod:
- DB-SCAN
- K-Nagpasabot
- Mini-Batch K-Means
- Spectral Clustering
4. Pagpili sa Modelo
Ang mga algorithm sa pagpili sa modelo naghatag mga pamaagi alang sa pagtandi, pag-validate, ug pagpili sa labing maayo nga mga parameter ug mga modelo aron magamit sa mga inisyatibo sa siyensya sa datos. Gihatag nga datos, ang pagpili sa modelo mao ang problema sa pagpili sa usa ka istatistikal nga modelo gikan sa usa ka grupo sa mga modelo sa kandidato. Sa labing sukaranan nga mga kahimtang, ang usa ka nauna nga koleksyon sa datos gikonsiderar. Bisan pa, ang buluhaton mahimo usab nga maglakip sa disenyo sa mga eksperimento aron ang datos nga nakuha haom kaayo sa problema sa pagpili sa modelo.
Ang mga module sa pagpili sa modelo nga makapauswag sa katukma pinaagi sa pag-adjust sa mga parameter naglakip sa:
- Cross-validation
- Pagpangita sa Grid
- Sukdanan
5. Pagkunhod sa Dimensyon
Ang pagbalhin sa datos gikan sa taas nga dimensyon nga wanang ngadto sa ubos nga dimensyon nga wanang aron ang mubu nga dimensyon nga representasyon magpreserbar sa pipila ka mahinungdanong aspeto sa orihinal nga datos, mas maayo nga duol sa kinaiyanhong dimensyon niini, nailhan nga dimensionality reduction. Ang gidaghanon sa mga random variables alang sa pagtuki gipakunhod sa diha nga ang dimensionality pagkunhod. Ang outlying data, pananglitan, mahimong dili isipon nga makapauswag sa kahusayan sa mga visualization.
Ang algorithm sa Pagkunhod sa Dimensionality naglakip sa mosunod:
- Pinili nga kapilian
- Panguna nga Pagtuki sa Component (PCA)
Pag-instalar sa Scikit-pagkat-on
Ang NumPy, SciPy, Matplotlib, IPython, Sympy, ug Pandas gikinahanglan nga ma-install sa dili pa gamiton ang Scikit-learn. Atong i-install sila gamit ang pip gikan sa console (motrabaho ra alang sa Windows).
Atong i-install ang Scikit-pagkat-on karon nga atong na-install ang gikinahanglan nga mga librarya.
Features
Ang Scikit-learn, usahay nailhan nga sklearn, usa ka toolkit sa Python alang sa pagpatuman sa mga modelo sa pagkat-on sa makina ug pagmodelo sa istatistika. Mahimo natong gamiton kini sa paghimo og daghang mga modelo sa pagkat-on sa makina alang sa regression, klasipikasyon, ug clustering, ingon man mga gamit sa istatistika para sa pagsusi niini nga mga modelo. Naglakip usab kini sa pagkunhod sa dimensyon, pagpili sa bahin, pagkuha sa bahin, mga pamaagi sa ensemble, ug mga built-in nga dataset. Susihon nato ang matag usa niini nga mga hiyas sa tagsa-tagsa.
1. Pag-import sa mga Dataset
Ang Scikit-learn naglakip sa usa ka gidaghanon sa pre-built datasets, sama sa iris dataset, home price dataset, titanic dataset, ug uban pa. Ang yawe nga mga bentaha sa kini nga mga datos mao nga kini yano nga masabtan ug magamit aron mapalambo dayon ang mga modelo sa ML. Kini nga mga datos angay alang sa mga bag-ohan. Sa susama, mahimo nimong gamiton ang sklearn aron maka-import og dugang nga mga dataset. Sa susama, mahimo nimong gamiton kini sa pag-import og dugang nga mga dataset.
2. Pagbahin sa Dataset para sa Paghanas ug Pagsulay
Ang Sklearn naglakip sa abilidad sa pagbahin sa dataset ngadto sa pagbansay ug pagsulay nga mga bahin. Ang pagbahin sa dataset gikinahanglan alang sa walay pagpihig nga pagtimbang-timbang sa performance sa panagna. Mahimo natong ipiho kung pila sa atong mga datos ang kinahanglan iapil sa mga set sa tren ug pagsulay. Gibahin namo ang dataset gamit ang train test split sa ingon nga ang train set naglangkob sa 80% sa data ug ang test set adunay 20%. Ang dataset mahimong bahinon sama sa mosunod:
3. Linear Regression
Ang Linear Regression usa ka supervised learning-based machine learning technique. Naghimo kini usa ka trabaho sa pag-regression. Pinasukad sa mga independent variable, ang regression nagmodelo sa usa ka kantidad sa pagtagna sa katuyoan. Kasagaran kini gigamit aron mahibal-an ang sumpay tali sa mga variable ug pagtagna. Nagkalainlain nga mga modelo sa regression lahi sa termino sa matang sa koneksyon nga ilang gitimbang-timbang tali sa nagsalig ug independente nga mga variable, ingon man ang gidaghanon sa mga independent variable nga gigamit. Makahimo lang kita og Linear Regression nga modelo gamit ang sklearn sama sa mosunod:
4. Logistic Regression
Ang usa ka kasagarang pamaagi sa pagkategorya mao ang logistic regression. Naa kini sa parehas nga pamilya sa polynomial ug linear regression ug nahisakop sa linear classifier nga pamilya. Ang mga nahibal-an sa logistic regression yano nga masabtan ug dali nga makalkula. Sa parehas nga paagi sama sa linear regression, ang logistic regression usa ka supervised regression technique. Ang output variable kay categorical, mao nga kana ra ang kalainan. Kini makatino kung ang usa ka pasyente adunay sakit sa kasingkasing o wala.
Ang lain-laing mga isyu sa klasipikasyon, sama sa spam detection, mahimong masulbad gamit ang logistic regression. Pagtagna sa diabetes, pagtino kung ang usa ka konsumedor mopalit usa ka piho nga produkto o mobalhin sa usa ka kaatbang, pagtino kung ang usa ka tiggamit mag-klik sa usa ka piho nga link sa pagpamaligya, ug daghan pa nga mga senaryo pipila ra nga mga pananglitan.
5. Desisyon nga Punoan
Ang labing kusgan ug kaylap nga gigamit nga klasipikasyon ug pamaagi sa pagtagna mao ang punoan sa desisyon. Ang decision tree kay usa ka estruktura sa kahoy nga morag flowchart, nga ang matag internal node nagrepresentar sa pagsulay sa usa ka attribute, ang matag sanga nagrepresentar sa konklusyon sa pagsulay, ug ang matag leaf node (terminal node) nagkupot ug class label.
Kung ang dependent variables walay linear nga relasyon sa independent variables, ie kung ang linear regression dili makahatag ug saktong findings, ang decision trees mapuslanon. Ang DecisionTreeRegression() nga butang mahimong gamiton sa susamang paagi sa paggamit sa decision tree para sa regression.
6. Random nga Lasang
Ang usa ka random nga lasang mao ang a pagkat-on sa makina pamaagi alang sa pagsulbad sa mga isyu sa regression ug klasipikasyon. Gigamit niini ang pagkat-on sa ensemble, nga usa ka teknik nga naghiusa sa daghang mga klasipikasyon aron masulbad ang mga komplikado nga problema. Ang usa ka random nga pamaagi sa kalasangan gilangkoban sa daghang gidaghanon sa mga punoan sa desisyon. Mahimong gamiton kini sa pagklasipikar sa mga aplikasyon sa pautang, pag-ila sa malimbungon nga kinaiya, ug pagpaabut sa mga outbreak sa sakit.
7. Kalibog Matrix
Ang confusion matrix maoy usa ka lamesa nga gigamit sa paghubit sa klasipikasyon nga pasundayag sa modelo. Ang mosunod nga upat ka mga pulong gigamit sa pagsusi sa confusion matrix:
- Tinuod nga Positibo: Nagpasabot kini nga ang modelo nagplano ug paborableng resulta ug kini husto.
- Tinuod nga Negatibo: Nagpasabut kini nga ang modelo nagplano sa usa ka dili maayo nga sangputanan ug kini husto.
- Sayop nga Positibo: Nagpasabot kini nga ang modelo nagpaabot ug paborableng resulta apan kini negatibo gayod.
- Bakak nga Negatibo: Nagpasabot kini nga ang modelo nagpaabot ug negatibo nga resulta, samtang ang resulta positibo gayod.
Pagpatuman sa Confusion matrix:
pros
- Kini yano nga gamiton.
- Ang pakete sa pagkat-on sa Scikit labi ka mapahiangay ug mapuslanon, nagserbisyo sa tinuud nga mga katuyoan sa kalibutan sama sa prediksyon sa pamatasan sa mga konsumedor, pagpalambo sa neuroimage, ug uban pa.
- Ang mga tiggamit nga gusto nga makonektar ang mga algorithm sa ilang mga platform makit-an ang detalyado nga dokumentasyon sa API sa website nga pagkat-on sa Scikit.
- Daghang mga tagsulat, mga kolaborator, ug usa ka dako nga suporta sa online nga komunidad sa tibuuk kalibutan ug gipadayon ang Scikit-pagkat-on hangtod karon.
disbentaha
- Dili kini ang sulundon nga kapilian alang sa lawom nga pagtuon.
Panapos
Ang Scikit-pagkat-on usa ka kritikal nga pakete alang sa matag data scientist nga adunay lig-on nga pagsabot ug pipila ka kasinatian. Kini nga giya kinahanglan makatabang kanimo sa pagmaniobra sa datos gamit ang sklearn. Adunay daghan pa nga mga kapabilidad sa Scikit-pagkat-on nga imong madiskobrehan samtang ikaw nag-uswag pinaagi sa imong data science adventure. Ipakigbahin ang imong mga hunahuna sa mga komento.
Leave sa usa ka Reply