Rêberek Destpêkek Ji bo Fêrbûna Scikit

Table of Contents[Veşartin][Rêdan]

Scikit-learn çi ye?
Serlêdanên pirtûkxaneya Scikit-learn+- Ji
Sazkirina Scikit-learn
Features +- Ji
Pros
Stewrê
Xelasî

Ger hûn bernamesazek Python in an ger hûn li amûrek hêzdar digerin ku bikar bînin da ku fêrbûna makîneyê di pergalek hilberînê de bidin nasîn, Scikit-learn pirtûkxaneyek e ku hûn hewce ne ku lê binihêrin.

Scikit-learn baş-belgekirî ye û karanîna wê hêsan e, gelo hûn nû di fêrbûna makîneyê de ne, hûn dixwazin zû rabin û bimeşînin, an jî hûn dixwazin amûra lêkolîna ML ya herî nûjen bikar bînin.

Ew dihêle hûn tenê di çend rêzikên kodê de modelek daneya pêşbînîkirî ava bikin û dûv re wê modelê bikar bîne da ku daneyên we wekî pirtûkxaneyek astek bilind biguncîne. Ew maqûl e û bi yên din re baş dixebite pirtûkxaneyên Python wek Matplotlib ji bo xêzkirinê, NumPy ji bo vektorîzasyona array, û panda ji bo dîtina daneyan.

Di vê rêbernameyê de, hûn ê her tiştî li ser çi ye, hûn çawa dikarin wê bikar bînin, digel erênî û neyînîyên wê fêr bibin.

Çi ye Scikit-hîn bibin?

Scikit-learn (ku wekî sklearn jî tê zanîn) komek cûrbecûr modelên statîstîkî û fêrbûna makîneyê pêşkêşî dike. Berevajî piraniya modulan, sklearn li şûna C-yê di Python-ê de tête pêşve xistin. Tevî ku di Python-ê de hatî pêşve xistin jî, karbidestiya sklearn bi karanîna wê ya NumPy-yê ji bo karûbarên cebraya xêzikî û rêzikên bi performansa bilind ve tête diyar kirin.

Scikit-Learn wekî beşek projeya Summer of Code ya Google-ê hate afirandin û ji hingê ve jiyana bi mîlyonan zanyarên daneyên Python-navendî li seranserê cîhanê hêsan kir. Ev beşa rêzê balê dikişîne ser pêşkêşkirina pirtûkxaneyê û balê dikişîne ser yek hêmanê - veguherînên databasê, ku berî pêşxistina modelek pêşbîniyê gavavêtinek bingehîn û girîng e.

Sklearn

Pirtûkxane li ser bingeha SciPy (Python Zanistî) ye, ku berî ku hûn bikarin scikit-learn bikar bînin divê were saz kirin. Di vê stêkê de tiştên jêrîn hene:

NumPy: Pakêta rêza n-alî ya standard a Python
SciPy: Ew pakêtek bingehîn e ji bo hesabkirina zanistî
Pandas: Struktur û analîzên daneyê
Matplotlib: Ew pirtûkxaneyek plansaziya 2D/3D ya hêzdar e
Sympy: Matematîka sembolîk
IPython: Konsolê înteraktîf a pêşkeftî

Serlêdanên pirtûkxaneya Scikit-learn

Scikit-learn pakêtek Python-a-çavkaniya vekirî ye ku bi analîza daneya sofîstîke û taybetmendiyên madenê ve girêdayî ye. Ew bi gelek algorîtmayên çêkirî ve tê ku ji we re bibe alîkar ku hûn herî zêde ji projeyên zanistiya daneya xwe bistînin. Pirtûkxaneya Scikit-learn bi awayên jêrîn tê bikaranîn.

1. Paşveçûn

Analîza regresyonê teknîkek îstatîstîkî ye ku ji bo vekolîn û têgihîştina pêwendiya di navbera du an çend guherbaran de ye. Rêbaza ku ji bo analîzkirina regresyonê tê bikar anîn di destnîşankirina kîjan hêmanan de têkildar in, yên ku dikarin werin paşguh kirin, û çawa ew bi hev re têkildar in alîkar dike. Mînakî, teknîkên regresyonê dikare were bikar anîn da ku tevgera bihayên stokan baştir fam bike.

Algorîtmayên Regresyonê ev in:

Regression Linear
Ridge Regression
Vegerandina Lasso
Regression Dara Biryarê
Random Forest
Makîneyên Vektora Piştgiriyê (SVM)

2. Dabeşandin

Rêbaza Dabeşkirinê rêgezek Fêrbûna Çavdêrî ye ku daneyên perwerdehiyê bikar tîne da ku kategoriya çavdêriyên nû nas bike. Di Classification de algorîtmayek ji diyariyekê fêr dibe databas an çavdêriyan û dûv re çavdêriyên din li yek ji gelek çîn an koman dabeş dike. Mînakî, ew dikarin werin bikar anîn da ku danûstendinên e-nameyê wekî spam binav bikin an na.

Algorîtmayên dabeşkirinê yên jêrîn hene:

Regression Logistic
K-Nêziktirîn Cîran
Piştgiriya Vector Machine
Dara Biryarê
Random Forest

3. Kombûn

Algorîtmayên komkirinê yên di Scikit-learn de têne bikar anîn da ku bixweber daneyên xwedan taybetmendiyên wekhev di nav koman de rêz bikin. Clustering pêvajoya komkirina komek tiştan e, da ku yên di heman komê de bêtir dişibin yên di komên din de. Mînakî, daneyên xerîdar, dibe ku li gorî cîhê wan were veqetandin.

Algorîtmayên komkirinê yên jêrîn hene:

DB-SCAN
K-Means
Mini-Batch K-Wateya
Clustering Spectral

4. Hilbijartina Model

Algorîtmayên bijartina modelê ji bo berhevkirin, verastkirin û hilbijartina pîvan û modelên çêtirîn ji bo karanîna di destpêşxeriyên zanistiya daneyê de rêbazan peyda dikin. Daneyên hatî dayîn, hilbijartina modelê pirsgirêka hilbijartina modelek statîstîkî ji komek modelên berendam e. Di şert û mercên herî bingehîn de, berhevokek berê ya daneyan tê hesibandin. Lêbelê, dibe ku peywir di heman demê de sêwirana ceribandinan jî bihewîne da ku daneyên ku hatine bidestxistin bi pirsgirêka hilbijartina modelê re xweş be.

Modulên bijartina modela ku dikarin bi verastkirina parametreyan rastbûnê baştir bikin ev in:

Cross-validation
Grid Search
Metrics

5. Kêmkirina Dimensionality

Veguheztina daneyan ji cîhek pir-dimensîyonî berbi cîhek kêm-dimensîyonî da ku temsîla kêm-alî hin aliyên girîng ên daneya orîjînal biparêze, bi îdeal nêzî pîvana wê ya xwerû, wekî kêmkirina pîvanê tê zanîn. Hejmara guhêrbarên tesadufî yên ji bo analîzê kêm dibe dema ku pîvan kêm dibe. Mînakî, daneyên derveyî, dibe ku neyên hesibandin ku kargêriya dîmenan baştir bikin.

Algorîtmaya Kêmkirina Dimensionality jêrîn pêk tîne:

Hilbijartina taybetmendiyê
Analîza Komponenta Sereke (PCA)

Sazkirina Scikit-learn

Pêdivî ye ku NumPy, SciPy, Matplotlib, IPython, Sympy, û Pandas berî ku Scikit-learn bikar bînin werin saz kirin. Ka em wan bi karanîna pip ji konsolê saz bikin (tenê ji bo Windows-ê dixebite).

Lêkirin

Werin em Scikit-learn saz bikin naha ku me pirtûkxaneyên pêwîst saz kirine.

Sazkirina Sklearn

Features

Scikit-learn, carinan wekî sklearn tê zanîn, amûrek Python e ku ji bo pêkanîna modelên fêrbûna makîneyê û modelkirina statîstîkî ye. Dibe ku em wê bikar bînin da ku gelek modelên fêrbûna makîneyê ji bo paşveçûn, dabeşkirin, û komkirinê, û her weha amûrên statîstîkî ji bo nirxandina van modelan biafirînin. Di heman demê de kêmkirina pîvanê, bijartina taybetmendiyê, derxistina taybetmendiyê, nêzîkatiyên ensembleyê, û danûstendinên çêkirî jî vedihewîne. Em ê her yek ji van taybetmendiyan yek bi yek lêkolîn bikin.

1. Importing Datasets

Scikit-learn jimareyek danehevên pêş-avakirî, wek databasa iris, daneya bihayê xanî, databasa tîtanîk, û hwd vedihewîne. Feydeyên sereke yên van danezan ev e ku ew hêsan têne fêm kirin û dikarin werin bikar anîn da ku tavilê modelên ML pêşve bibin. Van daneyan ji bo nûxwazan guncan in. Bi heman rengî, hûn dikarin sklearn bikar bînin ku danûstendinên din derxînin. Bi heman rengî, hûn dikarin wê bikar bînin da ku databasên din derxînin.

Dataset

2. Dabeşkirina Daneyên ji bo Perwerde û Testkirinê

Sklearn şiyana dabeşkirina databasê li beşên perwerdehî û ceribandinê vedihewîne. Ji bo nirxandinek bêalî ya performansa pêşbîniyê dabeşkirina databasê hewce ye. Dibe ku em diyar bikin ka çiqas daneyên me divê di nav rêzên trên û ceribandinê de cih bigirin. Me bi karanîna dabeşkirina testa trênê databasê dabeş kir ku koma trênê% 80 ji daneyan pêk tîne û koma ceribandinê jî 20%. Danaset dikare bi vî rengî were dabeş kirin:

Parçekirin

3. Rêjeya Rêjeyî

Linear Regression teknolojiyek fêrbûna makîneyê ya li ser bingeha fêrbûnê ye. Ew karekî paşveçûn pêk tîne. Li ser guhêrbarên serbixwe, modelên regresyonê nirxek pêşbîniya armancê çêdike. Ew bi piranî ji bo destnîşankirina girêdana di navbera guhêrbar û pêşbînîkirinê de tê bikar anîn. Modelên regresyonê yên cihêreng di warê celebê pêwendiya ku ew di navbera guhêrbarên girêdayî û serbixwe de dinirxînin, û her weha jimara guhêrbarên serbixwe yên ku têne bikar anîn cûda dibin. Em dikarin bi karanîna sklearn-ê wekî jêrîn modela Regression Linear biafirînin:

Regression Linear

4. Regression Lojîstîk

Nêzîkatiya kategorîzekirinê ya hevpar paşveçûna lojîstîkî ye. Ew di heman malbatê de wekî regresyona pirnomî û xêzikî ye û ji malbata senifkerê xêzkirî ye. Vedîtinên paşveçûna lojîstîkî ji bo têgihiştinê hêsan in û zû têne hesibandin. Bi heman awayî wekî paşveçûna xêzikî, vegerandina lojîstîk teknîkek vegerê ya çavdêrîkirî ye. Guherbara derketinê kategorîk e, ji ber vê yekê cûdahiya tenê ew e. Ew dikare diyar bike ka nexweşek nexweşiya dil heye an na.

Pirsgirêkên cûrbecûr dabeşkirinê, wekî tespîtkirina spam, dibe ku bi karanîna regresyona lojîstîkî were çareser kirin. Pêşbînkirina şekir, destnîşankirina gelo xerîdar dê hilberek taybetî bikire an veguhezîne hevrikek, destnîşankirina ka bikarhêner dê li ser girêdanek kirrûbirra taybetî bikirtîne, û gelek senaryoyên din tenê çend mînak in.

Regression Logistic

5. Dara Biryarê

Teknîka tesnîfkirin û pêşbîniyê ya herî bi hêz û pir tê bikar anîn dara biryarê ye. Dara biryarê avahiyek darê ye ku dişibihe nexşeyek herikînê, ku her girêka hundurîn ceribandinek li ser taybetmendiyekê temsîl dike, her şax encama ceribandinê temsîl dike, û her girêkek pelê (girêka termînalê) etîketek polê digire.

Dema ku guhêrbarên girêdayî bi guhêrbarên serbixwe re têkiliyek xêzikî nebin, ango gava paşvekêşana xêzkirî encamên rast dernekeve, darên biryarê sûdmend in. Tişta DecisionTreeRegression() dikare bi rengek wekhev were bikar anîn da ku dara biryarê ji bo paşvekêşanê bikar bîne.

Dara Biryarê

6. Daristana Random

Daristaneke tesadufî a fêrbûna makîneyê nêzîkatiya ji bo çareserkirina pirsgirêkên regresyonê û dabeşkirinê. Ew fêrbûna ensembleyê bikar tîne, ku teknîkek e ku gelek dabeşkeran bihevre dike da ku pirsgirêkên tevlihev çareser bike. Rêbazek daristana rasthatî ji hejmareke mezin a darên biryarê pêk tê. Dibe ku ew ji bo kategorîzekirina serîlêdanên krediyê, tespîtkirina behreyên xapînok, û pêşbîniya derketinên nexweşiyê were bikar anîn.

Random Forest

7. Matrix Confusion

Matrixek tevliheviyê tabloyek e ku ji bo danasîna performansa modela dabeşkirinê tê bikar anîn. Çar peyvên jêrîn ji bo vekolîna matrixa tevliheviyê têne bikar anîn:

Erênî rast: Ev tê wê wateyê ku modela encamek erênî pêşnîyaz kir û ew rast bû.
Neyînî ya Rast: Ew destnîşan dike ku modela encamek xirab pêşan da û ew rast bû.
Positive Derew: Ev tê wê wateyê ku modela li benda encamek erênî bû lê ew bi rastî jî neyînî bû.
Neyînî ya Derew: Ev tê wê wateyê ku model li benda encamek neyînî bû, di heman demê de encam bi rastî erênî bû.

Wêne Matrix Confusion

Pêkanîna matrixa tevliheviyê:

Metrics Tevlihevî

Pros

Bikaranîna wê hêsan e.
Pakêta fêrbûna Scikit zehf adaptable û bikêr e, ji armancên cîhana rastîn ên wekî pêşbîniya behremendiya xerîdar, pêşveçûna neuroimage, û hwd.
Bikarhênerên ku dixwazin algorîtmayan bi platformên xwe ve girêbidin dê li ser malpera Scikit-learn belgeyên API-ê yên berfireh bibînin.
Gelek nivîskar, hevkar, û civatek mezin a serhêl a cîhanê piştgirî dikin û Scikit-learn-ê nûve dikin.

Stewrê

Ew ne vebijarka îdeal e ji bo lêkolîna kûr.

Xelasî

Scikit-learn ji bo her zanyarê daneyê pakêtek krîtîk e ku têgihîştinek bihêz û hin ezmûnek pê re hebe. Pêdivî ye ku ev rêber bi karanîna sklearn-ê di manîpulasyona daneyê de ji we re bibe alîkar. Gelek kapasîteyên Scikit-learn-ê hene ku hûn ê gava ku hûn di nav serpêhatiya zanistiya daneya xwe de pêşve diçin kifş bikin. Di şîroveyan de ramanên xwe parve bikin.

Rêberek Destpêkek ji bo fêrbûna Scikit

Çi ye Scikit-hîn bibin?