Leiðbeiningar fyrir byrjendur um Scikit-learn

Efnisyfirlit[Fela][Sýna]

Hvað er Scikit-learn?
Forrit Scikit-learn bókasafnsins+-
Setur upp Scikit-learn
Aðstaða +-
Kostir
Gallar
Niðurstaða

Ef þú ert Python forritari eða ef þú ert að leita að öflugu verkfærasetti til að nota til að kynna vélanám í framleiðslukerfi, þá er Scikit-learn bókasafn sem þú þarft að skoða.

Scikit-learn er vel skjalfest og einfalt í notkun, hvort sem þú ert nýr í vélanámi, vilt komast fljótt í gang eða vilt nota nýjasta ML rannsóknartólið.

Það gerir þér kleift að smíða forspárgagnalíkan í aðeins nokkrum línum af kóða og notar síðan það líkan til að henta gögnunum þínum sem bókasafni á háu stigi. Það er sveigjanlegt og virkar vel með öðrum Python bókasöfn eins og Matplotlib fyrir kortagerð, NumPy fyrir array vektorization og panda fyrir gagnasjón.

Í þessari handbók muntu komast að öllu um hvað það er, hvernig þú getur notað það, ásamt kostum og göllum þess.

Hvað er Scikit-læra?

Scikit-learn (einnig þekkt sem sklearn) býður upp á fjölbreytt sett af tölfræðilíkönum og vélanámi. Ólíkt flestum einingum er sklearn þróað í Python frekar en C. Þrátt fyrir að vera þróað í Python er skilvirkni sklearn rakin til notkunar þess á NumPy fyrir afkastamikla línulega algebru og fylkisaðgerðir.

Scikit-Learn var búið til sem hluti af Summer of Code verkefni Google og hefur síðan gert líf milljóna Python-miðlægra gagnafræðinga um allan heim einfaldara. Þessi hluti seríunnar leggur áherslu á að kynna bókasafnið og einblína á einn þátt - gagnapakkabreytingar, sem eru lykilatriði og mikilvægt skref til að taka áður en spálíkan er þróað.

Sklearn

Bókasafnið er byggt á SciPy (Scientific Python), sem þarf að setja upp áður en hægt er að nota scikit-learn. Þessi stafli inniheldur eftirfarandi hluti:

NumPy: Venjulegur n-víddar fylkispakki Python
SciPy: Það er grundvallarpakki fyrir vísindalega tölvuvinnslu
Pöndur: Gagnauppbygging og greining
Matplotlib: Það er öflugt 2D/3D samsærissafn
Sympy: Táknræn stærðfræði
IPython: Bætt gagnvirk stjórnborð

Forrit Scikit-learn bókasafnsins

Scikit-learn er opinn Python pakki með háþróaðri gagnagreiningu og námuvinnslueiginleikum. Það kemur með ofgnótt af innbyggðum reikniritum til að hjálpa þér að fá sem mest út úr gagnavísindaverkefnum þínum. Scikit-learn bókasafnið er notað á eftirfarandi hátt.

1. Aðhvarf

Aðhvarfsgreining er tölfræðileg tækni til að greina og skilja tengsl tveggja eða fleiri breyta. Aðferðin sem notuð er til að gera aðhvarfsgreiningu hjálpar til við að ákvarða hvaða þættir skipta máli, hverjir má hunsa og hvernig þeir hafa samskipti. Aðhvarfstækni má til dæmis nota til að skilja betur hegðun hlutabréfaverðs.

Aðhvarfsreiknirit innihalda:

Aðhvarfsgreining
Ridge Regression
Lasso afturför
Ákvörðunartré afturför
Random Forest
Stuðningur við vektorvélar (SVM)

2. Flokkun

Flokkunaraðferðin er nálgun með eftirliti með þjálfun sem notar þjálfunargögn til að bera kennsl á flokk ferskra athugana. Reiknirit í flokkun lærir af tilteknu gagnapakkinn eða athuganir og flokkar síðan viðbótarathuganir í einn af mörgum flokkum eða hópum. Þeir geta til dæmis verið notaðir til að flokka tölvupóstsamskipti sem ruslpóst eða ekki.

Flokkunaralgrím innihalda eftirfarandi:

Logistic afturför
K-Næstu nágrannar
Styðjið Vector Machine
Ákvörðunartré
Random Forest

3. Klasun

Þyrpingaralgrímin í Scikit-learn eru notuð til að raða gögnum með svipaða eiginleika sjálfkrafa í sett. Klasing er ferlið við að flokka hóp af hlutum þannig að þeir sem eru í sama hópi séu líkari þeim í öðrum hópum. Gögn viðskiptavina gætu til dæmis verið aðskilin út frá staðsetningu þeirra.

Reiknirit fyrir klasa innihalda eftirfarandi:

DB-SCAN
K-Means
Mini-lotu K-Means
Litrófsþyrping

4. Gerð val

Reiknirit fyrir líkanaval veita aðferðir til að bera saman, sannprófa og velja ákjósanlegustu færibreytur og líkön til notkunar í gagnavísindum. Miðað við gögn er líkanaval vandamálið við að velja tölfræðilegt líkan úr hópi kandídatalíkana. Við grunnaðstæður er tekið tillit til gagnasöfnunar sem fyrir er. Hins vegar getur verkefnið einnig falið í sér hönnun tilrauna þannig að gögnin sem aflað er henti vel líkanavalsvandanum.

Líkanvalseiningar sem geta bætt nákvæmni með því að stilla færibreytur eru:

Krossfullgilding
Grid Search
Bragfræði

5. Víddarmækkun

Flutningur gagna frá hávíddarrými yfir í lágvíddarrými þannig að lágvíddarframsetningin varðveitir nokkra mikilvæga þætti upprunalegu gagna, helst nálægt eðlislægri vídd þeirra, er þekkt sem víddarminnkun. Fjöldi slembibreyta til greiningar minnkar þegar vídd er minnkað. Til dæmis er ekki hægt að líta svo á að fjarlæg gögn bæti skilvirkni sjónmynda.

Reiknirit til minnkunar víddar felur í sér eftirfarandi:

Lögun val
Helstu greiningarhlutar (PCA)

Setur upp Scikit-learn

NumPy, SciPy, Matplotlib, IPython, Sympy og Pandas þarf að setja upp áður en Scikit-learn er notað. Við skulum setja þau upp með því að nota pip frá stjórnborðinu (virkar aðeins fyrir Windows).

setja

Við skulum setja upp Scikit-learn núna þegar við höfum sett upp nauðsynleg bókasöfn.

Er að setja upp Sklearn

Aðstaða

Scikit-learn, stundum þekkt sem sklearn, er Python verkfærasett til að útfæra vélanámslíkön og tölfræðilega líkanagerð. Við gætum notað það til að búa til mörg vélanámslíkön fyrir aðhvarf, flokkun og þyrping, sem og tölfræðileg verkfæri til að meta þessi líkön. Það felur einnig í sér minnkun víddar, val á eiginleikum, útdrátt eiginleika, samstæðuaðferðir og innbyggð gagnasöfn. Við munum rannsaka hvern þessara eiginleika einn í einu.

1. Að flytja inn gagnasöfn

Scikit-learn inniheldur fjölda forsmíðaðra gagnasetta, svo sem lithimnugagnapakka, húsverðsgagnasetts, Titanic gagnasafns og svo framvegis. Helstu kostir þessara gagnasafna eru að þeir eru einfaldir að átta sig á og hægt er að nota þau til að þróa ML líkön strax. Þessi gagnasöfn eru viðeigandi fyrir byrjendur. Á sama hátt geturðu notað sklearn til að flytja inn viðbótargagnasöfn. Á sama hátt geturðu notað það til að flytja inn viðbótargagnasöfn.

Gagnasett

2. Skipta gagnasafni fyrir þjálfun og prófun

Sklearn innihélt hæfileikann til að skipta gagnasafninu í þjálfunar- og prófunarhluta. Nauðsynlegt er að skipta gagnasafninu upp fyrir óhlutdrægt mat á frammistöðu spá. Við gætum tilgreint hversu mikið af gögnum okkar ætti að vera með í lestar- og prófunargagnasöfnunum. Við skiptum gagnasafninu með því að nota lestarprófaskiptingu þannig að lestarsettið samanstendur af 80% af gögnunum og prófunarsettið hefur 20%. Hægt er að skipta gagnasafninu sem hér segir:

Klofning

3. Línuleg aðhvarf

Línuleg aðhvarf er vélanámstækni sem byggir á nám undir eftirliti. Það sinnir aðhvarfsvinnu. Byggt á óháðum breytum gerir aðhvarfslíkön markmiðsspágildi. Það er aðallega notað til að ákvarða tengsl milli breyta og spá. Mismunandi aðhvarfslíkön eru mismunandi hvað varðar tegund tengsla sem þau meta á milli háðra og óháðra breyta, sem og fjölda óháðra breyta sem notaðar eru. Við getum einfaldlega búið til línulega aðhvarfslíkanið með því að nota sklearn sem hér segir:

Aðhvarfsgreining

4. Logistic Regression

Algeng flokkunaraðferð er logistic regression. Það er í sömu fjölskyldu og margliða og línuleg aðhvarf og tilheyrir línulegu flokkunarfjölskyldunni. Niðurstöður skipulagslegrar aðhvarfs eru einfaldar að skilja og fljótlegar að reikna út. Á sama hátt og línuleg aðhvarf er logistic regression eftirlitsaðhvarfstækni. Úttaksbreytan er afdráttarlaus, svo það er eini munurinn. Það getur ákvarðað hvort sjúklingur er með hjartasjúkdóm eða ekki.

Ýmis flokkunarvandamál, svo sem ruslpóstsuppgötvun, má leysa með því að nota skipulagslega aðhvarf. Sykursýkisspá, ákvarða hvort neytandi muni kaupa ákveðna vöru eða skipta yfir í keppinaut, ákvarða hvort notandi muni smella á tiltekinn markaðstengil og margar fleiri aðstæður eru aðeins nokkur dæmi.

Logistic afturför

5. Ákvörðunartré

Öflugasta og mest notaða flokkunar- og spátæknin er ákvörðunartréð. Ákvörðunartré er trébygging sem lítur út eins og flæðirit, þar sem hver innri hnút táknar próf á eigind, hver grein táknar niðurstöðu prófsins og hver laufhnút (endahnút) hefur flokksmerki.

Þegar háðu breyturnar eru ekki í línulegu sambandi við óháðu breyturnar, þ.e. þegar línuleg aðhvarf gefur ekki réttar niðurstöður, eru ákvörðunartré gagnleg. Hægt er að nota DecisionTreeRegression() hlutinn á svipaðan hátt til að nota ákvörðunartré fyrir aðhvarf.

Ákvörðunartré

6. Random Forest

Tilviljunarkenndur skógur er a vél nám nálgun til að leysa aðhvarfs- og flokkunarvandamál. Það notar ensemble learning, sem er tækni sem sameinar marga flokkara til að leysa flókin vandamál. Tilviljunarkennd skógaraðferð samanstendur af miklum fjölda ákvörðunartrjáa. Það getur verið notað til að flokka lánsumsóknir, greina sviksamlega hegðun og sjá fyrir uppkomu sjúkdóma.

Random Forest

7. Rugl fylki

Ruglingsfylki er tafla sem notuð er til að lýsa frammistöðu flokkunarlíkans. Eftirfarandi fjögur orð eru notuð til að skoða ruglingsfylki:

Satt jákvætt: Það gefur til kynna að líkanið spáði hagstæðri niðurstöðu og það var rétt.
Satt neikvætt: Það táknar að líkanið spáði slæmri niðurstöðu og það var rétt.
Falskt jákvætt: Það gefur til kynna að líkanið bjóst við hagstæðri niðurstöðu en það var í raun neikvæð.
Falskt neikvætt: Það táknar að líkanið bjóst við neikvæðri niðurstöðu en útkoman var virkilega jákvæð.

Rugl Matrix mynd

Útfærsla ruglingsfylkis:

Ruglingsmælingar

Kostir

Það er einfalt í notkun.
Scikit-learn pakkinn er einstaklega aðlögunarhæfur og gagnlegur, þjónar raunverulegum markmiðum eins og spá um neytendahegðun, þróun taugamynda og svo framvegis.
Notendur sem vilja tengja reikniritin við pallana sína munu finna ítarleg API skjöl á Scikit-learn vefsíðunni.
Fjölmargir höfundar, samstarfsaðilar og stórt netsamfélag um allan heim styðja og halda Scikit-learn uppfærðu.

Gallar

Það er ekki kjörinn kostur fyrir ítarlegt nám.

Niðurstaða

Scikit-learn er mikilvægur pakki fyrir hvern gagnafræðing til að hafa góð tök á og reynslu af. Þessi handbók ætti að hjálpa þér við meðferð gagna með sklearn. Það eru margir fleiri möguleikar Scikit-learn sem þú munt uppgötva þegar þú ferð í gegnum gagnavísindaævintýrið þitt. Deildu hugsunum þínum í athugasemdunum.

Leiðbeiningar fyrir byrjendur fyrir Scikit-learn

Hvað er Scikit-læra?