Efnisyfirlit[Fela][Sýna]
Ef þú ert Python forritari eða ef þú ert að leita að öflugu verkfærasetti til að nota til að kynna vélanám í framleiðslukerfi, þá er Scikit-learn bókasafn sem þú þarft að skoða.
Scikit-learn er vel skjalfest og einfalt í notkun, hvort sem þú ert nýr í vélanámi, vilt komast fljótt í gang eða vilt nota nýjasta ML rannsóknartólið.
Það gerir þér kleift að smíða forspárgagnalíkan í aðeins nokkrum línum af kóða og notar síðan það líkan til að henta gögnunum þínum sem bókasafni á háu stigi. Það er sveigjanlegt og virkar vel með öðrum Python bókasöfn eins og Matplotlib fyrir kortagerð, NumPy fyrir array vektorization og panda fyrir gagnasjón.
Í þessari handbók muntu komast að öllu um hvað það er, hvernig þú getur notað það, ásamt kostum og göllum þess.
Hvað er Scikit-læra?
Scikit-learn (einnig þekkt sem sklearn) býður upp á fjölbreytt sett af tölfræðilíkönum og vélanámi. Ólíkt flestum einingum er sklearn þróað í Python frekar en C. Þrátt fyrir að vera þróað í Python er skilvirkni sklearn rakin til notkunar þess á NumPy fyrir afkastamikla línulega algebru og fylkisaðgerðir.
Scikit-Learn var búið til sem hluti af Summer of Code verkefni Google og hefur síðan gert líf milljóna Python-miðlægra gagnafræðinga um allan heim einfaldara. Þessi hluti seríunnar leggur áherslu á að kynna bókasafnið og einblína á einn þátt - gagnapakkabreytingar, sem eru lykilatriði og mikilvægt skref til að taka áður en spálíkan er þróað.
Bókasafnið er byggt á SciPy (Scientific Python), sem þarf að setja upp áður en hægt er að nota scikit-learn. Þessi stafli inniheldur eftirfarandi hluti:
- NumPy: Venjulegur n-víddar fylkispakki Python
- SciPy: Það er grundvallarpakki fyrir vísindalega tölvuvinnslu
- Pöndur: Gagnauppbygging og greining
- Matplotlib: Það er öflugt 2D/3D samsærissafn
- Sympy: Táknræn stærðfræði
- IPython: Bætt gagnvirk stjórnborð
Forrit Scikit-learn bókasafnsins
Scikit-learn er opinn Python pakki með háþróaðri gagnagreiningu og námuvinnslueiginleikum. Það kemur með ofgnótt af innbyggðum reikniritum til að hjálpa þér að fá sem mest út úr gagnavísindaverkefnum þínum. Scikit-learn bókasafnið er notað á eftirfarandi hátt.
1. Aðhvarf
Aðhvarfsgreining er tölfræðileg tækni til að greina og skilja tengsl tveggja eða fleiri breyta. Aðferðin sem notuð er til að gera aðhvarfsgreiningu hjálpar til við að ákvarða hvaða þættir skipta máli, hverjir má hunsa og hvernig þeir hafa samskipti. Aðhvarfstækni má til dæmis nota til að skilja betur hegðun hlutabréfaverðs.
Aðhvarfsreiknirit innihalda:
- Aðhvarfsgreining
- Ridge Regression
- Lasso afturför
- Ákvörðunartré afturför
- Random Forest
- Stuðningur við vektorvélar (SVM)
2. Flokkun
Flokkunaraðferðin er nálgun með eftirliti með þjálfun sem notar þjálfunargögn til að bera kennsl á flokk ferskra athugana. Reiknirit í flokkun lærir af tilteknu gagnapakkinn eða athuganir og flokkar síðan viðbótarathuganir í einn af mörgum flokkum eða hópum. Þeir geta til dæmis verið notaðir til að flokka tölvupóstsamskipti sem ruslpóst eða ekki.
Flokkunaralgrím innihalda eftirfarandi:
- Logistic afturför
- K-Næstu nágrannar
- Styðjið Vector Machine
- Ákvörðunartré
- Random Forest
3. Klasun
Þyrpingaralgrímin í Scikit-learn eru notuð til að raða gögnum með svipaða eiginleika sjálfkrafa í sett. Klasing er ferlið við að flokka hóp af hlutum þannig að þeir sem eru í sama hópi séu líkari þeim í öðrum hópum. Gögn viðskiptavina gætu til dæmis verið aðskilin út frá staðsetningu þeirra.
Reiknirit fyrir klasa innihalda eftirfarandi:
- DB-SCAN
- K-Means
- Mini-lotu K-Means
- Litrófsþyrping
4. Gerð val
Reiknirit fyrir líkanaval veita aðferðir til að bera saman, sannprófa og velja ákjósanlegustu færibreytur og líkön til notkunar í gagnavísindum. Miðað við gögn er líkanaval vandamálið við að velja tölfræðilegt líkan úr hópi kandídatalíkana. Við grunnaðstæður er tekið tillit til gagnasöfnunar sem fyrir er. Hins vegar getur verkefnið einnig falið í sér hönnun tilrauna þannig að gögnin sem aflað er henti vel líkanavalsvandanum.
Líkanvalseiningar sem geta bætt nákvæmni með því að stilla færibreytur eru:
- Krossfullgilding
- Grid Search
- Bragfræði
5. Víddarmækkun
Flutningur gagna frá hávíddarrými yfir í lágvíddarrými þannig að lágvíddarframsetningin varðveitir nokkra mikilvæga þætti upprunalegu gagna, helst nálægt eðlislægri vídd þeirra, er þekkt sem víddarminnkun. Fjöldi slembibreyta til greiningar minnkar þegar vídd er minnkað. Til dæmis er ekki hægt að líta svo á að fjarlæg gögn bæti skilvirkni sjónmynda.
Reiknirit til minnkunar víddar felur í sér eftirfarandi:
- Lögun val
- Helstu greiningarhlutar (PCA)
Setur upp Scikit-learn
NumPy, SciPy, Matplotlib, IPython, Sympy og Pandas þarf að setja upp áður en Scikit-learn er notað. Við skulum setja þau upp með því að nota pip frá stjórnborðinu (virkar aðeins fyrir Windows).
Við skulum setja upp Scikit-learn núna þegar við höfum sett upp nauðsynleg bókasöfn.
Aðstaða
Scikit-learn, stundum þekkt sem sklearn, er Python verkfærasett til að útfæra vélanámslíkön og tölfræðilega líkanagerð. Við gætum notað það til að búa til mörg vélanámslíkön fyrir aðhvarf, flokkun og þyrping, sem og tölfræðileg verkfæri til að meta þessi líkön. Það felur einnig í sér minnkun víddar, val á eiginleikum, útdrátt eiginleika, samstæðuaðferðir og innbyggð gagnasöfn. Við munum rannsaka hvern þessara eiginleika einn í einu.
1. Að flytja inn gagnasöfn
Scikit-learn inniheldur fjölda forsmíðaðra gagnasetta, svo sem lithimnugagnapakka, húsverðsgagnasetts, Titanic gagnasafns og svo framvegis. Helstu kostir þessara gagnasafna eru að þeir eru einfaldir að átta sig á og hægt er að nota þau til að þróa ML líkön strax. Þessi gagnasöfn eru viðeigandi fyrir byrjendur. Á sama hátt geturðu notað sklearn til að flytja inn viðbótargagnasöfn. Á sama hátt geturðu notað það til að flytja inn viðbótargagnasöfn.
2. Skipta gagnasafni fyrir þjálfun og prófun
Sklearn innihélt hæfileikann til að skipta gagnasafninu í þjálfunar- og prófunarhluta. Nauðsynlegt er að skipta gagnasafninu upp fyrir óhlutdrægt mat á frammistöðu spá. Við gætum tilgreint hversu mikið af gögnum okkar ætti að vera með í lestar- og prófunargagnasöfnunum. Við skiptum gagnasafninu með því að nota lestarprófaskiptingu þannig að lestarsettið samanstendur af 80% af gögnunum og prófunarsettið hefur 20%. Hægt er að skipta gagnasafninu sem hér segir:
3. Línuleg aðhvarf
Línuleg aðhvarf er vélanámstækni sem byggir á nám undir eftirliti. Það sinnir aðhvarfsvinnu. Byggt á óháðum breytum gerir aðhvarfslíkön markmiðsspágildi. Það er aðallega notað til að ákvarða tengsl milli breyta og spá. Mismunandi aðhvarfslíkön eru mismunandi hvað varðar tegund tengsla sem þau meta á milli háðra og óháðra breyta, sem og fjölda óháðra breyta sem notaðar eru. Við getum einfaldlega búið til línulega aðhvarfslíkanið með því að nota sklearn sem hér segir:
4. Logistic Regression
Algeng flokkunaraðferð er logistic regression. Það er í sömu fjölskyldu og margliða og línuleg aðhvarf og tilheyrir línulegu flokkunarfjölskyldunni. Niðurstöður skipulagslegrar aðhvarfs eru einfaldar að skilja og fljótlegar að reikna út. Á sama hátt og línuleg aðhvarf er logistic regression eftirlitsaðhvarfstækni. Úttaksbreytan er afdráttarlaus, svo það er eini munurinn. Það getur ákvarðað hvort sjúklingur er með hjartasjúkdóm eða ekki.
Ýmis flokkunarvandamál, svo sem ruslpóstsuppgötvun, má leysa með því að nota skipulagslega aðhvarf. Sykursýkisspá, ákvarða hvort neytandi muni kaupa ákveðna vöru eða skipta yfir í keppinaut, ákvarða hvort notandi muni smella á tiltekinn markaðstengil og margar fleiri aðstæður eru aðeins nokkur dæmi.
5. Ákvörðunartré
Öflugasta og mest notaða flokkunar- og spátæknin er ákvörðunartréð. Ákvörðunartré er trébygging sem lítur út eins og flæðirit, þar sem hver innri hnút táknar próf á eigind, hver grein táknar niðurstöðu prófsins og hver laufhnút (endahnút) hefur flokksmerki.
Þegar háðu breyturnar eru ekki í línulegu sambandi við óháðu breyturnar, þ.e. þegar línuleg aðhvarf gefur ekki réttar niðurstöður, eru ákvörðunartré gagnleg. Hægt er að nota DecisionTreeRegression() hlutinn á svipaðan hátt til að nota ákvörðunartré fyrir aðhvarf.
6. Random Forest
Tilviljunarkenndur skógur er a vél nám nálgun til að leysa aðhvarfs- og flokkunarvandamál. Það notar ensemble learning, sem er tækni sem sameinar marga flokkara til að leysa flókin vandamál. Tilviljunarkennd skógaraðferð samanstendur af miklum fjölda ákvörðunartrjáa. Það getur verið notað til að flokka lánsumsóknir, greina sviksamlega hegðun og sjá fyrir uppkomu sjúkdóma.
7. Rugl fylki
Ruglingsfylki er tafla sem notuð er til að lýsa frammistöðu flokkunarlíkans. Eftirfarandi fjögur orð eru notuð til að skoða ruglingsfylki:
- Satt jákvætt: Það gefur til kynna að líkanið spáði hagstæðri niðurstöðu og það var rétt.
- Satt neikvætt: Það táknar að líkanið spáði slæmri niðurstöðu og það var rétt.
- Falskt jákvætt: Það gefur til kynna að líkanið bjóst við hagstæðri niðurstöðu en það var í raun neikvæð.
- Falskt neikvætt: Það táknar að líkanið bjóst við neikvæðri niðurstöðu en útkoman var virkilega jákvæð.
Útfærsla ruglingsfylkis:
Kostir
- Það er einfalt í notkun.
- Scikit-learn pakkinn er einstaklega aðlögunarhæfur og gagnlegur, þjónar raunverulegum markmiðum eins og spá um neytendahegðun, þróun taugamynda og svo framvegis.
- Notendur sem vilja tengja reikniritin við pallana sína munu finna ítarleg API skjöl á Scikit-learn vefsíðunni.
- Fjölmargir höfundar, samstarfsaðilar og stórt netsamfélag um allan heim styðja og halda Scikit-learn uppfærðu.
Gallar
- Það er ekki kjörinn kostur fyrir ítarlegt nám.
Niðurstaða
Scikit-learn er mikilvægur pakki fyrir hvern gagnafræðing til að hafa góð tök á og reynslu af. Þessi handbók ætti að hjálpa þér við meðferð gagna með sklearn. Það eru margir fleiri möguleikar Scikit-learn sem þú munt uppgötva þegar þú ferð í gegnum gagnavísindaævintýrið þitt. Deildu hugsunum þínum í athugasemdunum.
Skildu eftir skilaboð