Scikit-learni juhend algajatele

Sisukord[Peida][Näita]

Mis on Scikit-learn?
Scikit-learni raamatukogu rakendused+-
Scikit-learni installimine
FUNKTSIOONID +-
Plusse
Miinused
Järeldus

Kui olete Pythoni programmeerija või kui otsite võimsat tööriistakomplekti, mida kasutada masinõppe juurutamiseks tootmissüsteemi, on Scikit-learn raamatukogu, mida peate kontrollima.

Scikit-learn on hästi dokumenteeritud ja hõlpsasti kasutatav, olenemata sellest, kas olete masinõppes uustulnuk, soovite kiiresti tööle saada või kasutada kõige ajakohasemat ML-i uurimistööriista.

See võimaldab teil koostada ennustava andmemudeli vaid mõnest koodireast ja seejärel kasutab seda mudelit teie andmete sobitamiseks kõrgetasemelise raamatukoguna. See on paindlik ja sobib hästi teistega Pythoni raamatukogud nagu Matplotlib diagrammi koostamiseks, NumPy massiivi vektoriseerimiseks ja pandad andmete visualiseerimiseks.

Sellest juhendist saate teada kõike, mis see on, kuidas seda kasutada, ning selle plusse ja miinuseid.

Mis on Scikit-õppida?

Scikit-learn (tuntud ka kui sklearn) pakub mitmesuguseid statistilisi mudeleid ja masinõpet. Erinevalt enamikust moodulitest on sklearn välja töötatud Pythonis, mitte C-s. Vaatamata sellele, et sklearn on välja töötatud Pythonis, on sklearni tõhusus tingitud NumPy kasutamisest suure jõudlusega lineaaralgebra ja massiivioperatsioonide jaoks.

Scikit-Learn loodi osana Google'i projektist Summer of Code ja on sellest ajast alates muutnud miljonite Pythoni-kesksete andmeteadlaste elu üle maailma lihtsamaks. Seeria osa keskendub teegi esitlemisele ja keskendub ühele elemendile – andmestiku teisendustele, mis on enne ennustusmudeli väljatöötamist oluline ja oluline samm.

Sklearn

Teek põhineb SciPyl (Scientific Python), mis tuleb enne scikit-learni kasutamist installida. See virn sisaldab järgmisi üksusi:

NumPy: Pythoni standardne n-mõõtmeline massiivipakett
SciPy: see on teadusliku andmetöötluse põhipakett
Pandad: andmestruktuurid ja analüüs
Matplotlib: see on võimas 2D/3D graafikuteek
Sympy: Sümboolne matemaatika
IPython: täiustatud interaktiivne konsool

Scikit-learni raamatukogu rakendused

Scikit-learn on avatud lähtekoodiga Pythoni pakett keerukate andmeanalüüsi ja kaevandamise funktsioonidega. Sellel on palju sisseehitatud algoritme, mis aitavad teil andmeteaduse projektidest maksimumi võtta. Scikit-learni teeki kasutatakse järgmistel viisidel.

1. Taandareng

Regressioonanalüüs on statistiline meetod kahe või enama muutuja vahelise seose analüüsimiseks ja mõistmiseks. Regressioonanalüüsi tegemiseks kasutatav meetod aitab kindlaks teha, millised elemendid on asjakohased, mida võib ignoreerida ja kuidas need omavahel suhtlevad. Aktsiahindade käitumise paremaks mõistmiseks võib kasutada näiteks regressioonitehnikaid.

Regressioonialgoritmid hõlmavad järgmist:

lineaarne regressioon
Ridge'i regressioon
Lasso taandareng
Otsustuspuu regressioon
Juhuslik mets
Toetage vektormasinaid (SVM)

2. Klassifikatsioon

Klassifitseerimismeetod on juhendatud õppimise lähenemisviis, mis kasutab värskete vaatluste kategooria tuvastamiseks koolitusandmeid. Klassifikatsiooni algoritm õpib etteantust andmestik või vaatlused ja seejärel liigitab lisavaatlused ühte paljudest klassidest või rühmadest. Neid saab kasutada näiteks e-kirjade klassifitseerimiseks rämpspostiks või mitte.

Klassifitseerimisalgoritmid hõlmavad järgmist:

Logistiline regressioon
K-Lähimad naabrid
Toetage vektormasinat
Otsustuspuu
Juhuslik mets

3. Klasterdamine

Scikit-learni rühmitusalgoritme kasutatakse sarnaste omadustega andmete automaatseks järjestamiseks komplektidesse. Klasterdamine on üksuste komplekti rühmitamine nii, et samas rühmas olevad elemendid oleksid sarnasemad teiste rühmade omadega. Näiteks võidakse kliendiandmeid nende asukoha alusel eraldada.

Klasterdamisalgoritmid hõlmavad järgmist:

DB-SCAN
K-tähendab
Mini-partii K-vahendid
Spektriklastri moodustamine

4. Mudeli valik

Mudelivaliku algoritmid pakuvad meetodeid optimaalsete parameetrite ja mudelite võrdlemiseks, valideerimiseks ja valimiseks andmeteaduse algatustes kasutamiseks. Arvestades andmeid, on mudeli valik kandidaatmudelite rühmast statistilise mudeli valimise probleem. Kõige elementaarsematel juhtudel võetakse arvesse juba olemasolevat andmekogu. Kuid ülesanne võib hõlmata ka katsete kavandamist nii, et saadud andmed sobiksid hästi mudelivaliku probleemiga.

Mudelivaliku moodulid, mis võivad parameetreid kohandades täpsust parandada, hõlmavad järgmist:

Ristvalideerimine
Võrguotsing
Meetrika

5. Mõõtmete vähendamine

Andmete ülekandmist kõrgmõõtmelisest ruumist madalamõõtmelisse ruumi, nii et madaladimensiooniline esitus säilitab mõned olulised algandmete aspektid, ideaaljuhul nende loomupärase mõõtme lähedal, nimetatakse mõõtmete vähendamiseks. Analüüsitavate juhuslike muutujate arv väheneb dimensioonilisuse vähendamisel. Näiteks väliseid andmeid ei pruugita pidada visualiseerimiste tõhususe parandamiseks.

Mõõtmete vähendamise algoritm sisaldab järgmist:

Funktsioonide valik
Põhikomponentide analüüs (PCA)

Scikit-learni installimine

Enne Scikit-learni kasutamist tuleb installida NumPy, SciPy, Matplotlib, IPython, Sympy ja Pandas. Installime need konsoolist pipi abil (töötab ainult Windowsi jaoks).

paigaldama

Installime Scikit-learni nüüd, kui oleme installinud vajalikud teegid.

Sklearni installimine

FUNKTSIOONID

Scikit-learn, mõnikord tuntud ka kui sklearn, on Pythoni tööriistakomplekt masinõppe mudelite ja statistilise modelleerimise rakendamiseks. Võime seda kasutada mitme masinõppemudeli loomiseks regressiooniks, klassifitseerimiseks ja rühmitamiseks, samuti statistiliste tööriistade loomiseks nende mudelite hindamiseks. See hõlmab ka mõõtmete vähendamist, funktsioonide valikut, funktsioonide ekstraheerimist, ansamblipõhiseid lähenemisviise ja sisseehitatud andmekogumeid. Uurime kõiki neid omadusi ükshaaval.

1. Andmekogumite importimine

Scikit-learn sisaldab mitmeid eelseadistatud andmekogumeid, nagu iirise andmestik, koduhinna andmestik, titanicu andmestik ja nii edasi. Nende andmekogumite peamised eelised on see, et neid on lihtne mõista ja neid saab kasutada ML-mudelite koheseks väljatöötamiseks. Need andmekogumid sobivad algajatele. Samamoodi võite kasutada sklearni täiendavate andmekogumite importimiseks. Samamoodi võite seda kasutada täiendavate andmekogumite importimiseks.

Andmebaas

2. Andmestiku tükeldamine koolituse ja testimise jaoks

Sklearn sisaldas võimalust jagada andmestik koolitus- ja testimissegmentideks. Andmestiku tükeldamine on vajalik prognooside toimivuse erapooletuks hindamiseks. Võime täpsustada, kui palju meie andmeid tuleks rongi- ja katseandmekogumitesse kaasata. Jagasime andmestiku rongitesti jaotuse abil nii, et rongikomplekt sisaldab 80% andmetest ja testkomplekt 20%. Andmestiku võib jagada järgmiselt:

Poolitamine

3. Lineaarne regressioon

Lineaarne regressioon on juhendatud õppepõhine masinõppetehnika. See teostab regressioonitööd. Sõltumatute muutujate põhjal modelleerib regressioon eesmärgi ennustusväärtust. Seda kasutatakse enamasti muutujate ja ennustamise vahelise seose määramiseks. Erinevad regressioonimudelid erinevad sõltuvate ja sõltumatute muutujate vahelise seose tüübi ning kasutatud sõltumatute muutujate arvu poolest. Lineaarse regressiooni mudeli saame lihtsalt sklearni abil luua järgmiselt:

lineaarne regressioon

4. Logistiline regressioon

Tavaline kategoriseerimisviis on logistiline regressioon. See kuulub samasse perekonda polünoomi ja lineaarse regressiooniga ning kuulub lineaarsete klassifikaatorite perekonda. Logistilise regressiooni tulemusi on lihtne mõista ja need on kiiresti arvutatavad. Sarnaselt lineaarse regressiooniga on logistiline regressioon kontrollitud regressioonitehnika. Väljundmuutuja on kategooriline, nii et see on ainus erinevus. See võib määrata, kas patsiendil on südamehaigus või mitte.

Erinevaid klassifitseerimisprobleeme, näiteks rämpsposti tuvastamist, saab lahendada logistilise regressiooni abil. Diabeedi prognoosimine, selle kindlaksmääramine, kas tarbija ostab konkreetse toote või läheb üle konkurendile, otsustamine, kas kasutaja klõpsab konkreetsel turunduslingil, ja paljud muud stsenaariumid on vaid mõned näited.

Logistiline regressioon

5. Otsuste puu

Kõige võimsam ja laialdasemalt kasutatav klassifitseerimis- ja ennustamistehnika on otsustuspuu. Otsustuspuu on puustruktuur, mis näeb välja nagu vooskeemi, kus iga sisemine sõlm esindab atribuudi testi, iga haru esindab testi järeldust ja iga lehe sõlm (terminali sõlm) kannab klassi silti.

Kui sõltuvatel muutujatel ei ole sõltumatute muutujatega lineaarset seost, st kui lineaarne regressioon ei anna õigeid tulemusi, on otsustuspuud kasulikud. Objekti DecisionTreeRegression() saab kasutada sarnasel viisil, et kasutada regressiooniks otsustuspuud.

Otsustuspuu

6. Juhuslik mets

Juhuslik mets on a masinõpe lähenemine regressiooni- ja klassifitseerimisprobleemide lahendamiseks. See kasutab ansambliõpet, mis on meetod, mis kombineerib keeruliste probleemide lahendamiseks mitut klassifikaatorit. Juhuslik metsameetod koosneb suurest hulgast otsustuspuudest. Seda saab kasutada laenutaotluste kategoriseerimiseks, petturliku käitumise tuvastamiseks ja haiguspuhangute ennetamiseks.

Juhuslik mets

7. Segadusmaatriks

Segadusmaatriks on tabel, mida kasutatakse klassifitseerimismudeli toimivuse kirjeldamiseks. Segaduse maatriksi uurimiseks kasutatakse nelja järgmist sõna:

Tõeline positiivne: see näitab, et mudel prognoosis soodsat tulemust ja see oli õige.
Tõeline negatiivne: see näitab, et mudelil oli halb tulemus ja see oli õige.
Valepositiivne: see näitab, et mudel eeldas soodsat tulemust, kuid see oli tõesti negatiivne.
Valenegatiivne: see tähendab, et mudel eeldas negatiivset tulemust, samas kui tulemus oli tõesti positiivne.

Segadusmaatriksi foto

Segadusmaatriksi rakendamine:

Segaduse mõõdikud

Plusse

Seda on lihtne kasutada.
Scikit-learn pakett on äärmiselt kohandatav ja kasulik, teenides reaalseid eesmärke, nagu tarbijakäitumise ennustamine, neuropiltide arendamine jne.
Kasutajad, kes soovivad algoritme oma platvormidega ühendada, leiavad üksikasjaliku API dokumentatsiooni Scikit-learni veebisaidilt.
Arvukad autorid, koostööpartnerid ja suur ülemaailmne veebikogukond toetavad ja hoiavad Scikit-learni ajakohasena.

Miinused

See ei ole ideaalne võimalus süvaõppeks.

Järeldus

Scikit-learn on iga andmeteadlase jaoks ülioluline pakett, millest peab olema tugev arusaam ja kogemus. See juhend peaks aitama teil sklearni abil andmeid töödelda. Scikit-learnil on palju muid võimalusi, mida avastate oma andmeteaduse seikluse käigus. Jagage oma mõtteid kommentaarides.

Scikit-learni juhend algajatele

Mis on Scikit-õppida?