Sisukord[Peida][Näita]
Kui olete Pythoni programmeerija või kui otsite võimsat tööriistakomplekti, mida kasutada masinõppe juurutamiseks tootmissüsteemi, on Scikit-learn raamatukogu, mida peate kontrollima.
Scikit-learn on hästi dokumenteeritud ja hõlpsasti kasutatav, olenemata sellest, kas olete masinõppes uustulnuk, soovite kiiresti tööle saada või kasutada kõige ajakohasemat ML-i uurimistööriista.
See võimaldab teil koostada ennustava andmemudeli vaid mõnest koodireast ja seejärel kasutab seda mudelit teie andmete sobitamiseks kõrgetasemelise raamatukoguna. See on paindlik ja sobib hästi teistega Pythoni raamatukogud nagu Matplotlib diagrammi koostamiseks, NumPy massiivi vektoriseerimiseks ja pandad andmete visualiseerimiseks.
Sellest juhendist saate teada kõike, mis see on, kuidas seda kasutada, ning selle plusse ja miinuseid.
Mis on Scikit-õppida?
Scikit-learn (tuntud ka kui sklearn) pakub mitmesuguseid statistilisi mudeleid ja masinõpet. Erinevalt enamikust moodulitest on sklearn välja töötatud Pythonis, mitte C-s. Vaatamata sellele, et sklearn on välja töötatud Pythonis, on sklearni tõhusus tingitud NumPy kasutamisest suure jõudlusega lineaaralgebra ja massiivioperatsioonide jaoks.
Scikit-Learn loodi osana Google'i projektist Summer of Code ja on sellest ajast alates muutnud miljonite Pythoni-kesksete andmeteadlaste elu üle maailma lihtsamaks. Seeria osa keskendub teegi esitlemisele ja keskendub ühele elemendile – andmestiku teisendustele, mis on enne ennustusmudeli väljatöötamist oluline ja oluline samm.
Teek põhineb SciPyl (Scientific Python), mis tuleb enne scikit-learni kasutamist installida. See virn sisaldab järgmisi üksusi:
- NumPy: Pythoni standardne n-mõõtmeline massiivipakett
- SciPy: see on teadusliku andmetöötluse põhipakett
- Pandad: andmestruktuurid ja analüüs
- Matplotlib: see on võimas 2D/3D graafikuteek
- Sympy: Sümboolne matemaatika
- IPython: täiustatud interaktiivne konsool
Scikit-learni raamatukogu rakendused
Scikit-learn on avatud lähtekoodiga Pythoni pakett keerukate andmeanalüüsi ja kaevandamise funktsioonidega. Sellel on palju sisseehitatud algoritme, mis aitavad teil andmeteaduse projektidest maksimumi võtta. Scikit-learni teeki kasutatakse järgmistel viisidel.
1. Taandareng
Regressioonanalüüs on statistiline meetod kahe või enama muutuja vahelise seose analüüsimiseks ja mõistmiseks. Regressioonanalüüsi tegemiseks kasutatav meetod aitab kindlaks teha, millised elemendid on asjakohased, mida võib ignoreerida ja kuidas need omavahel suhtlevad. Aktsiahindade käitumise paremaks mõistmiseks võib kasutada näiteks regressioonitehnikaid.
Regressioonialgoritmid hõlmavad järgmist:
- lineaarne regressioon
- Ridge'i regressioon
- Lasso taandareng
- Otsustuspuu regressioon
- Juhuslik mets
- Toetage vektormasinaid (SVM)
2. Klassifikatsioon
Klassifitseerimismeetod on juhendatud õppimise lähenemisviis, mis kasutab värskete vaatluste kategooria tuvastamiseks koolitusandmeid. Klassifikatsiooni algoritm õpib etteantust andmestik või vaatlused ja seejärel liigitab lisavaatlused ühte paljudest klassidest või rühmadest. Neid saab kasutada näiteks e-kirjade klassifitseerimiseks rämpspostiks või mitte.
Klassifitseerimisalgoritmid hõlmavad järgmist:
- Logistiline regressioon
- K-Lähimad naabrid
- Toetage vektormasinat
- Otsustuspuu
- Juhuslik mets
3. Klasterdamine
Scikit-learni rühmitusalgoritme kasutatakse sarnaste omadustega andmete automaatseks järjestamiseks komplektidesse. Klasterdamine on üksuste komplekti rühmitamine nii, et samas rühmas olevad elemendid oleksid sarnasemad teiste rühmade omadega. Näiteks võidakse kliendiandmeid nende asukoha alusel eraldada.
Klasterdamisalgoritmid hõlmavad järgmist:
- DB-SCAN
- K-tähendab
- Mini-partii K-vahendid
- Spektriklastri moodustamine
4. Mudeli valik
Mudelivaliku algoritmid pakuvad meetodeid optimaalsete parameetrite ja mudelite võrdlemiseks, valideerimiseks ja valimiseks andmeteaduse algatustes kasutamiseks. Arvestades andmeid, on mudeli valik kandidaatmudelite rühmast statistilise mudeli valimise probleem. Kõige elementaarsematel juhtudel võetakse arvesse juba olemasolevat andmekogu. Kuid ülesanne võib hõlmata ka katsete kavandamist nii, et saadud andmed sobiksid hästi mudelivaliku probleemiga.
Mudelivaliku moodulid, mis võivad parameetreid kohandades täpsust parandada, hõlmavad järgmist:
- Ristvalideerimine
- Võrguotsing
- Meetrika
5. Mõõtmete vähendamine
Andmete ülekandmist kõrgmõõtmelisest ruumist madalamõõtmelisse ruumi, nii et madaladimensiooniline esitus säilitab mõned olulised algandmete aspektid, ideaaljuhul nende loomupärase mõõtme lähedal, nimetatakse mõõtmete vähendamiseks. Analüüsitavate juhuslike muutujate arv väheneb dimensioonilisuse vähendamisel. Näiteks väliseid andmeid ei pruugita pidada visualiseerimiste tõhususe parandamiseks.
Mõõtmete vähendamise algoritm sisaldab järgmist:
- Funktsioonide valik
- Põhikomponentide analüüs (PCA)
Scikit-learni installimine
Enne Scikit-learni kasutamist tuleb installida NumPy, SciPy, Matplotlib, IPython, Sympy ja Pandas. Installime need konsoolist pipi abil (töötab ainult Windowsi jaoks).
Installime Scikit-learni nüüd, kui oleme installinud vajalikud teegid.
FUNKTSIOONID
Scikit-learn, mõnikord tuntud ka kui sklearn, on Pythoni tööriistakomplekt masinõppe mudelite ja statistilise modelleerimise rakendamiseks. Võime seda kasutada mitme masinõppemudeli loomiseks regressiooniks, klassifitseerimiseks ja rühmitamiseks, samuti statistiliste tööriistade loomiseks nende mudelite hindamiseks. See hõlmab ka mõõtmete vähendamist, funktsioonide valikut, funktsioonide ekstraheerimist, ansamblipõhiseid lähenemisviise ja sisseehitatud andmekogumeid. Uurime kõiki neid omadusi ükshaaval.
1. Andmekogumite importimine
Scikit-learn sisaldab mitmeid eelseadistatud andmekogumeid, nagu iirise andmestik, koduhinna andmestik, titanicu andmestik ja nii edasi. Nende andmekogumite peamised eelised on see, et neid on lihtne mõista ja neid saab kasutada ML-mudelite koheseks väljatöötamiseks. Need andmekogumid sobivad algajatele. Samamoodi võite kasutada sklearni täiendavate andmekogumite importimiseks. Samamoodi võite seda kasutada täiendavate andmekogumite importimiseks.
2. Andmestiku tükeldamine koolituse ja testimise jaoks
Sklearn sisaldas võimalust jagada andmestik koolitus- ja testimissegmentideks. Andmestiku tükeldamine on vajalik prognooside toimivuse erapooletuks hindamiseks. Võime täpsustada, kui palju meie andmeid tuleks rongi- ja katseandmekogumitesse kaasata. Jagasime andmestiku rongitesti jaotuse abil nii, et rongikomplekt sisaldab 80% andmetest ja testkomplekt 20%. Andmestiku võib jagada järgmiselt:
3. Lineaarne regressioon
Lineaarne regressioon on juhendatud õppepõhine masinõppetehnika. See teostab regressioonitööd. Sõltumatute muutujate põhjal modelleerib regressioon eesmärgi ennustusväärtust. Seda kasutatakse enamasti muutujate ja ennustamise vahelise seose määramiseks. Erinevad regressioonimudelid erinevad sõltuvate ja sõltumatute muutujate vahelise seose tüübi ning kasutatud sõltumatute muutujate arvu poolest. Lineaarse regressiooni mudeli saame lihtsalt sklearni abil luua järgmiselt:
4. Logistiline regressioon
Tavaline kategoriseerimisviis on logistiline regressioon. See kuulub samasse perekonda polünoomi ja lineaarse regressiooniga ning kuulub lineaarsete klassifikaatorite perekonda. Logistilise regressiooni tulemusi on lihtne mõista ja need on kiiresti arvutatavad. Sarnaselt lineaarse regressiooniga on logistiline regressioon kontrollitud regressioonitehnika. Väljundmuutuja on kategooriline, nii et see on ainus erinevus. See võib määrata, kas patsiendil on südamehaigus või mitte.
Erinevaid klassifitseerimisprobleeme, näiteks rämpsposti tuvastamist, saab lahendada logistilise regressiooni abil. Diabeedi prognoosimine, selle kindlaksmääramine, kas tarbija ostab konkreetse toote või läheb üle konkurendile, otsustamine, kas kasutaja klõpsab konkreetsel turunduslingil, ja paljud muud stsenaariumid on vaid mõned näited.
5. Otsuste puu
Kõige võimsam ja laialdasemalt kasutatav klassifitseerimis- ja ennustamistehnika on otsustuspuu. Otsustuspuu on puustruktuur, mis näeb välja nagu vooskeemi, kus iga sisemine sõlm esindab atribuudi testi, iga haru esindab testi järeldust ja iga lehe sõlm (terminali sõlm) kannab klassi silti.
Kui sõltuvatel muutujatel ei ole sõltumatute muutujatega lineaarset seost, st kui lineaarne regressioon ei anna õigeid tulemusi, on otsustuspuud kasulikud. Objekti DecisionTreeRegression() saab kasutada sarnasel viisil, et kasutada regressiooniks otsustuspuud.
6. Juhuslik mets
Juhuslik mets on a masinõpe lähenemine regressiooni- ja klassifitseerimisprobleemide lahendamiseks. See kasutab ansambliõpet, mis on meetod, mis kombineerib keeruliste probleemide lahendamiseks mitut klassifikaatorit. Juhuslik metsameetod koosneb suurest hulgast otsustuspuudest. Seda saab kasutada laenutaotluste kategoriseerimiseks, petturliku käitumise tuvastamiseks ja haiguspuhangute ennetamiseks.
7. Segadusmaatriks
Segadusmaatriks on tabel, mida kasutatakse klassifitseerimismudeli toimivuse kirjeldamiseks. Segaduse maatriksi uurimiseks kasutatakse nelja järgmist sõna:
- Tõeline positiivne: see näitab, et mudel prognoosis soodsat tulemust ja see oli õige.
- Tõeline negatiivne: see näitab, et mudelil oli halb tulemus ja see oli õige.
- Valepositiivne: see näitab, et mudel eeldas soodsat tulemust, kuid see oli tõesti negatiivne.
- Valenegatiivne: see tähendab, et mudel eeldas negatiivset tulemust, samas kui tulemus oli tõesti positiivne.
Segadusmaatriksi rakendamine:
Plusse
- Seda on lihtne kasutada.
- Scikit-learn pakett on äärmiselt kohandatav ja kasulik, teenides reaalseid eesmärke, nagu tarbijakäitumise ennustamine, neuropiltide arendamine jne.
- Kasutajad, kes soovivad algoritme oma platvormidega ühendada, leiavad üksikasjaliku API dokumentatsiooni Scikit-learni veebisaidilt.
- Arvukad autorid, koostööpartnerid ja suur ülemaailmne veebikogukond toetavad ja hoiavad Scikit-learni ajakohasena.
Miinused
- See ei ole ideaalne võimalus süvaõppeks.
Järeldus
Scikit-learn on iga andmeteadlase jaoks ülioluline pakett, millest peab olema tugev arusaam ja kogemus. See juhend peaks aitama teil sklearni abil andmeid töödelda. Scikit-learnil on palju muid võimalusi, mida avastate oma andmeteaduse seikluse käigus. Jagage oma mõtteid kommentaarides.
Jäta vastus