Një udhëzues fillestar për të mësuarit Scikit

Përmbajtje[Fshih][Shfaqje]

Çfarë është Scikit-learn?
Aplikimet e bibliotekës Scikit-learn+-
Instalimi i Scikit-learn
karakteristika +-
rekuizitë
Cons
Përfundim

Nëse jeni një programues Python ose nëse jeni duke kërkuar për një mjet të fuqishëm për ta përdorur për të futur mësimin e makinerive në një sistem prodhimi, Scikit-learn është një bibliotekë që duhet ta shikoni.

Scikit-learn është i mirë-dokumentuar dhe i thjeshtë për t'u përdorur, pavarësisht nëse jeni i ri në mësimin e makinerive, dëshironi të filloni dhe të funksiononi shpejt ose dëshironi të përdorni mjetin më të përditësuar të kërkimit ML.

Kjo ju lejon të ndërtoni një model të dhënash parashikuese në vetëm disa rreshta kodi dhe më pas e përdor atë model për t'iu përshtatur të dhënave tuaja si një bibliotekë e nivelit të lartë. Është fleksibël dhe funksionon mirë me të tjerët Bibliotekat Python si Matplotlib për grafikim, NumPy për vektorizimin e grupeve dhe pandat për vizualizimin e të dhënave.

Në këtë udhëzues, do të mësoni gjithçka për atë që është, si mund ta përdorni, së bashku me të mirat dhe të këqijat e tij.

Çfarë është Shkul-mëso?

Scikit-learn (i njohur gjithashtu si sklearn) ofron një grup të larmishëm modelesh statistikore dhe mësimin e makinerive. Ndryshe nga shumica e moduleve, sklearn zhvillohet në Python dhe jo në C. Pavarësisht se është zhvilluar në Python, efikasiteti i sklearn i atribuohet përdorimit të NumPy për algjebër lineare me performancë të lartë dhe operacione me grupe.

Scikit-Learn u krijua si pjesë e projektit Summer of Code të Google dhe që atëherë ka bërë më të thjeshtë jetën e miliona shkencëtarëve të të dhënave të përqendruara te Python në të gjithë botën. Ky seksion i serisë fokusohet në prezantimin e bibliotekës dhe fokusimin në një element - transformimet e të dhënave, të cilat janë një hap kyç dhe jetik për t'u ndërmarrë përpara zhvillimit të një modeli parashikimi.

Mësoj

Biblioteka bazohet në SciPy (Scientific Python), i cili duhet të instalohet përpara se të mund të përdorni scikit-learn. Kjo pirg përmban artikujt e mëposhtëm:

NumPy: Paketa standarde e grupit n-dimensionale të Python
SciPy: Është një paketë themelore për llogaritjen shkencore
Pandat: Strukturat dhe analiza e të dhënave
Matplotlib: Është një bibliotekë e fuqishme komploti 2D/3D
Sympy: Matematikë simbolike
IPython: Konsolë interaktive e përmirësuar

Aplikimet e bibliotekës Scikit-learn

Scikit-learn është një paketë Python me burim të hapur me karakteristika të sofistikuara të analizës së të dhënave dhe minierave. Ai vjen me një mori algoritmesh të integruara për t'ju ndihmuar të përfitoni sa më shumë nga projektet tuaja të shkencës së të dhënave. Biblioteka Scikit-learn përdoret në mënyrat e mëposhtme.

1. Regresioni

Analiza e regresionit është një teknikë statistikore për të analizuar dhe kuptuar lidhjen midis dy ose më shumë variablave. Metoda e përdorur për të bërë analizën e regresionit ndihmon në përcaktimin se cilët elementë janë të rëndësishëm, cilët mund të injorohen dhe si ndërveprojnë. Teknikat e regresionit, për shembull, mund të përdoren për të kuptuar më mirë sjelljen e çmimeve të aksioneve.

Algoritmet e regresionit përfshijnë:

Linear regresionit
Regresioni i kreshtës
Regresioni Lasso
Regresioni i pemës së vendimit
Pylli i rastësishëm
Makinat me vektor mbështetës (SVM)

2. Klasifikimi

Metoda e klasifikimit është një qasje e të mësuarit të mbikëqyrur që përdor të dhënat e trajnimit për të identifikuar kategorinë e vëzhgimeve të reja. Një algoritëm në Klasifikim mëson nga një e dhënë databaza ose vëzhgime dhe më pas klasifikon vëzhgimet shtesë në një nga shumë klasa ose grupime. Ato, për shembull, mund të përdoren për të klasifikuar komunikimet me email si të padëshiruara ose jo.

Algoritmet e klasifikimit përfshijnë si më poshtë:

Regresioni logjistik
K-Fqinjët më të afërt
Makina Vektoriale Mbështetëse
Pema e Vendimit
Pylli i rastësishëm

3. Grumbullimi

Algoritmet e grupimit në Scikit-learn përdoren për të rregulluar automatikisht të dhënat me veti të ngjashme në grupe. Grumbullimi është procesi i grupimit të një grupi artikujsh në mënyrë që ata në të njëjtin grup të jenë më të ngjashëm me ata në grupe të tjera. Të dhënat e klientit, për shembull, mund të ndahen në bazë të vendndodhjes së tyre.

Algoritmet e grupimit përfshijnë si më poshtë:

DB-SCAN
K-Mjetet
Mini-Batch K-Mjetet
Grumbullimi spektral

4. Zgjedhja e modelit

Algoritmet e përzgjedhjes së modeleve ofrojnë metoda për krahasimin, vërtetimin dhe përzgjedhjen e parametrave dhe modeleve optimale për përdorim në iniciativat e shkencës së të dhënave. Duke pasur parasysh të dhënat, përzgjedhja e modelit është problemi i zgjedhjes së një modeli statistikor nga një grup modelesh kandidate. Në rrethanat më themelore, merret parasysh një koleksion para-ekzistues i të dhënave. Megjithatë, detyra mund të përfshijë gjithashtu hartimin e eksperimenteve në mënyrë që të dhënat e marra të jenë të përshtatshme për problemin e përzgjedhjes së modelit.

Modulet e përzgjedhjes së modelit që mund të përmirësojnë saktësinë duke rregulluar parametrat përfshijnë:

Vërtetimi i kryqëzuar
Kërkimi në rrjet
Certifikatë lindjeje

5. Reduktimi i dimensioneve

Transferimi i të dhënave nga një hapësirë me dimensione të larta në një hapësirë me dimensione të ulëta në mënyrë që përfaqësimi me dimensione të ulëta të ruajë disa aspekte të rëndësishme të të dhënave origjinale, në mënyrë ideale afër dimensionit të saj të qenësishëm, njihet si reduktim i dimensionit. Numri i variablave të rastësishëm për analizë zvogëlohet kur dimensionaliteti zvogëlohet. Të dhënat periferike, për shembull, mund të mos konsiderohen për të përmirësuar efikasitetin e vizualizimeve.

Algoritmi i zvogëlimit të dimensioneve përfshin sa vijon:

Zgjedhja e funksioneve
Analiza e Komponentit Kryesor (PCA)

Instalimi i Scikit-learn

NumPy, SciPy, Matplotlib, IPython, Sympy dhe Panda duhet të instalohen përpara se të përdorni Scikit-learn. Le t'i instalojmë ato duke përdorur pip nga tastiera (funksionon vetëm për Windows).

Instaloj

Le të instalojmë Scikit-learn tani që kemi instaluar bibliotekat e kërkuara.

Instalimi i Sklearn

karakteristika

Scikit-learn, i njohur ndonjëherë si sklearn, është një paketë veglash Python për zbatimin e modeleve të mësimit të makinerive dhe modelimit statistikor. Ne mund ta përdorim atë për të krijuar modele të shumta të mësimit të makinerive për regresion, klasifikim dhe grupim, si dhe mjete statistikore për vlerësimin e këtyre modeleve. Ai përfshin gjithashtu reduktimin e dimensioneve, përzgjedhjen e veçorive, nxjerrjen e veçorive, qasjet e ansamblit dhe grupet e të dhënave të integruara. Ne do të hetojmë secilën nga këto cilësi një nga një.

1. Importimi i grupeve të të dhënave

Scikit-learn përfshin një numër grupesh të dhënash të para-ndërtuara, të tilla si grupi i të dhënave iris, grupi i të dhënave të çmimeve të shtëpisë, grupi i të dhënave titanic, etj. Përparësitë kryesore të këtyre grupeve të të dhënave janë se ato janë të thjeshta për t'u kuptuar dhe mund të përdoren për të zhvilluar menjëherë modele ML. Këto grupe të dhënash janë të përshtatshme për fillestarët. Në mënyrë të ngjashme, mund të përdorni sklearn për të importuar grupe të dhënash shtesë. Në mënyrë të ngjashme, mund ta përdorni për të importuar grupe të dhënash shtesë.

dataset

2. Ndarja e grupit të të dhënave për trajnim dhe testim

Sklearn përfshiu aftësinë për të ndarë të dhënat në segmente trajnimi dhe testimi. Ndarja e të dhënave kërkohet për një vlerësim të paanshëm të performancës së parashikimit. Ne mund të specifikojmë se sa nga të dhënat tona duhet të përfshihen në grupet e të dhënave të trenit dhe testit. Ne e ndamë grupin e të dhënave duke përdorur ndarjen e testit të trenit në mënyrë që grupi i trenit të përbëjë 80% të të dhënave dhe grupi i testimit ka 20%. Të dhënat mund të ndahen si më poshtë:

Ndarja

3. Regresioni linear

Regresioni linear është një teknikë e mbikqyrur e mësimit të bazuar në mësimin e makinerive. Kryen një punë regresioni. Bazuar në variabla të pavarur, regresioni modelon një vlerë të parashikimit të qëllimit. Më së shumti përdoret për të përcaktuar lidhjen midis variablave dhe parashikimit. Modelet e ndryshme të regresionit ndryshojnë për sa i përket llojit të lidhjes që vlerësojnë midis variablave të varur dhe të pavarur, si dhe numrit të variablave të pavarur të përdorur. Ne thjesht mund të krijojmë modelin e regresionit linear duke përdorur sklearn si më poshtë:

Linear regresionit

4. Regresioni logjistik

Një qasje e zakonshme e kategorizimit është regresioni logjistik. Është në të njëjtën familje me regresionin polinom dhe linear dhe i përket familjes së klasifikuesit linear. Gjetjet e regresionit logjistik janë të thjeshta për t'u kuptuar dhe janë të shpejta për t'u llogaritur. Në të njëjtën mënyrë si regresioni linear, regresioni logjistik është një teknikë regresioni e mbikëqyrur. Variabli i prodhimit është kategorik, kështu që ky është ndryshimi i vetëm. Mund të përcaktojë nëse një pacient ka apo jo një sëmundje kardiake.

Çështje të ndryshme klasifikimi, si zbulimi i spamit, mund të zgjidhen duke përdorur regresionin logjistik. Parashikimi i diabetit, përcaktimi nëse një konsumator do të blejë një produkt specifik ose do të kalojë në një rival, përcaktimi nëse një përdorues do të klikojë në një lidhje specifike marketingu dhe shumë skenarë të tjerë janë vetëm disa shembuj.

Regresioni logjistik

5. Pema e vendimit

Teknika më e fuqishme dhe e përdorur gjerësisht e klasifikimit dhe parashikimit është pema e vendimit. Një pemë vendimi është një strukturë peme që duket si një diagram rrjedhash, me çdo nyje të brendshme që përfaqëson një test në një atribut, çdo degë përfaqëson përfundimin e testit dhe çdo nyje fletë (nyje terminale) mban një etiketë klase.

Kur variablat e varur nuk kanë një lidhje lineare me variablat e pavarur, dmth kur regresioni linear nuk prodhon gjetje të sakta, pemët e vendimit janë të dobishme. Objekti DecisionTreeRegression() mund të përdoret në një mënyrë të ngjashme për të përdorur një pemë vendimi për regresion.

Pema e Vendimit

6. Pylli i rastësishëm

Një pyll i rastësishëm është një Mësimi makinë qasje për zgjidhjen e çështjeve të regresionit dhe klasifikimit. Ai përdor mësimin e ansamblit, i cili është një teknikë që kombinon klasifikues të shumtë për të zgjidhur probleme të ndërlikuara. Një metodë pyjore e rastësishme përbëhet nga një numër i madh pemësh vendimtare. Mund të përdoret për të kategorizuar aplikimet për kredi, për të zbuluar sjelljen mashtruese dhe për të parashikuar shpërthimet e sëmundjeve.

Pylli i rastësishëm

7. Matrica e Konfuzionit

Një matricë konfuzioni është një tabelë e përdorur për të përshkruar performancën e modelit të klasifikimit. Katër fjalët e mëposhtme përdoren për të ekzaminuar matricën e konfuzionit:

Pozitive e vërtetë: Do të thotë që modeli projektoi një rezultat të favorshëm dhe ishte i saktë.
Negativ i vërtetë: Do të thotë që modeli projektoi një rezultat të keq dhe ishte i saktë.
Pozitiv i rremë: Do të thotë që modeli priste një rezultat të favorshëm, por ishte me të vërtetë një rezultat negativ.
Negativ i rremë: Do të thotë që modeli priste një rezultat negativ, ndërsa rezultati ishte vërtet pozitiv.

Foto e Matricës së Konfuzionit

Zbatimi i matricës së konfuzionit:

Metrika e konfuzionit

rekuizitë

Simpleshtë e thjeshtë për t'u përdorur.
Paketa Scikit-learn është jashtëzakonisht e adaptueshme dhe e dobishme, duke u shërbyer qëllimeve të botës reale, si parashikimi i sjelljes së konsumatorit, zhvillimi i imazhit neurologjik e kështu me radhë.
Përdoruesit që dëshirojnë të lidhin algoritmet me platformat e tyre do të gjejnë dokumentacion të detajuar API në faqen e internetit Scikit-learn.
Autorë të shumtë, bashkëpunëtorë dhe një komunitet i madh në mbarë botën në internet mbështesin dhe mbajnë të përditësuar Scikit-learn.

Cons

Nuk është opsioni ideal për studim të thelluar.

Përfundim

Scikit-learn është një paketë kritike për çdo shkencëtar të të dhënave për të pasur një zotërim të fortë dhe një përvojë me të. Ky udhëzues duhet t'ju ndihmojë me manipulimin e të dhënave duke përdorur sklearn. Ka shumë më tepër aftësi të Scikit-learn që do t'i zbuloni ndërsa përparoni në aventurën tuaj të shkencës së të dhënave. Ndani mendimet tuaja në komente.

Një udhëzues fillestar për të mësuarit Scikit

Çfarë është Shkul-mëso?