En nybegynnerveiledning til Scikit-learn

Innholdsfortegnelse[Gjemme seg][Forestilling]

Hva er Scikit-learn?
Applikasjoner av Scikit-learn-biblioteket+-
Installerer Scikit-learn
Egenskaper +-
Pros
Ulemper
konklusjonen

Hvis du er en Python-programmerer eller hvis du søker etter et kraftig verktøysett for å introdusere maskinlæring i et produksjonssystem, er Scikit-learn et bibliotek du må sjekke ut.

Scikit-learn er godt dokumentert og enkel å bruke, enten du er ny på maskinlæring, ønsker å komme raskt i gang, eller ønsker å bruke det mest oppdaterte ML-forskningsverktøyet.

Den lar deg konstruere en prediktiv datamodell på bare noen få linjer med kode og bruker deretter modellen for å passe til dataene dine som et bibliotek på høyt nivå. Den er fleksibel og fungerer godt sammen med andre Python-biblioteker som Matplotlib for kartlegging, NumPy for array-vektorisering og pandaer for datavisualisering.

I denne guiden vil du finne ut alt om hva det er, hvordan du kan bruke det, sammen med fordeler og ulemper.

Hva er Scikit lære?

Scikit-learn (også kjent som sklearn) tilbyr et mangfoldig sett med statistiske modeller og maskinlæring. I motsetning til de fleste moduler, er sklearn utviklet i Python i stedet for C. Til tross for at det er utviklet i Python, tilskrives effektiviteten til sklearn bruken av NumPy for høyytelses lineær algebra og array-operasjoner.

Scikit-Learn ble opprettet som en del av Googles Summer of Code-prosjekt og har siden gjort livet til millioner av Python-sentriske dataforskere over hele verden enklere. Denne delen av serien fokuserer på å presentere biblioteket og fokusere på ett element – datasetttransformasjoner, som er et viktig og viktig skritt å ta før man utvikler en prediksjonsmodell.

Sklearn

Biblioteket er basert på SciPy (Scientific Python), som må installeres før du kan bruke scikit-learn. Denne stabelen inneholder følgende elementer:

NumPy: Pythons standard n-dimensjonale array-pakke
SciPy: Det er en grunnleggende pakke for vitenskapelig databehandling
Pandaer: Datastrukturer og analyse
Matplotlib: Det er et kraftig 2D/3D plottebibliotek
Sympy: Symbolsk matematikk
IPython: Forbedret interaktiv konsoll

Applikasjoner av Scikit-learn-biblioteket

Scikit-learn er en åpen kildekode Python-pakke med sofistikerte dataanalyse- og gruvefunksjoner. Den kommer med en mengde innebygde algoritmer for å hjelpe deg med å få mest mulig ut av datavitenskapsprosjektene dine. Scikit-learn-biblioteket brukes på følgende måter.

1. Regresjon

Regresjonsanalyse er en statistisk teknikk for å analysere og forstå sammenhengen mellom to eller flere variabler. Metoden som brukes til å gjøre regresjonsanalyse hjelper til med å bestemme hvilke elementer som er relevante, hvilke som kan ignoreres, og hvordan de samhandler. Regresjonsteknikker kan for eksempel brukes for å bedre forstå aksjekursenes oppførsel.

Regresjonsalgoritmer inkluderer:

lineær regresjon
Ridge Regresjon
Lasso regresjon
Regresjon av beslutningstre
Tilfeldig skog
Støtt vektormaskiner (SVM)

2. Klassifisering

Klassifiseringsmetoden er en overvåket læringsmetode som bruker treningsdata for å identifisere kategorien av ferske observasjoner. En algoritme i klassifisering lærer av en gitt datasett eller observasjoner og klassifiserer deretter ytterligere observasjoner i en av mange klasser eller grupperinger. De kan for eksempel brukes til å klassifisere e-postkommunikasjon som spam eller ikke.

Klassifiseringsalgoritmer inkluderer følgende:

Logistisk regresjon
K-Nærmeste Naboer
Støtt vektormaskin
Beslutningstre
Tilfeldig skog

3. Klynger

Klyngealgoritmene i Scikit-learn brukes til å automatisk ordne data med lignende egenskaper i sett. Clustering er prosessen med å gruppere et sett med elementer slik at de i samme gruppe er mer like de i andre grupper. Kundedata kan for eksempel separeres basert på deres plassering.

Klyngealgoritmer inkluderer følgende:

DB-SCAN
K-betyr
Mini-Batch K-Means
Spektral gruppering

4. Valg av modell

Modellvalgalgoritmer gir metoder for å sammenligne, validere og velge de optimale parameterne og modellene for bruk i datavitenskapelige initiativer. Gitt data er modellvalg problemet med å velge en statistisk modell fra en gruppe kandidatmodeller. I de mest grunnleggende omstendighetene tas en forhåndseksisterende innsamling av data i betraktning. Oppgaven kan imidlertid også omfatte utforming av eksperimenter slik at innhentede data er godt egnet til modellvalgproblematikken.

Modellvalgsmoduler som kan forbedre nøyaktigheten ved å justere parametere inkluderer:

Kryssvalidering
Rutenett søk
Metrics

5. Dimensjonsreduksjon

Overføringen av data fra et høydimensjonalt rom til et lavdimensjonalt rom, slik at den lavdimensjonale representasjonen bevarer noen betydelige aspekter av de originale dataene, ideelt sett nær dens iboende dimensjon, er kjent som dimensjonalitetsreduksjon. Antall tilfeldige variabler for analyse reduseres når dimensjonaliteten reduseres. Avsidesliggende data kan for eksempel ikke anses å forbedre effektiviteten til visualiseringer.

Algoritmen for dimensjonsreduksjon inkluderer følgende:

Valg av funksjon
Hovedkomponentanalyse (PCA)

Installerer Scikit-learn

NumPy, SciPy, Matplotlib, IPython, Sympy og Pandas må være installert før du bruker Scikit-learn. La oss installere dem ved å bruke pip fra konsollen (fungerer bare for Windows).

Install

La oss installere Scikit-learn nå som vi har installert de nødvendige bibliotekene.

Installerer Sklearn

Egenskaper

Scikit-learn, noen ganger kjent som sklearn, er et Python-verktøysett for implementering av maskinlæringsmodeller og statistisk modellering. Vi kan bruke den til å lage flere maskinlæringsmodeller for regresjon, klassifisering og klynging, samt statistiske verktøy for å vurdere disse modellene. Det inkluderer også dimensjonalitetsreduksjon, funksjonsvalg, funksjonsutvinning, ensembletilnærminger og innebygde datasett. Vi skal undersøke hver av disse egenskapene en om gangen.

1. Importere datasett

Scikit-learn inkluderer en rekke forhåndsbygde datasett, for eksempel iris-datasettet, boligprisdatasett, titanic-datasett og så videre. De viktigste fordelene med disse datasettene er at de er enkle å forstå og kan brukes til umiddelbart å utvikle ML-modeller. Disse datasettene passer for nybegynnere. På samme måte kan du bruke sklearn til å importere flere datasett. På samme måte kan du bruke den til å importere flere datasett.

datasett

2. Splitting av datasett for opplæring og testing

Sklearn inkluderte muligheten til å dele opp datasettet i trenings- og testsegmenter. Splitting av datasettet er nødvendig for en objektiv vurdering av prediksjonsytelse. Vi kan spesifisere hvor mye av dataene våre som skal inkluderes i tog- og testdatasettene. Vi delte datasettet ved hjelp av togtestdeling slik at togsettet utgjør 80 % av dataene og testsettet har 20 %. Datasettet kan deles inn som følger:

Splitting

3. Lineær regresjon

Lineær regresjon er en veiledet læringsbasert maskinlæringsteknikk. Den utfører en regresjonsjobb. Basert på uavhengige variabler modellerer regresjon en målprediksjonsverdi. Det brukes mest til å bestemme koblingen mellom variabler og prediksjon. Ulike regresjonsmodeller er forskjellige når det gjelder hvilken type sammenheng de evaluerer mellom avhengige og uavhengige variabler, samt antall uavhengige variabler som brukes. Vi kan ganske enkelt lage den lineære regresjonsmodellen ved å bruke sklearn som følger:

lineær regresjon

4. Logistisk regresjon

En vanlig kategoriseringstilnærming er logistisk regresjon. Det er i samme familie som polynom og lineær regresjon og tilhører den lineære klassifisererfamilien. Funnene av logistisk regresjon er enkle å forstå og er raske å beregne. På samme måte som lineær regresjon er logistisk regresjon en overvåket regresjonsteknikk. Utgangsvariabelen er kategorisk, så det er den eneste forskjellen. Det kan avgjøre om en pasient har en hjertesykdom eller ikke.

Ulike klassifiseringsproblemer, for eksempel spam-deteksjon, kan løses ved hjelp av logistisk regresjon. Diabetesprognose, avgjøre om en forbruker vil kjøpe et spesifikt produkt eller bytte til en rival, avgjøre om en bruker vil klikke på en spesifikk markedsføringslenke, og mange flere scenarier er bare noen få eksempler.

Logistisk regresjon

5. Beslutningstre

Den kraftigste og mest brukte klassifiserings- og prediksjonsteknikken er beslutningstreet. Et beslutningstre er en trestruktur som ser ut som et flytskjema, der hver intern node representerer en test på et attributt, hver gren representerer testens konklusjon, og hver bladnode (terminalnode) har en klasseetikett.

Når de avhengige variablene ikke har en lineær sammenheng med de uavhengige variablene, dvs. når lineær regresjon ikke gir korrekte funn, er beslutningstrær gunstig. DecisionTreeRegression()-objektet kan brukes på lignende måte for å bruke et beslutningstre for regresjon.

Beslutningstre

6. Tilfeldig skog

En tilfeldig skog er en maskinlæring tilnærming for å løse regresjons- og klassifiseringsproblemer. Den benytter seg av ensemblelæring, som er en teknikk som kombinerer flere klassifiserere for å løse kompliserte problemer. En tilfeldig skogmetode består av et stort antall beslutningstrær. Den kan brukes til å kategorisere lånesøknader, oppdage uredelig atferd og forutse sykdomsutbrudd.

Tilfeldig skog

7. Forvirringsmatrise

En forvirringsmatrise er en tabell som brukes til å beskrive klassifikasjonsmodellytelse. Følgende fire ord brukes til å undersøke forvirringsmatrisen:

Sant positiv: Det betyr at modellen projiserte et gunstig resultat og at den var korrekt.
Sant negativt: Det betyr at modellen projiserte et dårlig utfall og at det var riktig.
Falsk positiv: Det betyr at modellen forventet et gunstig resultat, men at den egentlig var negativ.
Falsk negativ: Det betyr at modellen forventet et negativt utfall, mens utfallet var virkelig positivt.

Forvirringsmatrisefoto

Implementering av forvirringsmatrise:

Forvirringsmålinger

Pros

Det er enkelt å bruke.
Scikit-learn-pakken er ekstremt tilpasningsdyktig og nyttig, og tjener virkelige mål som prediksjon av forbrukeratferd, utvikling av nevrobilder og så videre.
Brukere som ønsker å koble algoritmene til plattformene sine, vil finne detaljert API-dokumentasjon på Scikit-learn-nettstedet.
Tallrike forfattere, samarbeidspartnere og et stort verdensomspennende nettsamfunn støtter og holder Scikit-learn oppdatert.

Ulemper

Det er ikke det ideelle alternativet for dybdestudier.

konklusjonen

Scikit-learn er en kritisk pakke for enhver dataforsker å ha et godt grep om og litt erfaring med. Denne veiledningen skal hjelpe deg med datamanipulering ved hjelp av sklearn. Det er mange flere funksjoner i Scikit-learn som du vil oppdage når du går videre gjennom datavitenskapseventyret ditt. Del dine tanker i kommentarene.

En nybegynnerveiledning til Scikit-learn

Hva er Scikit lære?