En Ufänger Guide fir Scikit-léieren

Inhaltsverzeechnes[Verstoppen][Show]

Wat ass Scikit-Learn?
Uwendungen vun der Scikit-learn Bibliothéik+- Déi
Scikit-learn installéieren
Eegeschaften +- Déi
Profien
scheinbar
Konklusioun

Wann Dir e Python Programméierer sidd oder wann Dir no engem mächtege Toolkit sicht fir ze benotzen fir Maschinnléieren an e Produktiounssystem aféieren, Scikit-learn ass eng Bibliothéik déi Dir musst kucken.

Scikit-learn ass gutt dokumentéiert an einfach ze benotzen, egal ob Dir nei sidd mat Maschinnléieren, wëllt séier op d'Been goen, oder wëllt dat aktuellst ML Fuerschungsinstrument benotzen.

Et erlaabt Iech e predictive Datemodell an nëmmen e puer Zeilen Code ze konstruéieren an dann dëse Modell benotzt fir Är Donnéeën als High-Level Bibliothéik ze passen. Et ass flexibel a funktionnéiert gutt mat aneren Python Bibliothéiken wéi Matplotlib fir Charting, NumPy fir Arrayvektoriséierung, a Pandas fir Datenvisualiséierung.

An dësem Guide fannt Dir alles iwwer wat et ass, wéi Dir et benotze kënnt, zesumme mat sengen Virdeeler an Nodeeler.

Wat ass Scikit-léieren?

Scikit-learn (och bekannt als sklearn) bitt eng diverse Set vu statistesche Modeller a Maschinnléieren. Am Géigesaz zu de meeschte Moduler gëtt sklearn am Python entwéckelt anstatt C. Trotz dem Python entwéckelt, ass d'Effizienz vum sklearn seng Notzung vun NumPy fir héich performant linear Algebra an Array Operatiounen zougeschriwwen.

Scikit-Learn gouf als Deel vum Google Summer of Code Projet erstallt an huet zënterhier d'Liewe vu Millioune Python-centric Datewëssenschaftler weltwäit méi einfach gemaach. Dës Sektioun vun der Serie konzentréiert sech op d'Presentatioun vun der Bibliothéik a fokusséiert op een Element - Datasettransformatiounen, déi e Schlëssel a vitale Schrëtt sinn ze huelen ier Dir e Prognosemodell entwéckelt.

Sklern

D'Bibliothéik baséiert op SciPy (Scientific Python), dee muss installéiert ginn ier Dir scikit-learn benotze kënnt. Dëse Stack enthält déi folgend Elementer:

NumPy: Python Standard n-dimensional Array Package
SciPy: Et ass e fundamentale Package fir wëssenschaftlech Informatik
Pandas: Datestrukturen an Analyse
Matplotlib: Et ass eng mächteg 2D/3D Plottebibliothéik
Sympy: Symbolesch Mathematik
IPython: Verbessert interaktiv Konsol

Uwendungen vun der Scikit-learn Bibliothéik

Scikit-learn ass en Open-Source Python Package mat sophistikéierten Datenanalyse a Mining Features. Et kënnt mat enger Onmass vun agebaute Algorithmen fir Iech ze hëllefen dat Bescht aus Ären Datewëssenschaftsprojeten ze kréien. D'Scikit-learn Bibliothéik gëtt op de folgende Weeër benotzt.

1. Réckgang

Regressiounsanalyse ass eng statistesch Technik fir d'Verbindung tëscht zwou oder méi Variablen ze analyséieren an ze verstoen. D'Method déi benotzt gëtt fir d'Regressiounsanalyse ze maachen hëlleft fir ze bestëmmen wéi eng Elementer relevant sinn, déi ignoréiert kënne ginn a wéi se interagéieren. Regressiounstechniken, zum Beispill, kënne benotzt ginn fir d'Behuele vun Aktienpräisser besser ze verstoen.

Regressioun Algorithmen enthalen:

Linear Regressioun
Ridge Réckgang
Lasso Regressioun
Entscheedung Tree Réckgang
Zoufälleg Bësch
Support Vector Machines (SVM)

2. Klassifikatioun

D'Klassifikatiounsmethod ass eng Supervised Learning Approche déi Trainingsdaten benotzt fir d'Kategorie vu frëschen Observatiounen z'identifizéieren. En Algorithmus an der Klassifikatioun léiert vun enger bestëmmter Datebank oder Observatioune a klasséiert dann zousätzlech Observatiounen an eng vu ville Klassen oder Gruppéierungen. Si kënnen zum Beispill benotzt ginn fir E-Mail Kommunikatiounen als Spam ze klassifizéieren oder net.

Klassifikatioun Algorithmen enthalen déi folgend:

Logistesch Regressioun
K-Noosten Noperen
Ënnerstëtzung Vector Machine
Entscheedung Tree
Zoufälleg Bësch

3. Clustering

D'Clustering Algorithmen am Scikit-learn gi benotzt fir automatesch Daten mat ähnlechen Eegeschaften a Sets ze arrangéieren. Clustering ass de Prozess fir eng Rei vun Elementer ze gruppéieren sou datt déi an der selwechter Grupp méi ähnlech sinn wéi déi an anere Gruppen. Clientdaten, zum Beispill, kënne getrennt ginn op Basis vun hirer Positioun.

Clustering Algorithmen enthalen déi folgend:

DB-SCAN
K-Mëttel
Mini-Batch K-Mëttel
Spektral Clustering

4. Modell Auswiel

Modell Selektioun Algorithmen bidden Methoden fir ze vergläichen, ze validéieren an déi optimal Parameteren a Modeller ze wielen fir an Datenwëssenschaftsinitiativen ze benotzen. Gitt Donnéeën, Modellauswiel ass de Problem fir e statistesche Modell aus enger Grupp vu Kandidatemodeller ze wielen. An de meescht grondleeënd Ëmstänn gëtt eng viraus existéierend Sammlung vun Daten berücksichtegt. Wéi och ëmmer, d'Aufgab kann och den Design vun Experimenter enthalen, sou datt d'Erfaassungsdaten gutt passend sinn fir de Modellauswielproblem.

Modellauswiel Moduler déi d'Genauegkeet kënne verbesseren andeems Parameteren ugepasst sinn enthalen:

Kräizvalidatioun
Gitter Sich
Metric

5. Dimensionalitéit Reduktioun

Den Transfert vun Donnéeën vun engem héich-zweedimensional Raum an engem niddereg-zweedimensional Raum sou datt déi niddereg-zweedimensional Representatioun e puer bedeitendst Aspekter vun der Original Donnéeën erhaalen, am Idealfall no bei senger inherent Dimensioun, ass bekannt Dimensioune Reduktioun. D'Zuel vun zoufälleg Verännerlechen fir Analyse gëtt reduzéiert wann d'Dimensionalitéit reduzéiert gëtt. Outlying Daten, zum Beispill, kënnen net ugesi ginn fir d'Effizienz vun de Visualiséierungen ze verbesseren.

Dimensionalitéit Reduktioun Algorithmus enthält déi folgend:

Funktioun Selektioun
Haaptkomponentanalyse (PCA)

Scikit-learn installéieren

NumPy, SciPy, Matplotlib, IPython, Simpy, a Pandas musse installéiert ginn ier Dir Scikit-learn benotzt. Loosst eis se mat Pip vun der Konsol installéieren (schafft nëmme fir Windows).

installéieren

Loosst eis Scikit-learn installéieren elo datt mir déi erfuerderlech Bibliothéiken installéiert hunn.

Installatioun vun Sklearn

Eegeschaften

Scikit-learn, heiansdo als sklearn bekannt, ass e Python Toolkit fir Maschinnléiermodeller a statistesch Modeller ëmzesetzen. Mir kënnen et benotze fir verschidde Maschinnléiermodeller fir Regressioun, Klassifikatioun a Clustering ze kreéieren, souwéi statistesch Tools fir dës Modeller ze bewäerten. Et enthält och Dimensiounsreduktioun, Feature Selektioun, Feature Extraktioun, Ensembel Approche, an agebaute Datesätz. Mir wäerte jidderee vun dëse Qualitéite gläichzäiteg ënnersichen.

1. Datesets importéieren

Scikit-learn enthält eng Zuel vu virgebauten Datesätz, sou wéi d'Iris-Datasaz, d'Hauspräiss-Datesaz, d'Titanic-Datasaz, a sou weider. Déi Schlësselvirdeeler vun dësen Datesätz sinn datt se einfach ze begräifen a kënne benotzt ginn fir direkt ML Modeller z'entwéckelen. Dës Datesätz si passend fir Ufänger. Ähnlech kënnt Dir sklearn benotze fir zousätzlech Datesätz z'importéieren. Ähnlech kënnt Dir et benotze fir zousätzlech Datesätz z'importéieren.

Datebank

2. Split Dataset fir Training an Testen

Sklearn enthält d'Fäegkeet fir den Dataset an Trainings- an Testsegmenter opzedeelen. D'Spaltung vum Datesaz ass erfuerderlech fir eng onparteiesch Bewäertung vun der Prognoseleistung. Mir kënne spezifizéieren wéi vill vun eisen Donnéeën an den Zuch- an Testdatesets solle mat abegraff sinn. Mir hunn den Dataset mat Hëllef vun Zuchtestsplit opgedeelt sou datt den Zuchset 80% vun den Donnéeën enthält an den Testset 20% huet. D'Datebank kann wéi follegt opgedeelt ginn:

Spalten

3. Linearschrëft Réckgang

Linear Regressioun ass eng iwwerwaacht Léierbaséiert Maschinn Léieren Technik. Et mécht eng Regressiounsaarbecht aus. Baséierend op onofhängeg Variabelen, modelléiert d'Regressioun e Goalprediktiounswäert. Et gëtt meeschtens benotzt fir d'Verbindung tëscht Variabelen a Viraussoen ze bestëmmen. Verschidde Regressiounsmodeller ënnerscheeden sech wat d'Zort vu Verbindung ugeet, déi se tëscht ofhängegen an onofhängege Variablen evaluéieren, souwéi d'Zuel vun onofhängege Variablen déi benotzt ginn. Mir kënnen einfach de Linear Regressiounsmodell mat Sklearn erstellen wéi follegt:

Linear Regressioun

4. Logistesch Réckgang

Eng gemeinsam Kategoriséierung Approche ass logistesch Regressioun. Et ass an der selwechter Famill wéi polynomial a linear Regressioun a gehéiert zu der linearer Klassifikatioun Famill. D'Resultater vun der logistescher Regressioun sinn einfach ze verstoen a si séier ze berechnen. Am selwechte Wee wéi linear Regressioun ass logistesch Regressioun eng iwwerwaacht Regressiounstechnik. D'Ausgabvariabel ass kategoresch, also dat ass deen eenzegen Ënnerscheed. Et kann bestëmmen ob e Patient eng Herzkrankheet huet oder net.

Verschidde Klassifikatiounsprobleemer, wéi Spam Detektioun, kënne mat der logistescher Regressioun geléist ginn. Diabetis Prognosen, bestëmmen ob e Konsument e spezifescht Produkt kaaft oder op e Konkurrent wiesselt, bestëmmen ob e Benotzer op e spezifesche Marketinglink klickt, a vill méi Szenarie sinn nëmmen e puer Beispiller.

Logistesch Regressioun

5. Decisioun Tree

Déi mächtegst a wäit benotzt Klassifikatiouns- a Prognosetechnik ass den Entscheedungsbam. En Entscheedungsbam ass eng Bamstruktur déi ausgesäit wéi e Flowchart, mat all internen Node representéiert en Test op en Attribut, all Branche representéiert d'Conclusioun vum Test, an all Blatknuet (terminal Node) hält e Klasseetikett.

Wann déi ofhängeg Variabelen keng linear Relatioun mat den onofhängege Variabelen hunn, dh wann d'linear Regressioun keng korrekt Erkenntnisser produzéiert, sinn Entscheedungsbeem profitabel. Den DecisionTreeRegression() Objet kann op eng ähnlech Manéier benotzt ginn fir en Entscheedungsbam fir Regressioun ze benotzen.

Entscheedung Tree

6. Zoufälleg Bësch

A zoufälleg Bësch ass eng Maschinn léieren Approche fir Regressiouns- a Klassifikatiounsprobleemer ze léisen. Et benotzt Ensembel Léieren, wat eng Technik ass déi verschidde Klassifizéierer kombinéiert fir komplizéiert Probleemer ze léisen. A zoufälleg Bësch Method besteet aus enger grousser Zuel vun Decisioun Beem. Et kann benotzt ginn fir Prêtapplikatiounen ze kategoriséieren, betrügeresch Verhalen z'entdecken, a Krankheetsausbréch virzegoen.

Zoufälleg Bësch

7. Duercherneen Matrixentgasung

Eng Duercherneen Matrix ass eng Tabell déi benotzt gëtt fir d'Leeschtung vum Klassifikatiounsmodell ze beschreiwen. Déi folgend véier Wierder gi benotzt fir d'Verwirrungsmatrix z'ënnersichen:

Richteg Positiv: Et bedeit datt de Modell e favorabelt Resultat projizéiert an et war richteg.
Richteg Negativ: Et bedeit datt de Modell e schlecht Resultat projizéiert an et war richteg.
Falsch Positiv: Et bedeit datt de Modell e favorabelt Resultat erwaart awer et war wierklech negativ.
Falsch Negativ: Et bedeit datt de Modell en negativt Resultat erwaart huet, während d'Resultat wierklech positiv war.

Duercherneen Matrix Foto

Duercherneen Matrix Implementatioun:

Duercherneen Metriken

Profien

Et ass einfach ze benotzen.
De Scikit-Learn Package ass extrem adaptéierbar an nëtzlech, servéiert real Weltziler wéi Konsumenteverhalensprognose, Neuroimage Entwécklung, asw.
D'Benotzer déi d'Algorithmen mat hire Plattforme verbannen wëllen, fanne detailléiert API Dokumentatioun op der Scikit-learn Websäit.
Vill Autoren, Kollaborateuren an eng grouss weltwäit Online Gemeinschaft ënnerstëtzen an halen Scikit-learn um neiste Stand.

scheinbar

Et ass net déi ideal Optioun fir eng detailléiert Studie.

Konklusioun

Scikit-learn ass e kritesche Package fir all Datewëssenschaftler fir e staarkt Verständnis vun an e bësse Erfahrung mat ze hunn. Dëse Guide soll Iech hëllefen mat Donnéeën Manipulatioun Sklearn benotzt. Et gi vill méi Fäegkeete vu Scikit-learn déi Dir entdeckt wéi Dir duerch Är Datewëssenschafts Abenteuer Fortschrëtt. Deelt Är Gedanken an de Kommentaren.

En Ufänger Guide fir Scikit-léieren

Wat ass Scikit-léieren?