Útmutató kezdőknek a Scikit-learnhez

Tartalomjegyzék[Elrejt][Előadás]

Mi az a Scikit-learn?
A Scikit-learn könyvtár alkalmazásai+-
A Scikit-learn telepítése
Jellemzők +-
Érvek
Hátrányok
Következtetés

Ha Ön Python programozó, vagy ha egy hatékony eszköztárat keres, amellyel bevezetheti a gépi tanulást egy éles rendszerbe, a Scikit-learn egy olyan könyvtár, amelyet meg kell néznie.

A Scikit-learn jól dokumentált és egyszerűen használható, függetlenül attól, hogy Ön még új a gépi tanulásban, szeretne gyorsan elindulni, vagy a legfrissebb ML-kutatóeszközt szeretné használni.

Lehetővé teszi prediktív adatmodell felépítését néhány kódsorból, majd ezt a modellt magas szintű könyvtárként használja fel az adatokhoz. Rugalmas, másokkal is jól működik Python könyvtárak mint a Matplotlib a diagramkészítéshez, a NumPy a tömbvektorizáláshoz és a pandák az adatok megjelenítéséhez.

Ebből az útmutatóból mindent megtudhat arról, hogy mi ez, hogyan használhatja, valamint előnyeit és hátrányait.

Mi Scikit elsajátítható?

A Scikit-learn (más néven sklearn) a statisztikai modellek és a gépi tanulás változatos készletét kínálja. A legtöbb modullal ellentétben a sklearn-t Pythonban fejlesztették ki C helyett. Annak ellenére, hogy Pythonban fejlesztették ki, a sklearn hatékonysága annak tulajdonítható, hogy a NumPy-t nagy teljesítményű lineáris algebra- és tömbműveletekhez használja.

A Scikit-Learn a Google Summer of Code projektjének részeként jött létre, és azóta Python-központú adattudósok millióinak életét tette egyszerűbbé szerte a világon. A sorozat ezen része a könyvtár bemutatására összpontosít, és egy elemre összpontosít – az adatkészlet-átalakításokra, amelyek kulcsfontosságú és létfontosságú lépést jelentenek az előrejelzési modell kidolgozása előtt.

Sklearn

A könyvtár a SciPy-n (Scientific Python) alapul, amelyet telepíteni kell a scikit-learn használatához. Ez a köteg a következő elemeket tartalmazza:

NumPy: A Python szabványos n-dimenziós tömbcsomagja
SciPy: A tudományos számítástechnika alapvető csomagja
Pandák: Adatszerkezetek és elemzés
Matplotlib: Ez egy hatékony 2D/3D plotting könyvtár
Sympy: Szimbolikus matematika
IPython: Továbbfejlesztett interaktív konzol

A Scikit-learn könyvtár alkalmazásai

A Scikit-learn egy nyílt forráskódú Python csomag kifinomult adatelemzési és bányászati funkciókkal. Rengeteg beépített algoritmust tartalmaz, amelyek segítségével a legtöbbet hozhatja ki adattudományi projektjeiből. A Scikit-learn könyvtár a következő módokon használható.

1. Regresszió

A regresszióanalízis két vagy több változó közötti kapcsolat elemzésére és megértésére szolgáló statisztikai technika. A regressziós elemzéshez használt módszer segít meghatározni, mely elemek relevánsak, melyeket lehet figyelmen kívül hagyni, és hogyan hatnak egymásra. A regressziós technikák például használhatók a részvényárak viselkedésének jobb megértésére.

A regressziós algoritmusok a következők:

Lineáris regresszió
Ridge regresszió
Lasso regresszió
Döntési fa regressziója
Véletlen Erdő
Támogatja a vektoros gépeket (SVM)

2. Osztályozás

Az osztályozási módszer egy felügyelt tanulási megközelítés, amely betanítási adatokat használ a friss megfigyelések kategóriájának azonosítására. Az osztályozás algoritmusa tanul az adottból adatbázisba vagy megfigyeléseket, majd a további megfigyeléseket a sok osztály vagy csoport egyikébe sorolja. Használhatók például arra, hogy az e-mail üzeneteket spamnek minősítsék, vagy sem.

Az osztályozási algoritmusok a következőket tartalmazzák:

Logisztikus regresszió
K-Legközelebbi szomszédok
Támogatja a vektoros gépet
Döntési fa
Véletlen Erdő

3. Klaszterezés

A Scikit-learn klaszterezési algoritmusai a hasonló tulajdonságokkal rendelkező adatok automatikus halmazokba rendezésére szolgálnak. A klaszterezés az elemek halmazának csoportosításának folyamata, hogy az ugyanabban a csoportban lévők jobban hasonlítsanak a többi csoporthoz. Az ügyfelek adatai például a tartózkodási helyük alapján elkülöníthetők.

A klaszterezési algoritmusok a következőket tartalmazzák:

DB-SCAN
K-Means
Mini-Batch K-Means
Spektrális klaszterezés

4. Modell kiválasztása

A modellkiválasztó algoritmusok módszereket biztosítanak az adattudományi kezdeményezésekben használható optimális paraméterek és modellek összehasonlítására, érvényesítésére és kiválasztására. Adott adatok alapján a modellválasztás a statisztikai modell kiválasztásának problémája a jelölt modellek csoportjából. A legalapvetőbb körülmények között egy már meglévő adatgyűjtést vesznek figyelembe. A feladat azonban magában foglalhatja a kísérletek tervezését is, hogy a megszerzett adatok jól illeszkedjenek a modellválasztási problémához.

A modellválasztó modulok, amelyek a paraméterek beállításával javíthatják a pontosságot, a következők:

Keresztellenőrzés
Rács keresés
Metrics

5. Dimenziócsökkentés

Az adatok átvitelét egy nagy dimenziós térből egy alacsony dimenziós térbe úgy, hogy az alacsony dimenziós reprezentáció megőrizze az eredeti adatok néhány jelentős aspektusát, ideális esetben a benne rejlő dimenzió közelében, dimenziócsökkentésnek nevezik. Az elemzéshez szükséges valószínűségi változók száma csökken, ha a dimenziót csökkentjük. Előfordulhat, hogy a külső adatok például nem javítják a vizualizációk hatékonyságát.

A dimenziócsökkentő algoritmus a következőket tartalmazza:

Funkció kiválasztása
Fő komponens elemzés (PCA)

A Scikit-learn telepítése

A Scikit-learn használata előtt telepíteni kell a NumPy-t, a SciPy-t, a Matplotlib-et, az IPython-t, a Sympy-t és a Pandas-t. Telepítsük őket a pip segítségével a konzolról (csak Windows esetén működik).

felszerel

Telepítsük a Scikit-learnt most, miután telepítettük a szükséges könyvtárakat.

Sklearn telepítése

Jellemzők

A Scikit-learn, más néven sklearn egy Python-eszközkészlet a gépi tanulási modellek és a statisztikai modellezés megvalósításához. Használhatjuk több gépi tanulási modell létrehozására regresszióhoz, osztályozáshoz és klaszterezéshez, valamint statisztikai eszközöket e modellek értékeléséhez. Tartalmazza a dimenziócsökkentést, a jellemzők kiválasztását, a jellemzők kinyerését, az együttes megközelítéseket és a beépített adatkészleteket is. Ezeket a tulajdonságokat egyenként megvizsgáljuk.

1. Adatkészletek importálása

A Scikit-learn számos előre elkészített adatkészletet tartalmaz, például az írisz adatkészletet, a lakásár-adatkészletet, a Titanic adatkészletet és így tovább. Ezeknek az adatkészleteknek a legfontosabb előnye, hogy könnyen megfoghatók, és azonnal felhasználhatók ML-modellek fejlesztésére. Ezek az adatkészletek kezdők számára megfelelőek. Hasonlóképpen használhatja a sklearn-t további adatkészletek importálására. Hasonlóképpen használhatja további adatkészletek importálására.

adatbázisba

2. Adatkészlet felosztása képzéshez és teszteléshez

A Sklearn lehetővé tette az adatkészlet képzési és tesztelési szegmensekre való felosztását. Az adatkészlet felosztása szükséges az előrejelzési teljesítmény elfogulatlan értékeléséhez. Meghatározhatjuk, hogy adatainkból mennyi kerüljön be a vonat- és tesztadatkészletbe. Az adatkészletet vonatteszt-felosztással osztottuk fel úgy, hogy a vonatkészlet az adatok 80%-át, a tesztkészlet pedig 20%-át tartalmazza. Az adatkészlet a következőképpen osztható fel:

Hasítás

3. Lineáris regresszió

A lineáris regresszió egy felügyelt tanuláson alapuló gépi tanulási technika. Regressziós feladatot végez. Független változók alapján a regresszió modellez egy cél előrejelzési értéket. Leginkább a változók és az előrejelzés közötti kapcsolat meghatározására szolgál. A különböző regressziós modellek különböznek a függő és független változók közötti kapcsolat típusában, valamint a felhasznált független változók számában. Egyszerűen létrehozhatjuk a lineáris regressziós modellt a sklearn segítségével az alábbiak szerint:

Lineáris regresszió

4. Logisztikai regresszió

Általános kategorizációs megközelítés a logisztikus regresszió. Ugyanabba a családba tartozik, mint a polinomiális és a lineáris regresszió, és a lineáris osztályozók családjába tartozik. A logisztikus regresszió eredményei könnyen megérthetők és gyorsan kiszámíthatók. A lineáris regresszióhoz hasonlóan a logisztikus regresszió is felügyelt regressziós technika. A kimeneti változó kategorikus, tehát ez az egyetlen különbség. Meg tudja határozni, hogy a betegnek szívbetegsége van-e vagy sem.

Különféle osztályozási problémák, például a levélszemét észlelése megoldhatók logisztikus regresszióval. A cukorbetegség előrejelzése, annak meghatározása, hogy a fogyasztó vásárol-e egy adott terméket vagy átvált-e egy riválisra, annak meghatározása, hogy a felhasználó rákattint-e egy adott marketing linkre, és még sok más forgatókönyv csak néhány példa.

Logisztikus regresszió

5. Döntési fa

A legerősebb és legszélesebb körben használt osztályozási és előrejelzési technika a döntési fa. A döntési fa olyan fastruktúra, amely úgy néz ki, mint egy folyamatábra, amelyben minden belső csomópont egy attribútum tesztjét reprezentálja, minden ág a teszt következtetését, és minden levélcsomópont (végcsomópont) osztálycímkét tartalmaz.

Ha a függő változóknak nincs lineáris kapcsolata a független változókkal, azaz ha a lineáris regresszió nem ad megfelelő eredményeket, akkor a döntési fák hasznosak. A DecisionTreeRegression() objektum hasonló módon használható egy döntési fa regresszióhoz való felhasználására.

Döntési fa

6. Random Forest

A véletlenszerű erdő a gépi tanulás megközelítés a regressziós és osztályozási kérdések megoldására. Használja az ensemble learning-et, amely egy olyan technika, amely több osztályozót kombinál a bonyolult problémák megoldására. Egy véletlenszerű erdőmódszer nagyszámú döntési fából épül fel. Használható hitelkérelmek kategorizálására, csalárd magatartás észlelésére és betegségek kitörésének előrejelzésére.

Véletlen Erdő

7. Zavart mátrix

A zavaros mátrix az osztályozási modell teljesítményének leírására szolgáló táblázat. A következő négy szót használjuk a zavaros mátrix vizsgálatára:

Valódi pozitív: Azt jelzi, hogy a modell kedvező eredményt vetített előre, és az helyes volt.
Igaz negatív: Azt jelzi, hogy a modell rossz eredményt vetített előre, és az helyes volt.
Hamis pozitív: Azt jelzi, hogy a modell kedvező eredményt várt, de valójában negatív volt.
Hamis negatív: Azt jelzi, hogy a modell negatív eredményt várt, míg az eredmény valóban pozitív volt.

Confusion Matrix Photo

Zavaros mátrix megvalósítás:

Zavart mérőszámok

Érvek

Használata egyszerű.
A Scikit-learn csomag rendkívül alkalmazkodó és hasznos, és olyan valós célokat szolgál ki, mint a fogyasztói viselkedés előrejelzése, a neuroképek fejlesztése és így tovább.
Azok a felhasználók, akik szeretnék összekapcsolni az algoritmusokat a platformjaikkal, részletes API-dokumentációt találnak a Scikit-learn webhelyen.
Számos szerző, együttműködő és egy nagy világméretű online közösség támogatja és tartja naprakészen a Scikit-learnt.

Hátrányok

Nem az ideális lehetőség a mélyreható tanulmányozáshoz.

Következtetés

A Scikit-learn kritikus csomag minden adattudós számára, amelyhez erős ismeretekkel és tapasztalatokkal kell rendelkeznie. Ez az útmutató segít a sklearn használatával történő adatkezelésben. A Scikit-learn számos további funkcióval is rendelkezik, amelyeket az adattudományi kalandok során felfedezhet. Ossza meg gondolatait a megjegyzésekben.

Útmutató kezdőknek a Scikit-learnhez

Mi Scikit elsajátítható?