Tartalomjegyzék[Elrejt][Előadás]
Ha Ön Python programozó, vagy ha egy hatékony eszköztárat keres, amellyel bevezetheti a gépi tanulást egy éles rendszerbe, a Scikit-learn egy olyan könyvtár, amelyet meg kell néznie.
A Scikit-learn jól dokumentált és egyszerűen használható, függetlenül attól, hogy Ön még új a gépi tanulásban, szeretne gyorsan elindulni, vagy a legfrissebb ML-kutatóeszközt szeretné használni.
Lehetővé teszi prediktív adatmodell felépítését néhány kódsorból, majd ezt a modellt magas szintű könyvtárként használja fel az adatokhoz. Rugalmas, másokkal is jól működik Python könyvtárak mint a Matplotlib a diagramkészítéshez, a NumPy a tömbvektorizáláshoz és a pandák az adatok megjelenítéséhez.
Ebből az útmutatóból mindent megtudhat arról, hogy mi ez, hogyan használhatja, valamint előnyeit és hátrányait.
Mi Scikit elsajátítható?
A Scikit-learn (más néven sklearn) a statisztikai modellek és a gépi tanulás változatos készletét kínálja. A legtöbb modullal ellentétben a sklearn-t Pythonban fejlesztették ki C helyett. Annak ellenére, hogy Pythonban fejlesztették ki, a sklearn hatékonysága annak tulajdonítható, hogy a NumPy-t nagy teljesítményű lineáris algebra- és tömbműveletekhez használja.
A Scikit-Learn a Google Summer of Code projektjének részeként jött létre, és azóta Python-központú adattudósok millióinak életét tette egyszerűbbé szerte a világon. A sorozat ezen része a könyvtár bemutatására összpontosít, és egy elemre összpontosít – az adatkészlet-átalakításokra, amelyek kulcsfontosságú és létfontosságú lépést jelentenek az előrejelzési modell kidolgozása előtt.
A könyvtár a SciPy-n (Scientific Python) alapul, amelyet telepíteni kell a scikit-learn használatához. Ez a köteg a következő elemeket tartalmazza:
- NumPy: A Python szabványos n-dimenziós tömbcsomagja
- SciPy: A tudományos számítástechnika alapvető csomagja
- Pandák: Adatszerkezetek és elemzés
- Matplotlib: Ez egy hatékony 2D/3D plotting könyvtár
- Sympy: Szimbolikus matematika
- IPython: Továbbfejlesztett interaktív konzol
A Scikit-learn könyvtár alkalmazásai
A Scikit-learn egy nyílt forráskódú Python csomag kifinomult adatelemzési és bányászati funkciókkal. Rengeteg beépített algoritmust tartalmaz, amelyek segítségével a legtöbbet hozhatja ki adattudományi projektjeiből. A Scikit-learn könyvtár a következő módokon használható.
1. Regresszió
A regresszióanalízis két vagy több változó közötti kapcsolat elemzésére és megértésére szolgáló statisztikai technika. A regressziós elemzéshez használt módszer segít meghatározni, mely elemek relevánsak, melyeket lehet figyelmen kívül hagyni, és hogyan hatnak egymásra. A regressziós technikák például használhatók a részvényárak viselkedésének jobb megértésére.
A regressziós algoritmusok a következők:
- Lineáris regresszió
- Ridge regresszió
- Lasso regresszió
- Döntési fa regressziója
- Véletlen Erdő
- Támogatja a vektoros gépeket (SVM)
2. Osztályozás
Az osztályozási módszer egy felügyelt tanulási megközelítés, amely betanítási adatokat használ a friss megfigyelések kategóriájának azonosítására. Az osztályozás algoritmusa tanul az adottból adatbázisba vagy megfigyeléseket, majd a további megfigyeléseket a sok osztály vagy csoport egyikébe sorolja. Használhatók például arra, hogy az e-mail üzeneteket spamnek minősítsék, vagy sem.
Az osztályozási algoritmusok a következőket tartalmazzák:
- Logisztikus regresszió
- K-Legközelebbi szomszédok
- Támogatja a vektoros gépet
- Döntési fa
- Véletlen Erdő
3. Klaszterezés
A Scikit-learn klaszterezési algoritmusai a hasonló tulajdonságokkal rendelkező adatok automatikus halmazokba rendezésére szolgálnak. A klaszterezés az elemek halmazának csoportosításának folyamata, hogy az ugyanabban a csoportban lévők jobban hasonlítsanak a többi csoporthoz. Az ügyfelek adatai például a tartózkodási helyük alapján elkülöníthetők.
A klaszterezési algoritmusok a következőket tartalmazzák:
- DB-SCAN
- K-Means
- Mini-Batch K-Means
- Spektrális klaszterezés
4. Modell kiválasztása
A modellkiválasztó algoritmusok módszereket biztosítanak az adattudományi kezdeményezésekben használható optimális paraméterek és modellek összehasonlítására, érvényesítésére és kiválasztására. Adott adatok alapján a modellválasztás a statisztikai modell kiválasztásának problémája a jelölt modellek csoportjából. A legalapvetőbb körülmények között egy már meglévő adatgyűjtést vesznek figyelembe. A feladat azonban magában foglalhatja a kísérletek tervezését is, hogy a megszerzett adatok jól illeszkedjenek a modellválasztási problémához.
A modellválasztó modulok, amelyek a paraméterek beállításával javíthatják a pontosságot, a következők:
- Keresztellenőrzés
- Rács keresés
- Metrics
5. Dimenziócsökkentés
Az adatok átvitelét egy nagy dimenziós térből egy alacsony dimenziós térbe úgy, hogy az alacsony dimenziós reprezentáció megőrizze az eredeti adatok néhány jelentős aspektusát, ideális esetben a benne rejlő dimenzió közelében, dimenziócsökkentésnek nevezik. Az elemzéshez szükséges valószínűségi változók száma csökken, ha a dimenziót csökkentjük. Előfordulhat, hogy a külső adatok például nem javítják a vizualizációk hatékonyságát.
A dimenziócsökkentő algoritmus a következőket tartalmazza:
- Funkció kiválasztása
- Fő komponens elemzés (PCA)
A Scikit-learn telepítése
A Scikit-learn használata előtt telepíteni kell a NumPy-t, a SciPy-t, a Matplotlib-et, az IPython-t, a Sympy-t és a Pandas-t. Telepítsük őket a pip segítségével a konzolról (csak Windows esetén működik).
Telepítsük a Scikit-learnt most, miután telepítettük a szükséges könyvtárakat.
Jellemzők
A Scikit-learn, más néven sklearn egy Python-eszközkészlet a gépi tanulási modellek és a statisztikai modellezés megvalósításához. Használhatjuk több gépi tanulási modell létrehozására regresszióhoz, osztályozáshoz és klaszterezéshez, valamint statisztikai eszközöket e modellek értékeléséhez. Tartalmazza a dimenziócsökkentést, a jellemzők kiválasztását, a jellemzők kinyerését, az együttes megközelítéseket és a beépített adatkészleteket is. Ezeket a tulajdonságokat egyenként megvizsgáljuk.
1. Adatkészletek importálása
A Scikit-learn számos előre elkészített adatkészletet tartalmaz, például az írisz adatkészletet, a lakásár-adatkészletet, a Titanic adatkészletet és így tovább. Ezeknek az adatkészleteknek a legfontosabb előnye, hogy könnyen megfoghatók, és azonnal felhasználhatók ML-modellek fejlesztésére. Ezek az adatkészletek kezdők számára megfelelőek. Hasonlóképpen használhatja a sklearn-t további adatkészletek importálására. Hasonlóképpen használhatja további adatkészletek importálására.
2. Adatkészlet felosztása képzéshez és teszteléshez
A Sklearn lehetővé tette az adatkészlet képzési és tesztelési szegmensekre való felosztását. Az adatkészlet felosztása szükséges az előrejelzési teljesítmény elfogulatlan értékeléséhez. Meghatározhatjuk, hogy adatainkból mennyi kerüljön be a vonat- és tesztadatkészletbe. Az adatkészletet vonatteszt-felosztással osztottuk fel úgy, hogy a vonatkészlet az adatok 80%-át, a tesztkészlet pedig 20%-át tartalmazza. Az adatkészlet a következőképpen osztható fel:
3. Lineáris regresszió
A lineáris regresszió egy felügyelt tanuláson alapuló gépi tanulási technika. Regressziós feladatot végez. Független változók alapján a regresszió modellez egy cél előrejelzési értéket. Leginkább a változók és az előrejelzés közötti kapcsolat meghatározására szolgál. A különböző regressziós modellek különböznek a függő és független változók közötti kapcsolat típusában, valamint a felhasznált független változók számában. Egyszerűen létrehozhatjuk a lineáris regressziós modellt a sklearn segítségével az alábbiak szerint:
4. Logisztikai regresszió
Általános kategorizációs megközelítés a logisztikus regresszió. Ugyanabba a családba tartozik, mint a polinomiális és a lineáris regresszió, és a lineáris osztályozók családjába tartozik. A logisztikus regresszió eredményei könnyen megérthetők és gyorsan kiszámíthatók. A lineáris regresszióhoz hasonlóan a logisztikus regresszió is felügyelt regressziós technika. A kimeneti változó kategorikus, tehát ez az egyetlen különbség. Meg tudja határozni, hogy a betegnek szívbetegsége van-e vagy sem.
Különféle osztályozási problémák, például a levélszemét észlelése megoldhatók logisztikus regresszióval. A cukorbetegség előrejelzése, annak meghatározása, hogy a fogyasztó vásárol-e egy adott terméket vagy átvált-e egy riválisra, annak meghatározása, hogy a felhasználó rákattint-e egy adott marketing linkre, és még sok más forgatókönyv csak néhány példa.
5. Döntési fa
A legerősebb és legszélesebb körben használt osztályozási és előrejelzési technika a döntési fa. A döntési fa olyan fastruktúra, amely úgy néz ki, mint egy folyamatábra, amelyben minden belső csomópont egy attribútum tesztjét reprezentálja, minden ág a teszt következtetését, és minden levélcsomópont (végcsomópont) osztálycímkét tartalmaz.
Ha a függő változóknak nincs lineáris kapcsolata a független változókkal, azaz ha a lineáris regresszió nem ad megfelelő eredményeket, akkor a döntési fák hasznosak. A DecisionTreeRegression() objektum hasonló módon használható egy döntési fa regresszióhoz való felhasználására.
6. Random Forest
A véletlenszerű erdő a gépi tanulás megközelítés a regressziós és osztályozási kérdések megoldására. Használja az ensemble learning-et, amely egy olyan technika, amely több osztályozót kombinál a bonyolult problémák megoldására. Egy véletlenszerű erdőmódszer nagyszámú döntési fából épül fel. Használható hitelkérelmek kategorizálására, csalárd magatartás észlelésére és betegségek kitörésének előrejelzésére.
7. Zavart mátrix
A zavaros mátrix az osztályozási modell teljesítményének leírására szolgáló táblázat. A következő négy szót használjuk a zavaros mátrix vizsgálatára:
- Valódi pozitív: Azt jelzi, hogy a modell kedvező eredményt vetített előre, és az helyes volt.
- Igaz negatív: Azt jelzi, hogy a modell rossz eredményt vetített előre, és az helyes volt.
- Hamis pozitív: Azt jelzi, hogy a modell kedvező eredményt várt, de valójában negatív volt.
- Hamis negatív: Azt jelzi, hogy a modell negatív eredményt várt, míg az eredmény valóban pozitív volt.
Zavaros mátrix megvalósítás:
Érvek
- Használata egyszerű.
- A Scikit-learn csomag rendkívül alkalmazkodó és hasznos, és olyan valós célokat szolgál ki, mint a fogyasztói viselkedés előrejelzése, a neuroképek fejlesztése és így tovább.
- Azok a felhasználók, akik szeretnék összekapcsolni az algoritmusokat a platformjaikkal, részletes API-dokumentációt találnak a Scikit-learn webhelyen.
- Számos szerző, együttműködő és egy nagy világméretű online közösség támogatja és tartja naprakészen a Scikit-learnt.
Hátrányok
- Nem az ideális lehetőség a mélyreható tanulmányozáshoz.
Következtetés
A Scikit-learn kritikus csomag minden adattudós számára, amelyhez erős ismeretekkel és tapasztalatokkal kell rendelkeznie. Ez az útmutató segít a sklearn használatával történő adatkezelésben. A Scikit-learn számos további funkcióval is rendelkezik, amelyeket az adattudományi kalandok során felfedezhet. Ossza meg gondolatait a megjegyzésekben.
Hagy egy Válaszol