Werrej[Aħbi][Uri]
Jekk inti programmatur Python jew jekk qed tfittex sett ta 'għodda b'saħħtu biex tutilizza biex tintroduċi t-tagħlim tal-magni f'sistema ta' produzzjoni, Scikit-learn hija librerija li għandek bżonn tiċċekkja.
Scikit-learn huwa dokumentat tajjeb u sempliċi biex jintuża, kemm jekk int ġdid għat-tagħlim bil-magni, kemm jekk trid tibda taħdem malajr, jew trid tutilizza l-għodda ta 'riċerka ML l-aktar aġġornata.
Jippermettilek tibni mudell ta 'dejta ta' tbassir fi ftit linji ta 'kodiċi biss u mbagħad tuża dak il-mudell biex jaqbel mad-dejta tiegħek bħala librerija ta' livell għoli. Huwa flessibbli u jaħdem tajjeb ma 'oħrajn Libreriji Python bħal Matplotlib għall-iċċartjar, NumPy għall-vectorization tal-firxa, u pandas għall-viżwalizzazzjoni tad-dejta.
F'din il-gwida, inti ser issir taf kollox dwar x'inhu, kif tista 'tużah, flimkien mal-vantaġġi u l-iżvantaġġi tagħha.
X'inhu Scikit-jitgħallmu?
Scikit-learn (magħruf ukoll bħala sklearn) joffri sett divers ta' mudelli statistiċi u tagħlim bil-magni. B'differenza mill-biċċa l-kbira tal-moduli, sklearn huwa żviluppat f'Python aktar milli f'C. Minkejja li ġie żviluppat f'Python, l-effiċjenza ta 'sklearn hija attribwita għall-użu tiegħu ta' NumPy għal alġebra lineari ta 'prestazzjoni għolja u operazzjonijiet ta' array.
Scikit-Learn inħoloq bħala parti mill-proġett Summer of Code ta' Google u minn dakinhar għamel il-ħajja ta' miljuni ta' xjenzati tad-dejta iċċentrati fuq Python madwar id-dinja aktar sempliċi. Din it-taqsima tas-serje tiffoka fuq il-preżentazzjoni tal-librerija u tiffoka fuq element wieħed - trasformazzjonijiet tas-sett tad-dejta, li huma pass ewlieni u vitali li wieħed jieħu qabel ma jiġi żviluppat mudell ta' tbassir.
Il-librerija hija bbażata fuq SciPy (Scientific Python), li trid tiġi installata qabel ma tkun tista' tuża scikit-learn. Dan il-munzell fih l-oġġetti li ġejjin:
- NumPy: Pakkett standard ta 'array n-dimensjonali ta' Python
- SciPy: Huwa pakkett fundamentali għall-kompjuters xjentifiċi
- Pandas: Strutturi tad-dejta u analiżi
- Matplotlib: Hija librerija qawwija ta' plottjar 2D/3D
- Sympy: Matematika simbolika
- IPython: console interattiva mtejba
Applikazzjonijiet tal-librerija Scikit-learn
Scikit-learn huwa pakkett Python open-source b'analiżi tad-dejta sofistikata u karatteristiċi tal-minjieri. Jiġi ma 'pletora ta' algoritmi integrati biex jgħinuk tikseb l-aħjar mill-proġetti tax-xjenza tad-dejta tiegħek. Il-librerija Scikit-learn tintuża fil-modi li ġejjin.
1. Rigressjoni
L-analiżi tar-rigressjoni hija teknika statistika biex tanalizza u tifhem il-konnessjoni bejn żewġ varjabbli jew aktar. Il-metodu użat biex issir analiżi tar-rigressjoni jgħin biex jiġi ddeterminat liema elementi huma rilevanti, liema jistgħu jiġu injorati, u kif jinteraġixxu. Tekniki ta' rigressjoni, pereżempju, jistgħu jintużaw biex jifhmu aħjar l-imġiba tal-prezzijiet tal-istokks.
L-algoritmi ta' rigressjoni jinkludu:
- lineari Rigressjoni
- Ridge Rigress
- Regressjoni tal-Lasso
- Rigressjoni tas-Siġra tad-Deċiżjoni
- Foresti każwali
- Appoġġ Magni Vector (SVM)
2. Klassifikazzjoni
Il-metodu ta' Klassifikazzjoni huwa approċċ ta' Tagħlim Superviż li juża data ta' taħriġ biex jidentifika l-kategorija ta' osservazzjonijiet ġodda. Algoritmu fil-Klassifikazzjoni jitgħallem minn partikolari sett tad-dejta jew osservazzjonijiet u mbagħad tikklassifika osservazzjonijiet addizzjonali f'waħda minn ħafna klassijiet jew gruppi. Jistgħu, pereżempju, jintużaw biex jikklassifikaw komunikazzjonijiet bl-email bħala spam jew le.
L-algoritmi ta' klassifikazzjoni jinkludu dan li ġej:
- Regressjoni Loġistika
- K-Eqreb Ġirien
- Appoġġ Magni tal-Vector
- Siġra tad-Deċiżjoni
- Foresti każwali
3. Raggruppament
L-algoritmi ta' clustering f'Scikit-learn jintużaw biex awtomatikament jirranġaw data bi proprjetajiet simili f'settijiet. Clustering huwa l-proċess ta 'raggruppament ta' sett ta 'oġġetti sabiex dawk fl-istess grupp ikunu aktar simili għal dawk fi gruppi oħra. Id-dejta tal-klijenti, pereżempju, tista' tiġi sseparata skont il-lokalità tagħhom.
L-algoritmi ta' raggruppament jinkludu dan li ġej:
- DB-SCAN
- K-Mezzi
- Mini-lott K-Mezzi
- Raggruppament Spettrali
4. Għażla tal-Mudell
L-algoritmi tal-għażla tal-mudell jipprovdu metodi għat-tqabbil, il-validazzjoni u l-għażla tal-parametri u l-mudelli ottimali għall-użu fl-inizjattivi tax-xjenza tad-dejta. Minħabba dejta, l-għażla tal-mudell hija l-problema tal-ġbir ta 'mudell statistiku minn grupp ta' mudelli kandidati. Fl-aktar ċirkustanzi bażiċi, ġbir ta' data pre-eżistenti jitqies. Madankollu, il-kompitu jista 'jinkludi wkoll id-disinn ta' esperimenti sabiex id-dejta miksuba tkun adattata sew għall-problema tal-għażla tal-mudell.
Moduli tal-għażla tal-mudell li jistgħu jtejbu l-eżattezza billi jaġġustaw il-parametri jinkludu:
- Kontrovalidazzjoni
- Fittex tal-Grid
- Metrics
5. Tnaqqis tad-Dimensjonalità
It-trasferiment ta 'data minn spazju ta' dimensjoni għolja għal spazju ta 'dimensjoni baxxa sabiex ir-rappreżentazzjoni ta' dimensjoni baxxa tippreserva xi aspetti sinifikanti tad-data oriġinali, idealment qrib id-dimensjoni inerenti tagħha, hija magħrufa bħala tnaqqis tad-dimensjoni. In-numru ta 'varjabbli każwali għall-analiżi jitnaqqas meta titnaqqas id-dimensjonalità. Data barranija, pereżempju, tista' ma titqiesx biex ittejjeb l-effiċjenza tal-viżwalizzazzjonijiet.
L-algoritmu tat-Tnaqqis tad-Dimensjonalità jinkludi dan li ġej:
- Għażla tal-Karatteristiċi
- Analiżi tal-Komponent Prinċipali (PCA)
Installazzjoni ta' Scikit-learn
NumPy, SciPy, Matplotlib, IPython, Sympy, u Pandas huma meħtieġa li jiġu installati qabel ma tuża Scikit-learn. Ejja ninstallawhom billi tuża pip mill-console (jaħdem biss għall-Windows).
Ejja ninstallaw Scikit-learn issa li installajna l-libreriji meħtieġa.
Karatteristiċi
Scikit-learn, kultant magħruf bħala sklearn, huwa sett ta' għodda Python għall-implimentazzjoni ta' mudelli ta' tagħlim bil-magni u mmudellar statistiku. Nistgħu nużawha biex noħolqu mudelli multipli ta’ tagħlim tal-magni għar-rigressjoni, il-klassifikazzjoni u l-clustering, kif ukoll għodod statistiċi għall-valutazzjoni ta’ dawn il-mudelli. Jinkludi wkoll tnaqqis tad-dimensjonalità, għażla tal-karatteristiċi, estrazzjoni tal-karatteristiċi, approċċi ta 'ensemble, u settijiet ta' dejta integrati. Aħna se ninvestigaw kull waħda minn dawn il-kwalitajiet waħda waħda.
1. Importazzjoni ta' settijiet ta' dejta
Scikit-learn jinkludi numru ta 'settijiet ta' dejta mibnija minn qabel, bħas-sett ta 'dejta tal-iris, sett ta' dejta tal-prezz tad-dar, sett ta 'dejta titaniku, eċċ. Il-vantaġġi ewlenin ta’ dawn is-settijiet tad-dejta huma li huma sempliċi biex jinftiehmu u jistgħu jintużaw biex jiġu żviluppati immedjatament mudelli ML. Dawn is-settijiet tad-dejta huma xierqa għan-novizzi. Bl-istess mod, tista' tuża sklearn biex timporta settijiet ta' dejta addizzjonali. Bl-istess mod, tista' tużaha biex timporta settijiet ta' dejta addizzjonali.
2. Qsim tad-Dataset għat-Taħriġ u l-Ittestjar
Sklearn inkluda l-abbiltà li jaqsam is-sett tad-dejta f'segmenti ta 'taħriġ u ttestjar. Il-qsim tas-sett tad-dejta huwa meħtieġ għal valutazzjoni imparzjali tal-prestazzjoni tat-tbassir. Nistgħu nispeċifikaw kemm mid-dejta tagħna għandha tkun inkluża fis-settijiet tad-dejta tal-ferrovija u tat-test. Qsamna s-sett tad-dejta bl-użu tal-qasma tat-test tal-ferrovija b'tali mod li s-sett tal-ferrovija jinkludi 80% tad-dejta u s-sett tat-test ikollu 20%. Is-sett tad-dejta jista’ jinqasam kif ġej:
3. Rigressjoni Lineari
Ir-Rgressjoni Lineari hija teknika ta' tagħlim tal-magni bbażata fuq it-tagħlim sorveljat. Hija twettaq xogħol ta 'rigressjoni. Ibbażat fuq varjabbli indipendenti, ir-rigressjoni timmudella valur ta 'tbassir ta' għan. Huwa l-aktar użat biex tiddetermina r-rabta bejn il-varjabbli u t-tbassir. Mudelli ta 'rigressjoni differenti jvarjaw f'termini tat-tip ta' konnessjoni li jevalwaw bejn varjabbli dipendenti u indipendenti, kif ukoll in-numru ta 'varjabbli indipendenti utilizzati. Nistgħu sempliċement noħolqu l-mudell ta' Rigressjoni Lineari billi tuża sklearn kif ġej:
4. Rigressjoni Loġistika
Approċċ ta' kategorizzazzjoni komuni huwa rigressjoni loġistika. Huwa fl-istess familja bħar-rigressjoni polinomjali u lineari u jappartjeni għall-familja tal-klassifikatur lineari. Is-sejbiet tar-rigressjoni loġistika huma sempliċi biex jinftiehmu u malajr jiġu kkalkulati. Bl-istess mod bħar-rigressjoni lineari, ir-rigressjoni loġistika hija teknika ta 'rigressjoni sorveljata. Il-varjabbli tal-output huwa kategoriku, għalhekk dik hija l-unika differenza. Jista 'jiddetermina jekk pazjent għandux mard kardijaku jew le.
Diversi kwistjonijiet ta 'klassifikazzjoni, bħall-iskoperta tal-ispam, jistgħu jiġu solvuti permezz ta' rigressjoni loġistika. It-tbassir tad-dijabete, li jiddetermina jekk konsumatur hux se jixtri prodott speċifiku jew jaqleb għal rivali, li jiddetermina jekk utent hux se jikklikkja fuq link ta 'kummerċjalizzazzjoni speċifika, u ħafna aktar xenarji huma biss ftit eżempji.
5. Siġra tad-Deċiżjoni
L-aktar teknika ta 'klassifikazzjoni u tbassir qawwija u użata ħafna hija s-siġra tad-deċiżjonijiet. Siġra tad-deċiżjoni hija struttura ta 'siġra li tidher qisha flowchart, b'kull nodu intern jirrappreżenta test fuq attribut, kull fergħa tirrappreżenta l-konklużjoni tat-test, u kull node tal-weraq (node terminali) li jkollu tikketta tal-klassi.
Meta l-varjabbli dipendenti ma jkollhomx relazzjoni lineari mal-varjabbli indipendenti, jiġifieri meta rigressjoni lineari ma tipproduċix sejbiet korretti, is-siġar tad-deċiżjonijiet huma ta' benefiċċju. L-oġġett DecisionTreeRegression() jista' jintuża b'mod simili biex juża siġra tad-deċiżjonijiet għar-rigressjoni.
6. Foresti Random
Foresta każwali hija a tagħlim magna approċċ għas-soluzzjoni ta' kwistjonijiet ta' rigressjoni u klassifikazzjoni. Jagħmel użu mit-tagħlim ensemble, li hija teknika li tgħaqqad klassifikaturi multipli biex issolvi problemi kkumplikati. Metodu tal-foresti każwali huwa magħmul minn numru kbir ta 'siġar tad-deċiżjonijiet. Jista 'jintuża biex jikkategorizza l-applikazzjonijiet għal self, jiskopri mġiba frawdolenti, u jantiċipa tifqigħat ta' mard.
7. Matriċi ta' Konfużjoni
Matriċi ta 'konfużjoni hija tabella użata biex tiddeskrivi l-prestazzjoni tal-mudell ta' klassifikazzjoni. L-erba' kelmiet li ġejjin jintużaw biex tiġi eżaminata l-matriċi tal-konfużjoni:
- Veru Pożittiv: Dan ifisser li l-mudell ipproġetta riżultat favorevoli u kien korrett.
- Veru Negattiv: Jifisser li l-mudell ipproġetta riżultat ħażin u kien korrett.
- Pożittiv Falz: Jifisser li l-mudell stenna riżultat favorevoli iżda kien verament wieħed negattiv.
- Negattiv Falz: Jifisser li l-mudell stenna riżultat negattiv, filwaqt li r-riżultat kien verament pożittiv.
Implimentazzjoni tal-matriċi ta' konfużjoni:
Prosperità
- Huwa sempliċi biex tużah.
- Il-pakkett Scikit-learn huwa estremament adattabbli u utli, u jservi għanijiet tad-dinja reali bħal tbassir tal-imġieba tal-konsumatur, żvilupp newroimmaġini, eċċ.
- L-utenti li jixtiequ jgħaqqdu l-algoritmi mal-pjattaformi tagħhom isibu dokumentazzjoni dettaljata tal-API fuq il-websajt Scikit-learn.
- Bosta awturi, kollaboraturi, u komunità online kbira madwar id-dinja jappoġġjaw u jżommu Scikit-learn aġġornat.
cons
- Mhijiex l-għażla ideali għal studju fil-fond.
konklużjoni
Scikit-learn huwa pakkett kritiku għal kull xjenzat tad-dejta biex ikollu ħakma qawwija u xi esperjenza miegħu. Din il-gwida għandha tgħinek bil-manipulazzjoni tad-dejta billi tuża sklearn. Hemm ħafna aktar kapaċitajiet ta' Scikit-learn li inti ser tiskopri hekk kif timxi fl-avventura tiegħek fix-xjenza tad-dejta. Aqsam il-ħsibijiet tiegħek fil-kummenti.
Ħalli Irrispondi