Una guida per principianti à Scikit-learn

Table di cuntinutu[Piattà][Mostra]

Cosa hè Scikit-learn?
Applicazioni di a biblioteca Scikit-learn+-
Installazione di Scikit-learn
Features +-
Runzinu
Cons
cunchiusioni

Sè vo site un programatore Python o se cercate un toolkit putente da aduprà per introduisce l'apprendimentu di macchina in un sistema di produzzione, Scikit-learn hè una biblioteca chì avete bisognu di verificà.

Scikit-learn hè ben documentatu è faciule d'utilizà, sia chì site novu in l'apprendimentu automaticu, vulete mette in opera rapidamente, o vulete utilizà l'uttellu di ricerca ML più aggiornatu.

Permette di custruisce un mudellu di dati predittivi in solu uni pochi di linee di codice è poi usa stu mudellu per adattà à i vostri dati cum'è una biblioteca d'altu livellu. Hè flessibile è funziona bè cù l'altri Biblioteche Python cum'è Matplotlib per charting, NumPy per a vectorization array, è panda per a visualizazione di dati.

In sta guida, truverete tuttu ciò chì hè, cumu pudete aduprà, cù i so pros è cuns.

Chì ghjè Scikit-amparà?

Scikit-learn (cunnisciutu ancu sklearn) offre un inseme diversu di mudelli statistici è machine learning. A cuntrariu di a maiò parte di i moduli, sklearn hè sviluppatu in Python piuttostu cà C. Malgradu esse sviluppatu in Python, l'efficienza di sklearn hè attribuita à u so usu di NumPy per l'algebra lineale d'altu rendiment è l'operazioni di array.

Scikit-Learn hè statu creatu cum'è parte di u prughjettu Summer of Code di Google è dapoi hà resu più simplice a vita di milioni di scientisti di dati Python-centric in u mondu. Questa sezione di a serie si focalizeghja nantu à a presentazione di a biblioteca è fucalizza nantu à un elementu - trasfurmazioni di dataset, chì sò un passu chjave è vitale per piglià prima di sviluppà un mudellu di predizione.

Sklearn

A biblioteca hè basatu annantu à SciPy (Python Scientificu), chì deve esse installatu prima di pudè utilizà scikit-learn. Questa pila cuntene i seguenti elementi:

NumPy: u pacchettu standard di array n-dimensionale di Python
SciPy: Hè un pacchettu fundamentale per l'informatica scientifica
Pandas: Strutture di dati è analisi
Matplotlib: Hè una putente libreria di plotting 2D/3D
Sympy: matematica simbolica
IPython: Cunsola interattiva mejorata

Applicazioni di a biblioteca Scikit-learn

Scikit-learn hè un pacchettu Python open-source cù analisi di dati sofisticati è funzioni di mining. Hè vene cun una pléthora di algoritmi integrati per aiutà à ottene u massimu di i vostri prughjetti di scienza di dati. A biblioteca Scikit-learn hè aduprata in i seguenti manere.

1. Regressione

L'analisi di regressione hè una tecnica statistica per analizà è capisce a cunnessione trà duie o più variàbili. U metudu utilizatu per fà l'analisi di regressione aiuta à determinà quale elementi sò pertinenti, chì ponu esse ignorati, è cumu interagiscenu. I tecnichi di regressione, per esempiu, ponu esse aduprati per capisce megliu u cumpurtamentu di i prezzi di l'azzioni.

L'algoritmi di regressione includenu:

Regressione Lineale
Ridge Regression
Regressione di Lasso
Regressione di l'arbre di decisione
Foresta casuale
Support Vector Machines (SVM)

2. Classificazione

U metudu di Classificazione hè un approcciu d'Apprendimentu Supervisatu chì usa dati di furmazione per identificà a categuria di osservazioni fresche. Un algoritmu in Classificazione ampara da un datu set di dati o osservazioni è poi classifica l'osservazioni supplementari in una di parechje classi o raggruppamenti. Puderanu, per esempiu, esse usatu per classificà e cumunicazioni email cum'è spam o micca.

L'algoritmi di classificazione includenu i seguenti:

Regressione Logistica
K-Vicini più vicini
Support Vector Machine
Arburu di Decisione
Foresta casuale

3. Clustering

L'algoritmi di clustering in Scikit-learn sò usati per organizà automaticamente e dati cù proprietà simili in setti. Clustering hè u prucessu di raggruppà un inseme di elementi in modu chì quelli in u stessu gruppu sò più simili à quelli in altri gruppi. I dati di i clienti, per esempiu, ponu esse separati secondu a so situazione.

L'algoritmi di clustering includenu i seguenti:

DB-SCAN
K-Means
Mini-Batch K-Means
Clustering Spectral

4. Selezzione mudellu

L'algoritmi di selezzione di mudelli furniscenu metudi per paragunà, cunvalidà è selezziunate i paràmetri ottimali è mudelli per l'usu in iniziative di scienza di dati. Dati dati, a selezzione di mudelli hè u prublema di sceglie un mudellu statisticu da un gruppu di mudelli candidati. In i circustanzi più basi, una cullizzioni preesistente di dati hè presa in contu. Tuttavia, u compitu pò ancu include u disignu di esperimenti per chì e dati acquistati sò adattati per u prublema di selezzione di mudelli.

I moduli di selezzione di mudelli chì ponu migliurà a precisione aghjustendu i paràmetri include:

Validazione incruciata
Ricerca di griglia
Metrics

5. Riduzzione di dimensione

U trasferimentu di dati da un spaziu dimensionale à un spaziu dimensionale bassu in modu chì a rapprisintazioni dimensionale bassu cunserva alcuni aspetti significativi di e dati originali, idealmente vicinu à a so dimensione inherente, hè cunnisciuta cum'è riduzzione di dimensionalità. U numaru di variàbili aleatorii per l'analisi hè ridutta quandu a dimensionalità hè ridutta. I dati periferichi, per esempiu, ùn ponu micca esse cunsideratu per migliurà l'efficienza di visualizazioni.

L'algoritmu di riduzione di dimensionalità include i seguenti:

Selezione di funzioni
Analisi di Componenti Principali (PCA)

Installazione di Scikit-learn

NumPy, SciPy, Matplotlib, IPython, Sympy è Pandas sò necessarii per esse installati prima di utilizà Scikit-learn. Stallamu cù pip da a cunsola (funziona solu per Windows).

stallà

Stallà Scikit-learn avà chì avemu stallatu e librerie richieste.

Installazione di Sklearn

Features

Scikit-learn, qualchì volta cunnisciutu cum'è sklearn, hè un toolkit Python per l'implementazione di mudelli d'apprendimentu automaticu è di modellazione statistica. Puderemu aduprà per creà parechje mudelli di machine learning per regressione, classificazione è clustering, è ancu strumenti statistici per valutà questi mudelli. Include ancu a riduzzione di dimensionalità, a selezzione di funzioni, l'estrazione di e funzioni, l'approcci di l'inseme è i datasets integrati. Investigheremu ognuna di queste qualità una à una volta.

1. Importing Datasets

Scikit-learn include una quantità di datasets pre-custruiti, cum'è u dataset iris, dataset di prezzu di casa, dataset titanicu, etc. I vantaghji chjave di questi datasets sò chì sò simplici per capiscenu è ponu esse utilizati per sviluppà immediatamente mudelli ML. Questi datasets sò adattati per i principianti. In listessu modu, pudete aduprà sklearn per impurtà datasets supplementari. In listessu modu, pudete aduprà per impurtà datasets supplementari.

Dataset

2. Splitting Dataset per Training and Testing

Sklearn includeu a capacità di dividisce u dataset in segmenti di furmazione è di prova. A divisione di u set di dati hè necessaria per una valutazione imparziale di u rendiment di prediczione. Pudemu specificà quantu di i nostri dati deve esse inclusu in u trenu è i datasets di prova. Avemu divisu u set di dati utilizendu a divisione di prova di trenu in modu chì u set di trenu cumprendi 80% di e dati è u set di test hà 20%. U dataset pò esse divisu cum'è seguitu:

Spliting

3. Regressione Linear

A Regressione Lineare hè una tecnica di apprendimentu automaticu basata nantu à l'apprendimentu. Realizza un travagliu di regressione. Basatu nantu à variàbili indipendenti, a regressione modella un valore di predizione di u scopu. Hè soprattuttu utilizatu per determinà u ligame trà e variàbili è predizioni. Diversi mudelli di regressione sò diffirenti in quantu à u tipu di cunnessione chì valutanu trà e variàbili dipendenti è indipindenti, è ancu u nùmeru di variàbili indipendenti utilizati. Pudemu simpricimenti creà u mudellu di Regressione Lineale usendu sklearn cum'è seguente:

Regressione Lineale

4. Regressione Logistica

Un approcciu di categurizazione cumuni hè a regressione logistica. Hè in a listessa famiglia di a regressione polinomiale è lineare è appartene à a famiglia di classificatori lineari. I risultati di a regressione logistica sò simplici per capiscenu è sò prestu à calculà. In u listessu modu cum'è a regressione lineale, a regressione logistica hè una tecnica di regressione supervisata. A variabile di output hè categurica, cusì hè l'unica diferenza. Pò esse determinate se un paziente hà o micca una malatia cardiaca.

Diversi prublemi di classificazione, cum'è a rilevazione di spam, ponu esse risolti cù a regressione logistica. Previsione di diabete, determinante se un cunsumadore cumprà un pruduttu specificu o cambià à un rivale, determinendu se un utilizatore cliccà nantu à un ligame di marketing specificu, è assai più scenari sò solu uni pochi esempi.

Regressione Logistica

5. Arbulu di decisione

A tecnica di classificazione è predizione più putente è largamente usata hè l'arbre di decisione. Un arbulu di decisione hè una struttura d'arburu chì s'assumiglia à un diagramma di flussu, cù ogni nodu internu chì rapprisenta una prova nantu à un attributu, ogni ramu chì rapprisenta a cunclusione di a prova, è ogni nodu foglia (node terminal) tenendu una etichetta di classa.

Quandu i variàbili dipindenti ùn anu micca una relazione lineale cù e variàbili indipindenti, vale à dì quandu a regressione lineale ùn pruduce micca risultati curretti, l'arbureti di decisione sò benifichi. L'ughjettu DecisionTreeRegression () pò esse usatu in una manera simile per utilizà un arbre di decisione per a regressione.

Arburu di Decisione

6. Random Forest

Una furesta casuale hè a machine learning approcciu per risolve i prublemi di regressione è classificazione. Face usu di l'apprendimentu di l'inseme, chì hè una tecnica chì combina parechji classificatori per risolve prublemi complicati. Un metudu di foresta aleatoriu hè custituitu da un gran numaru d'arburi di decisione. Pò esse usatu per categurizà l'applicazioni di prestitu, detectà un cumpurtamentu fraudulente, è anticipà i focu di malatie.

Foresta casuale

7. Confusion Matrix

Una matrice di cunfusione hè una tavula utilizata per descriverà u rendiment di u mudellu di classificazione. I seguenti quattru parolle sò usati per esaminà a matrice di cunfusione:

True Positive: Significa chì u mudellu hà prughjettatu un risultatu favurevule è era currettu.
True Negative: Significa chì u mudellu hà prughjettatu un malu risultatu è era currettu.
Falsu Positivu: Significa chì u mudellu s'aspittava un risultatu favurevule, ma era veramente un negativu.
Falsu Negativu: Significa chì u mudellu aspettava un risultatu negativu, mentri u risultatu era veramente pusitivu.

Confusion Matrix Photo

Implementazione di a matrice di cunfusione:

Confusion Metrics

Runzinu

Hè simplice da aduprà.
U pacchettu Scikit-learn hè estremamente adattabile è utile, serve à scopi di u mondu reale, cum'è a previsione di u cumpurtamentu di u cunsumadore, u sviluppu di neuroimaghjini, è cusì.
L'utilizatori chì vulianu cunnette l'algoritmi cù e so piattaforme truveranu documentazioni API detallate nantu à u situ web Scikit-learn.
Numerosi autori, cullaburatori, è una grande cumunità in linea in u mondu sustenenu è mantenenu Scikit-learn à ghjornu.

Cons

Ùn hè micca l'opzione ideale per un studiu approfonditu.

cunchiusioni

Scikit-learn hè un pacchettu criticu per ogni scientist di dati per avè una forte cunniscenza è una certa sperienza. Questa guida deve aiutà vi cù a manipulazione di dati cù sklearn. Ci hè parechje più capacità di Scikit-learn chì scoprerete mentre avanzate in a vostra avventura di scienza di dati. Condividi i vostri pinsamenti in i cumenti.

Una guida per principianti à Scikit-learn

Chì ghjè Scikit-amparà?