Pituduh pamula pikeun Scikit-diajar

Daptar eusi[Sumputkeun][Témbongkeun]

Naon Scikit-diajar?
Aplikasi tina perpustakaan Scikit-diajar+-
Masang Scikit-diajar
Fitur +-
Naros
kontra
kacindekan

Upami anjeun programmer Python atanapi upami anjeun milarian toolkit anu kuat pikeun dianggo pikeun ngawanohkeun mesin diajar kana sistem produksi, Scikit-learning mangrupikeun perpustakaan anu anjeun kedah parios.

Scikit-learn didokuméntasikeun saé sareng saderhana dianggo, naha anjeun énggal-énggal diajar mesin, hoyong bangun sareng ngajalankeun gancang, atanapi hoyong ngagunakeun alat panalungtikan ML anu paling anyar.

Hal ieu ngamungkinkeun anjeun pikeun ngawangun modél data prediktif dina ngan sababaraha baris kode teras nganggo modél éta pikeun nyocogkeun data anjeun salaku perpustakaan tingkat luhur. Éta fléksibel sareng tiasa dianggo sareng anu sanés perpustakaan Python kawas Matplotlib pikeun charting, NumPy pikeun Asép Sunandar Sunarya vectorization, sarta pandas pikeun visualisasi data.

Dina pituduh ieu, anjeun bakal terang sadayana ngeunaan naon éta, kumaha anjeun tiasa ngagunakeunana, sareng pro sareng kontra.

Naon Scikit-diajar?

Scikit-learning (ogé katelah sklearn) nawarkeun rupa-rupa set model statistik jeung mesin learning. Teu kawas paling modul, sklearn dimekarkeun dina Python tinimbang C. Sanajan geus dimekarkeun dina Python, efisiensi sklearn ascribed kana pamakéan na NumPy pikeun-kinerja tinggi aljabar linier sarta operasi Asép Sunandar Sunarya.

Scikit-Learn diciptakeun salaku bagian tina proyék Summer of Code Google sareng parantos ngajantenkeun kahirupan jutaan élmuwan data Python-centric di sakuliah dunya langkung saderhana. Bagian séri ieu museurkeun kana nampilkeun perpustakaan sareng museurkeun kana hiji unsur - transformasi set data, anu mangrupikeun léngkah konci sareng penting anu kedah dilakukeun sateuacan ngembangkeun modél prediksi.

Sklearn

Perpustakaan ieu dumasar kana SciPy (Scientific Python), nu kudu dipasang saméméh anjeun bisa make scikit-learning. tumpukan ieu ngandung item di handap:

NumPy: pakét array n-dimensi standar Python
SciPy: Éta mangrupikeun pakét dasar pikeun komputasi ilmiah
Pandas: Struktur data jeung analisis
Matplotlib: Éta mangrupikeun perpustakaan plot 2D / 3D anu kuat
Sympy: Matematika simbolis
IPython: Ningkatkeun konsol interaktif

Aplikasi tina perpustakaan Scikit-diajar

Scikit-learning mangrupikeun pakét Python open-source kalayan analisa data anu canggih sareng fitur pertambangan. Éta hadir sareng seueur algoritma anu diwangun pikeun ngabantosan anjeun maksimalkeun hasil tina proyék élmu data anjeun. Perpustakaan Scikit-diajar dipaké dina cara di handap ieu.

1. Regresi

Analisis régrési nyaéta téknik statistik pikeun nganalisis sareng ngartos hubungan antara dua variabel atanapi langkung. Métode anu digunakeun pikeun ngalakukeun analisa régrési ngabantosan dina nangtukeun unsur mana anu relevan, anu tiasa dipaliré, sareng kumaha interaksina. Téhnik régrési, contona, tiasa dianggo pikeun langkung ngartos paripolah harga saham.

Algoritma régrési kalebet:

liniér Regression
Regression Ridge
Lasso Regresi
Regression Tangkal Kaputusan
Leuweung Acak
Mesin Véktor Dukungan (SVM)

2. Klasifikasi

Métode Klasifikasi nya éta pendekatan Pangajaran Diawaskeun anu ngagunakeun data latihan pikeun ngaidéntifikasi kategori observasi seger. Algoritma dina Klasifikasi diajar tina anu dipasihkeun susunan data atawa observasi lajeng mengklasifikasikan observasi tambahan kana salah sahiji loba kelas atawa grup. Éta tiasa, contona, dianggo pikeun mengklasifikasikan komunikasi email salaku spam atanapi henteu.

Algoritma klasifikasi kalebet ieu:

Logistik Regresi
K-Tanggana Pangdeukeutna
Rojongan Mesin Véktor
Kaputusan Kaputusan
Leuweung Acak

3. Klaster

Algoritma clustering di Scikit-diajar dipaké pikeun otomatis ngatur data mibanda sipat sarupa kana susunan. Clustering nya éta prosés ngagolongkeun sakumpulan barang-barang sangkan nu aya dina hiji kelompok leuwih sarua jeung nu aya dina kelompok séjén. Data palanggan, contona, tiasa dipisahkeun dumasar kana lokasina.

Algoritma Clustering kalebet ieu:

DB-SCAN
K-Hartosna
Mini-angkatan K-Means
Clustering spéktral

4. Pamilihan modél

Algoritma pamilihan modél nyayogikeun metode pikeun ngabandingkeun, ngavalidasi, sareng milih parameter sareng modél anu optimal pikeun dianggo dina inisiatif élmu data. Data anu dipasihkeun, pamilihan modél mangrupikeun masalah pikeun milih modél statistik tina sakelompok modél calon. Dina kaayaan anu paling dasar, kumpulan data anu tos aya dipertimbangkeun. Sanajan kitu, tugas ogé bisa ngawengku rarancang percobaan ambéh data kaala téh well-cocog jeung masalah pilihan model.

Modél pilihan modél anu tiasa ningkatkeun akurasi ku nyaluyukeun parameter kalebet:

Validasi silang
Pilarian grid
metrics

5. Ngurangan dimensi

Mindahkeun data tina rohangan diménsi luhur ka rohangan diménsi handap sahingga répréséntasi diménsi low ngajaga sababaraha aspék signifikan tina data aslina, idéal deukeut dimensi alam na, katelah réduksi dimensi. Jumlah variabel acak pikeun analisis diréduksi nalika diménsina diréduksi. Data luar, contona, teu tiasa dianggap ningkatkeun efisiensi visualisasi.

Algoritma Pangurangan Dimensi ngawengku ieu:

Pilihan Pilihan
Analisis Komponén Pokok (PCA)

Masang Scikit-diajar

NumPy, SciPy, Matplotlib, IPython, Sympy, sareng Pandas kedah dipasang sateuacan nganggo Scikit-learning. Hayu urang pasang aranjeunna nganggo pip tina konsol (ngan ukur dianggo pikeun Windows).

masang

Hayu urang install Scikit-diajar ayeuna urang geus dipasang perpustakaan diperlukeun.

Masang Sklearn

Fitur

Scikit-learning, sok katelah sklearn, mangrupakeun toolkit Python pikeun nerapkeun model learning mesin jeung modeling statistik. Urang bisa make eta pikeun nyieun sababaraha model learning mesin keur regression, klasifikasi, jeung clustering, kitu ogé parabot statistik keur assessing model ieu. Éta ogé kalebet réduksi dimensi, pilihan fitur, ékstraksi fitur, pendekatan ensemble, sareng set data anu diwangun. Urang bakal nalungtik unggal kualitas ieu dina hiji waktu.

1. Ngimpor Dataset

Scikit-learning ngawengku sababaraha datasets tos diwangun, kayaning dataset iris, dataset harga imah, dataset titanic, jeung saterusna. Kauntungan utama tina set data ieu nyaéta gampang pikeun nangkep sareng tiasa dianggo pikeun langsung ngembangkeun modél ML. Dataset ieu cocog pikeun pamula. Nya kitu, anjeun tiasa nganggo sklearn pikeun ngimpor set data tambahan. Nya kitu, anjeun tiasa nganggo éta pikeun ngimpor set data tambahan.

Dataset

2. Ngabagi Dataset pikeun Latihan jeung Tés

Sklearn kaasup kamampuhan pikeun ngabagi dataset kana latihan jeung nguji bagéan. Ngabagi set data diperlukeun pikeun penilaian anu teu bias ngeunaan kinerja prediksi. Urang tiasa netepkeun sabaraha data urang anu kedah dilebetkeun kana set data karéta sareng tés. Kami ngabagi set data nganggo pamisah uji karéta supados set karéta ngandung 80% data sareng set tés gaduh 20%. Dataset tiasa dibagi kieu:

Beulah

3. Régrési liniér

Regresi Linier nyaéta téknik pembelajaran mesin dumasar-diawasan. Éta ngalaksanakeun padamelan régrési. Dumasar kana variabel bébas, régrési modél nilai prediksi tujuan. Hal ieu lolobana dipaké pikeun nangtukeun link antara variabel jeung ngaramal. Modél régrési anu béda-béda béda dina jinis sambungan anu dievaluasi antara variabel terikat sareng variabel bebas, ogé jumlah variabel bebas anu dianggo. Urang ngan saukur tiasa ngadamel modél Linear Regression nganggo sklearn sapertos kieu:

liniér Regression

4. Regresi Logistik

Pendekatan categorization umum nyaéta régrési logistik. Éta dina kulawarga anu sami sareng régrési polinomial sareng liniér sareng kalebet kulawarga pangklasifikasi linier. Papanggihan régrési logistik gampang kaharti sareng gancang diitung. Dina cara anu sami sareng régrési linier, régrési logistik mangrupikeun téknik régrési anu diawaskeun. Variabel kaluaran téh categorical, jadi éta hijina bédana. Éta tiasa nangtoskeun naha pasien ngagaduhan panyakit jantung atanapi henteu.

Rupa-rupa masalah klasifikasi, sapertos deteksi spam, tiasa direngsekeun nganggo régrési logistik. Prakiraan diabetes, nangtukeun naha konsumen bakal mésér produk khusus atanapi ngalih ka saingan, nangtukeun naha pangguna bakal ngaklik tautan pamasaran khusus, sareng seueur deui skenario anu ngan ukur sababaraha conto.

Logistik Regresi

5. Tangkal Kaputusan

Téhnik klasifikasi sareng prediksi anu paling kuat sareng seueur dianggo nyaéta tangkal kaputusan. Tangkal kaputusan nyaéta struktur tangkal anu katingalina sapertos diagram alur, kalayan unggal titik internal ngalambangkeun tés dina atribut, unggal cabang ngagambarkeun kacindekan tés, sareng unggal titik daun (titik terminal) gaduh labél kelas.

Lamun variabel terikat teu boga hubungan linier jeung variabel bebas, nyaéta lamun régrési liniér teu ngahasilkeun papanggihan bener, tangkal kaputusan mangpaat. DecisionTreeRegression () objék bisa dipaké dina cara nu sarupa pikeun ngamangpaatkeun tangkal kaputusan pikeun regression.

Kaputusan Kaputusan

6. Leuweung Acak

Leuweung acak nyaéta a learning mesin pendekatan pikeun ngarengsekeun regression jeung klasifikasi masalah. Éta ngagunakeun pembelajaran ensemble, nyaéta téknik anu ngagabungkeun sababaraha klasifikasi pikeun ngabéréskeun masalah anu rumit. Metodeu leuweung acak diwangun ku sajumlah ageung tangkal kaputusan. Éta tiasa dianggo pikeun ngagolongkeun aplikasi injeuman, ngadeteksi paripolah panipuan, sareng ngantisipasi wabah panyakit.

Leuweung Acak

7. Kabingungan Matrix

Matriks kabingungan nyaéta tabel anu digunakeun pikeun ngajelaskeun kinerja modél klasifikasi. Opat kecap ieu dipaké pikeun nguji matriks kabingungan:

Leres Positif: Éta nunjukkeun yén modél ngaramalkeun hasil anu nguntungkeun sareng éta leres.
Negatip Leres: Éta nunjukkeun yén modél ngaramalkeun hasil anu goréng sareng éta leres.
Positif Palsu: Ieu nunjukkeun yén modél ngarepkeun hasil anu nguntungkeun tapi éta leres-leres négatip.
Negatip Palsu: Éta nunjukkeun yén modél diperkirakeun hasil négatip, sedengkeun hasilna leres-leres positif.

Bingung Matrix Poto

Palaksanaan matriks kabingungan:

Métrik kabingungan

Naros

Éta saderhana dianggo.
Paket Scikit-learning pisan adaptable jeung mangpaat, porsi tujuan real-dunya kayaning prediksi kabiasaan konsumen, ngembangkeun neuroimage, jeung saterusna.
Pamaké anu hoyong nyambungkeun algoritma sareng platformna bakal mendakan dokuméntasi API anu lengkep dina situs wéb Scikit-learning.
Seueur pangarang, kolaborator, sareng komunitas online anu ageung ngadukung sareng tetep Scikit-diajar nepi ka ayeuna.

kontra

Éta sanés pilihan idéal pikeun diajar anu jero.

kacindekan

Scikit-diajar mangrupakeun pakét kritis pikeun unggal élmuwan data boga keupeul kuat sarta sababaraha pangalaman jeung. Pitunjuk ieu kedah ngabantosan anjeun pikeun manipulasi data nganggo sklearn. Aya loba deui kamampuhan Scikit-diajar nu bakal manggihan anjeun kamajuan ngaliwatan petualangan elmu data Anjeun. Bagikeun pikiran anjeun dina koméntar.

Pituduh pemula pikeun Scikit-diajar

Naon Scikit-diajar?