Panduan Pemula untuk Scikit-belajar

Jadual Kandungan[Sembunyi][Tunjukkan]

Apakah Scikit-belajar?
Aplikasi perpustakaan Scikit-Learn+-
Memasang Scikit-belajar
Ciri-ciri +-
Kelebihan
Kekurangan
Kesimpulan

Jika anda seorang pengaturcara Python atau jika anda sedang mencari kit alat yang berkuasa untuk digunakan untuk memperkenalkan pembelajaran mesin ke dalam sistem pengeluaran, Scikit-learn ialah perpustakaan yang perlu anda semak.

Scikit-learn didokumentasikan dengan baik dan mudah digunakan, sama ada anda baru dalam pembelajaran mesin, ingin bangkit dan berjalan dengan cepat, atau ingin menggunakan alat penyelidikan ML yang paling terkini.

Ia membolehkan anda membina model data ramalan hanya dalam beberapa baris kod dan kemudian menggunakan model itu untuk disesuaikan dengan data anda sebagai perpustakaan peringkat tinggi. Ia fleksibel dan berfungsi dengan baik dengan yang lain Perpustakaan Python seperti Matplotlib untuk carta, NumPy untuk vektorisasi tatasusunan dan panda untuk visualisasi data.

Dalam panduan ini, anda akan mengetahui semua tentang apa itu, bagaimana anda boleh menggunakannya, bersama dengan kebaikan dan keburukannya.

Apakah Scikit-belajar?

Scikit-learn (juga dikenali sebagai sklearn) menawarkan set model statistik dan pembelajaran mesin yang pelbagai. Tidak seperti kebanyakan modul, sklearn dibangunkan dalam Python dan bukannya C. Walaupun dibangunkan dalam Python, kecekapan sklearn dikaitkan dengan penggunaan NumPy untuk algebra linear dan operasi tatasusunan berprestasi tinggi.

Scikit-Learn telah dicipta sebagai sebahagian daripada projek Summer of Code Google dan sejak itu menjadikan kehidupan berjuta-juta saintis data tertumpu Python di seluruh dunia lebih mudah. Bahagian siri ini memfokuskan pada mempersembahkan perpustakaan dan memfokuskan pada satu elemen - transformasi set data, yang merupakan langkah penting dan penting untuk diambil sebelum membangunkan model ramalan.

Sklearn

Pustaka adalah berdasarkan SciPy (Scientific Python), yang mesti dipasang sebelum anda boleh menggunakan scikit-learn. Tindanan ini mengandungi item berikut:

NumPy: pakej tatasusunan n-dimensi standard Python
SciPy: Ia adalah pakej asas untuk pengkomputeran saintifik
Panda: Struktur dan analisis data
Matplotlib: Ia adalah perpustakaan perancangan 2D/3D yang berkuasa
Sympy: Matematik simbolik
IPython: Konsol interaktif yang dipertingkatkan

Aplikasi perpustakaan Scikit-Learn

Scikit-learn ialah pakej Python sumber terbuka dengan analisis data dan ciri perlombongan yang canggih. Ia datang dengan pelbagai algoritma terbina dalam untuk membantu anda memanfaatkan sepenuhnya projek sains data anda. Pustaka Scikit-learn digunakan dalam cara berikut.

1. Regresi

Analisis regresi adalah teknik statistik untuk menganalisis dan memahami hubungan antara dua atau lebih pembolehubah. Kaedah yang digunakan untuk melakukan analisis regresi membantu dalam menentukan elemen yang relevan, yang mungkin diabaikan, dan bagaimana ia berinteraksi. Teknik regresi, contohnya, boleh digunakan untuk lebih memahami gelagat harga saham.

Algoritma regresi termasuk:

linear Regression
Regresi Permatang
Regresi Lasso
Regresi Pokok Keputusan
Hutan Rawak
Mesin Vektor Sokongan (SVM)

2. Pengelasan

Kaedah Klasifikasi ialah pendekatan Pembelajaran Terselia yang menggunakan data latihan untuk mengenal pasti kategori pemerhatian segar. Algoritma dalam Pengelasan belajar daripada yang diberikan dataset atau pemerhatian dan kemudian mengklasifikasikan pemerhatian tambahan kepada satu daripada banyak kelas atau kumpulan. Ia boleh, sebagai contoh, digunakan untuk mengklasifikasikan komunikasi e-mel sebagai spam atau tidak.

Algoritma pengelasan termasuk yang berikut:

Regresi Logistik
K-Jiran Terdekat
Mesin Vektor Sokongan
Pokok keputusan
Hutan Rawak

3. Pengelompokan

Algoritma pengelompokan dalam Scikit-learn digunakan untuk menyusun data secara automatik dengan sifat yang serupa ke dalam set. Pengelompokan ialah proses mengelompokkan satu set item supaya mereka dalam kumpulan yang sama lebih serupa dengan kumpulan lain. Data pelanggan, sebagai contoh, mungkin dipisahkan berdasarkan lokasi mereka.

Algoritma pengelompokan termasuk yang berikut:

DB-SCAN
K-Means
Mini-Batch K-Means
Pengelompokan Spektrum

4. Pemilihan Model

Algoritma pemilihan model menyediakan kaedah untuk membandingkan, mengesahkan dan memilih parameter dan model optimum untuk digunakan dalam inisiatif sains data. Berdasarkan data, pemilihan model ialah masalah memilih model statistik daripada sekumpulan model calon. Dalam keadaan yang paling asas, pengumpulan data yang sedia ada diambil kira. Walau bagaimanapun, tugas itu mungkin juga termasuk reka bentuk eksperimen supaya data yang diperolehi sangat sesuai dengan masalah pemilihan model.

Modul pemilihan model yang boleh meningkatkan ketepatan dengan melaraskan parameter termasuk:

Pengesahan bersilang
Carian Grid
Metrik

5. Pengurangan Dimensi

Pemindahan data daripada ruang berdimensi tinggi kepada ruang berdimensi rendah supaya perwakilan dimensi rendah mengekalkan beberapa aspek penting data asal, secara idealnya berhampiran dengan dimensi wujudnya, dikenali sebagai pengurangan dimensi. Bilangan pembolehubah rawak untuk analisis dikurangkan apabila dimensi dikurangkan. Data luar, sebagai contoh, mungkin tidak dianggap untuk meningkatkan kecekapan visualisasi.

Algoritma Pengurangan Dimensi termasuk yang berikut:

Pemilihan ciri
Analisis Komponen Utama (PCA)

Memasang Scikit-belajar

NumPy, SciPy, Matplotlib, IPython, Sympy dan Pandas diperlukan untuk dipasang sebelum menggunakan Scikit-learn. Mari pasangkannya menggunakan pip dari konsol (hanya berfungsi untuk Windows).

memasang

Mari pasang Scikit-learn sekarang kerana kami telah memasang perpustakaan yang diperlukan.

Memasang Sklearn

Ciri-ciri

Scikit-learn, kadangkala dikenali sebagai sklearn, ialah kit alat Python untuk melaksanakan model pembelajaran mesin dan pemodelan statistik. Kami mungkin menggunakannya untuk mencipta berbilang model pembelajaran mesin untuk regresi, pengelasan dan pengelompokan, serta alat statistik untuk menilai model ini. Ia juga termasuk pengurangan dimensi, pemilihan ciri, pengekstrakan ciri, pendekatan ensemble dan set data terbina dalam. Kami akan menyiasat setiap kualiti ini satu demi satu.

1. Mengimport Set Data

Scikit-learn merangkumi beberapa set data pra-bina, seperti set data iris, set data harga rumah, set data raksasa dan sebagainya. Kelebihan utama set data ini ialah ia mudah untuk difahami dan boleh digunakan untuk membangunkan model ML dengan segera. Set data ini sesuai untuk orang baru. Begitu juga, anda boleh menggunakan sklearn untuk mengimport set data tambahan. Begitu juga, anda boleh menggunakannya untuk mengimport set data tambahan.

Dataset

2. Pemisahan Set Data untuk Latihan dan Ujian

Sklearn termasuk keupayaan untuk membahagikan set data kepada segmen latihan dan ujian. Memisahkan set data diperlukan untuk penilaian prestasi ramalan yang tidak berat sebelah. Kami mungkin menentukan jumlah data kami yang perlu disertakan dalam set data kereta api dan ujian. Kami membahagikan set data menggunakan pembahagian ujian kereta api supaya set kereta api terdiri daripada 80% daripada data dan set ujian mempunyai 20%. Dataset boleh dibahagikan seperti berikut:

Perpecahan

3. Regresi Linear

Regresi Linear ialah teknik pembelajaran mesin berasaskan pembelajaran yang diselia. Ia menjalankan kerja regresi. Berdasarkan pembolehubah bebas, regresi memodelkan nilai ramalan matlamat. Ia kebanyakannya digunakan untuk menentukan pautan antara pembolehubah dan meramal. Model regresi yang berbeza berbeza dari segi jenis sambungan yang mereka nilai antara pembolehubah bersandar dan bebas, serta bilangan pembolehubah bebas yang digunakan. Kita hanya boleh mencipta model Regresi Linear menggunakan sklearn seperti berikut:

linear Regression

4. Regresi Logistik

Pendekatan pengkategorian biasa ialah regresi logistik. Ia berada dalam keluarga yang sama dengan regresi polinomial dan linear dan tergolong dalam keluarga pengelas linear. Penemuan regresi logistik adalah mudah untuk difahami dan cepat untuk dikira. Dengan cara yang sama seperti regresi linear, regresi logistik ialah teknik regresi yang diselia. Pembolehubah keluaran adalah kategori, jadi itulah satu-satunya perbezaan. Ia boleh menentukan sama ada pesakit mempunyai penyakit jantung atau tidak.

Pelbagai isu klasifikasi, seperti pengesanan spam, boleh diselesaikan menggunakan regresi logistik. Ramalan diabetes, menentukan sama ada pengguna akan membeli produk tertentu atau bertukar kepada saingan, menentukan sama ada pengguna akan mengklik pada pautan pemasaran tertentu, dan banyak lagi senario hanyalah beberapa contoh.

Regresi Logistik

5. Pokok Keputusan

Teknik pengelasan dan ramalan yang paling berkuasa dan digunakan secara meluas ialah pepohon keputusan. Pepohon keputusan ialah struktur pepohon yang kelihatan seperti carta alir, dengan setiap nod dalaman mewakili ujian pada atribut, setiap cawangan mewakili kesimpulan ujian, dan setiap nod daun (nod terminal) memegang label kelas.

Apabila pembolehubah bersandar tidak mempunyai hubungan linear dengan pembolehubah bebas, iaitu apabila regresi linear tidak menghasilkan dapatan yang betul, pepohon keputusan adalah berfaedah. Objek DecisionTreeRegression() boleh digunakan dengan cara yang sama untuk menggunakan pepohon keputusan untuk regresi.

Pokok keputusan

6. Hutan Rawak

Hutan rawak ialah a pembelajaran mesin pendekatan untuk menyelesaikan masalah regresi dan klasifikasi. Ia menggunakan pembelajaran ensemble, iaitu teknik yang menggabungkan pelbagai pengelas untuk menyelesaikan masalah rumit. Kaedah hutan rawak terdiri daripada sebilangan besar pokok keputusan. Ia boleh digunakan untuk mengkategorikan permohonan pinjaman, mengesan tingkah laku penipuan dan menjangka wabak penyakit.

Hutan Rawak

7. Matriks Kekeliruan

Matriks kekeliruan ialah jadual yang digunakan untuk menerangkan prestasi model klasifikasi. Empat perkataan berikut digunakan untuk memeriksa matriks kekeliruan:

Positif Benar: Ia menandakan bahawa model itu mengunjurkan hasil yang menggalakkan dan ia adalah betul.
Negatif Benar: Ini menandakan bahawa model itu mengunjurkan hasil yang buruk dan ia betul.
Positif Palsu: Ia menandakan bahawa model menjangkakan hasil yang menggalakkan tetapi ia benar-benar negatif.
Negatif Palsu: Ia menandakan bahawa model menjangkakan hasil negatif, manakala hasilnya benar-benar positif.

Foto Matriks Kekeliruan

Pelaksanaan matriks kekeliruan:

Metrik Kekeliruan

Kelebihan

Ia mudah digunakan.
Pakej Scikit-Learn sangat mudah disesuaikan dan berguna, menyediakan matlamat dunia sebenar seperti ramalan tingkah laku pengguna, pembangunan neuroimej, dan sebagainya.
Pengguna yang ingin menyambungkan algoritma dengan platform mereka akan menemui dokumentasi API terperinci di tapak web Scikit-learn.
Ramai pengarang, kolaborator dan komuniti dalam talian yang besar di seluruh dunia menyokong dan memastikan Scikit-learning up to date.

Kekurangan

Ia bukan pilihan yang ideal untuk kajian mendalam.

Kesimpulan

Scikit-learn ialah pakej kritikal untuk setiap saintis data memahami dan mempunyai pengalaman yang kukuh. Panduan ini sepatutnya membantu anda dengan manipulasi data menggunakan sklearn. Terdapat banyak lagi keupayaan Scikit-belajar yang anda akan temui semasa anda maju melalui pengembaraan sains data anda. Kongsi pendapat anda dalam komen.

Panduan Pemula untuk Scikit-belajar

Apakah Scikit-belajar?