Panduan Pemula untuk Scikit-belajar

Daftar Isi[Bersembunyi][Menunjukkan]

Apa itu Scikit-belajar?
Aplikasi perpustakaan Scikit-belajar+-
Menginstal Scikit-belajar
Fitur +-
Pro
Kekurangan
Kesimpulan

Jika Anda seorang programmer Python atau jika Anda sedang mencari toolkit yang kuat untuk digunakan untuk memperkenalkan pembelajaran mesin ke dalam sistem produksi, Scikit-learn adalah perpustakaan yang perlu Anda periksa.

Scikit-learn terdokumentasi dengan baik dan mudah digunakan, baik Anda baru dalam pembelajaran mesin, ingin memulai dan menjalankannya dengan cepat, atau ingin menggunakan alat penelitian ML terbaru.

Ini memungkinkan Anda untuk membuat model data prediktif hanya dalam beberapa baris kode dan kemudian menggunakan model itu agar sesuai dengan data Anda sebagai pustaka tingkat tinggi. Ini fleksibel dan bekerja dengan baik dengan yang lain Pustaka Python seperti Matplotlib untuk pembuatan bagan, NumPy untuk vektorisasi array, dan panda untuk visualisasi data.

Dalam panduan ini, Anda akan mengetahui semua tentang apa itu, bagaimana Anda dapat menggunakannya, beserta pro dan kontranya.

Apa itu Scikit-belajar?

Scikit-learn (juga dikenal sebagai sklearn) menawarkan serangkaian model statistik dan pembelajaran mesin yang beragam. Tidak seperti kebanyakan modul, sklearn dikembangkan dengan Python daripada C. Meskipun dikembangkan dengan Python, efisiensi sklearn berasal dari penggunaan NumPy untuk aljabar linier kinerja tinggi dan operasi array.

Scikit-Learn dibuat sebagai bagian dari proyek Summer of Code Google dan sejak itu membuat kehidupan jutaan ilmuwan data yang berpusat pada Python di seluruh dunia menjadi lebih sederhana. Bagian dari seri ini berfokus pada penyajian pustaka dan fokus pada satu elemen – transformasi kumpulan data, yang merupakan langkah penting dan penting yang harus diambil sebelum mengembangkan model prediksi.

Sklearn

Pustaka didasarkan pada SciPy (Python Ilmiah), yang harus diinstal sebelum Anda dapat menggunakan scikit-learn. Tumpukan ini berisi item berikut:

NumPy: paket array n-dimensi standar Python
SciPy: Ini adalah paket dasar untuk komputasi ilmiah
Panda: Struktur dan analisis data
Matplotlib: Ini adalah perpustakaan plot 2D/3D yang kuat
Sympy: Matematika simbolik
IPython: Konsol interaktif yang ditingkatkan

Aplikasi perpustakaan Scikit-belajar

Scikit-learn adalah paket Python open-source dengan analisis data dan fitur penambangan yang canggih. Muncul dengan sejumlah besar algoritme bawaan untuk membantu Anda mendapatkan hasil maksimal dari proyek ilmu data Anda. Pustaka Scikit-learn digunakan dengan cara berikut.

1. Regresi

Analisis regresi adalah teknik statistik untuk menganalisis dan memahami hubungan antara dua variabel atau lebih. Metode yang digunakan untuk melakukan analisis regresi membantu dalam menentukan elemen mana yang relevan, mana yang dapat diabaikan, dan bagaimana elemen tersebut berinteraksi. Teknik regresi, misalnya, dapat digunakan untuk lebih memahami perilaku harga saham.

Algoritma regresi meliputi:

linear Regression
Regresi Punggung
Regresi Lasso
Regresi Pohon Keputusan
Hutan Acak
Mendukung Mesin Vektor (SVM)

2. Klasifikasi

Metode Klasifikasi merupakan pendekatan Supervised Learning yang menggunakan data latih untuk mengidentifikasi kategori pengamatan baru. Sebuah algoritma dalam Klasifikasi belajar dari yang diberikan kumpulan data atau pengamatan dan kemudian mengklasifikasikan pengamatan tambahan ke dalam salah satu dari banyak kelas atau pengelompokan. Mereka dapat, misalnya, digunakan untuk mengklasifikasikan komunikasi email sebagai spam atau tidak.

Algoritma klasifikasi meliputi:

Regresi logistik
K-Tetangga Terdekat
Mendukung Mesin Vektor
Pohon Keputusan
Hutan Acak

3. Pengelompokan

Algoritma pengelompokan di Scikit-learn digunakan untuk secara otomatis mengatur data dengan properti serupa ke dalam set. Clustering adalah proses pengelompokan satu set item sehingga item dalam kelompok yang sama lebih mirip dengan yang ada di kelompok lain. Data pelanggan, misalnya, mungkin dipisahkan berdasarkan lokasinya.

Algoritma clustering meliputi:

Pemindaian DB
K-Berarti
K-Means Batch Mini
Pengelompokan Spektral

4. Pemilihan Model

Algoritma pemilihan model menyediakan metode untuk membandingkan, memvalidasi, dan memilih parameter dan model yang optimal untuk digunakan dalam inisiatif ilmu data. Mengingat data, pemilihan model adalah masalah memilih model statistik dari sekelompok calon model. Dalam keadaan yang paling dasar, pengumpulan data yang sudah ada sebelumnya diperhitungkan. Namun, tugas tersebut juga dapat mencakup desain eksperimen sehingga data yang diperoleh sesuai dengan masalah pemilihan model.

Modul pemilihan model yang dapat meningkatkan akurasi dengan menyesuaikan parameter meliputi:

Validasi silang
Pencarian Grid
Metrik

5. Pengurangan Dimensi

Pemindahan data dari ruang berdimensi tinggi ke ruang berdimensi rendah sehingga representasi berdimensi rendah mempertahankan beberapa aspek penting dari data asli, idealnya dekat dengan dimensi bawaannya, dikenal sebagai reduksi dimensi. Jumlah variabel acak untuk analisis berkurang ketika dimensi berkurang. Data terluar, misalnya, mungkin tidak dipertimbangkan untuk meningkatkan efisiensi visualisasi.

Algoritme Pengurangan Dimensi mencakup hal-hal berikut:

Pemilihan fitur
Analisis Komponen Utama (PCA)

Menginstal Scikit-belajar

NumPy, SciPy, Matplotlib, IPython, Sympy, dan Pandas harus diinstal sebelum menggunakan Scikit-learn. Mari kita instal menggunakan pip dari konsol (hanya berfungsi untuk Windows).

Install

Mari kita instal Scikit-belajar sekarang setelah kita menginstal perpustakaan yang diperlukan.

Memasang Sklearn

Fitur

Scikit-learn, terkadang dikenal sebagai sklearn, adalah toolkit Python untuk mengimplementasikan model pembelajaran mesin dan pemodelan statistik. Kami dapat menggunakannya untuk membuat beberapa model pembelajaran mesin untuk regresi, klasifikasi, dan pengelompokan, serta alat statistik untuk menilai model ini. Ini juga mencakup pengurangan dimensi, pemilihan fitur, ekstraksi fitur, pendekatan ensemble, dan set data bawaan. Kami akan menyelidiki masing-masing kualitas ini satu per satu.

1. Mengimpor Kumpulan Data

Scikit-learn mencakup sejumlah set data yang dibuat sebelumnya, seperti set data iris, set data harga rumah, set data titanic, dan sebagainya. Keuntungan utama dari kumpulan data ini adalah mudah dipahami dan dapat digunakan untuk segera mengembangkan model ML. Kumpulan data ini cocok untuk pemula. Demikian pula, Anda dapat menggunakan sklearn untuk mengimpor kumpulan data tambahan. Demikian pula, Anda dapat menggunakannya untuk mengimpor kumpulan data tambahan.

Dataset

2. Memisahkan Dataset untuk Pelatihan dan Pengujian

Sklearn menyertakan kemampuan untuk membagi dataset menjadi segmen pelatihan dan pengujian. Memisahkan kumpulan data diperlukan untuk penilaian kinerja prediksi yang tidak bias. Kami dapat menentukan berapa banyak data kami yang harus dimasukkan dalam rangkaian data kereta dan pengujian. Kami membagi dataset menggunakan train test split sehingga train set terdiri dari 80% data dan test set memiliki 20%. Dataset dapat dibagi sebagai berikut:

Pemisahan

3. Regresi Linier

Regresi Linier adalah teknik pembelajaran mesin berbasis pembelajaran yang diawasi. Ini melakukan pekerjaan regresi. Berdasarkan variabel bebas, model regresi merupakan nilai prediksi tujuan. Hal ini sebagian besar digunakan untuk menentukan hubungan antara variabel dan memprediksi. Model regresi yang berbeda berbeda dalam hal jenis koneksi yang mereka evaluasi antara variabel dependen dan independen, serta jumlah variabel independen yang digunakan. Kita cukup membuat model Regresi Linier menggunakan sklearn sebagai berikut:

linear Regression

4. Regresi Logistik

Pendekatan kategorisasi yang umum adalah regresi logistik. Itu dalam keluarga yang sama dengan regresi polinomial dan linier dan termasuk dalam keluarga pengklasifikasi linier. Temuan regresi logistik mudah dipahami dan cepat dihitung. Dengan cara yang sama seperti regresi linier, regresi logistik adalah teknik regresi terawasi. Variabel output bersifat kategoris, jadi itulah satu-satunya perbedaan. Hal ini dapat menentukan apakah pasien memiliki penyakit jantung atau tidak.

Berbagai masalah klasifikasi, seperti deteksi spam, dapat diselesaikan dengan menggunakan regresi logistik. Perkiraan diabetes, menentukan apakah konsumen akan membeli produk tertentu atau beralih ke pesaing, menentukan apakah pengguna akan mengklik tautan pemasaran tertentu, dan banyak lagi skenario hanyalah beberapa contoh.

Regresi logistik

5. Pohon Keputusan

Teknik klasifikasi dan prediksi yang paling kuat dan banyak digunakan adalah pohon keputusan. Pohon keputusan adalah struktur pohon yang terlihat seperti diagram alur, dengan setiap simpul internal mewakili pengujian pada atribut, setiap cabang mewakili kesimpulan pengujian, dan setiap simpul daun (simpul terminal) memegang label kelas.

Ketika variabel dependen tidak memiliki hubungan linier dengan variabel independen, yaitu ketika regresi linier tidak menghasilkan temuan yang benar, pohon keputusan bermanfaat. Objek DecisionTreeRegression() dapat digunakan dengan cara yang sama untuk memanfaatkan pohon keputusan untuk regresi.

Pohon Keputusan

6. Hutan Acak

Hutan acak adalah Mesin belajar pendekatan untuk memecahkan masalah regresi dan klasifikasi. Itu memanfaatkan pembelajaran ensemble, yang merupakan teknik yang menggabungkan beberapa pengklasifikasi untuk memecahkan masalah yang rumit. Sebuah metode hutan acak terdiri dari sejumlah besar pohon keputusan. Ini dapat digunakan untuk mengkategorikan aplikasi pinjaman, mendeteksi perilaku penipuan, dan mengantisipasi wabah penyakit.

Hutan Acak

7. Matriks Kebingungan

Confusion matrix adalah tabel yang digunakan untuk menggambarkan performa model klasifikasi. Empat kata berikut digunakan untuk memeriksa matriks kebingungan:

Benar Positif: Ini menandakan bahwa model memproyeksikan hasil yang menguntungkan dan itu benar.
Benar Negatif: Ini menandakan bahwa model memproyeksikan hasil yang buruk dan itu benar.
Positif Palsu: Ini menandakan bahwa model mengharapkan hasil yang menguntungkan tetapi itu benar-benar negatif.
Negatif Palsu: Ini menandakan bahwa model mengharapkan hasil negatif, sedangkan hasilnya benar-benar positif.

Foto Matriks Kebingungan

Implementasi matriks kebingungan:

Metrik Kebingungan

Pro

Ini sederhana untuk digunakan.
Paket Scikit-learn sangat mudah beradaptasi dan berguna, melayani tujuan dunia nyata seperti prediksi perilaku konsumen, pengembangan neuroimage, dan sebagainya.
Pengguna yang ingin menghubungkan algoritme dengan platform mereka akan menemukan dokumentasi API terperinci di situs web Scikit-learn.
Banyak penulis, kolaborator, dan komunitas online besar di seluruh dunia mendukung dan terus memperbarui Scikit-learn.

Kekurangan

Ini bukan pilihan ideal untuk studi mendalam.

Kesimpulan

Scikit-learn adalah paket penting bagi setiap ilmuwan data untuk memiliki pemahaman yang kuat dan beberapa pengalaman. Panduan ini akan membantu Anda dengan manipulasi data menggunakan sklearn. Ada banyak lagi kemampuan Scikit-learn yang akan Anda temukan saat Anda maju melalui petualangan ilmu data Anda. Bagikan pemikiran Anda di komentar.

Panduan Pemula untuk Scikit-belajar

Apa itu Scikit-belajar?