Cara Nglatih Model Pembelajaran Mesin - Pandhuan kanggo Pamula

Apa sampeyan pengin miwiti karo learning machine?

Aku wis nggawe tutorial prasaja lan gampang kanggo pamula lengkap. Bebarengan, kita bakal ngrampungake langkah-langkah dhasar kanggo nglatih model pembelajaran mesin.

Nalika nerangake langkah-langkah latihan model siji-siji, aku uga bakal menehi conto dhasar babagan masalah machine learning. Dadi, yen sampeyan pengin ngetutake, sampeyan bisa ndownload set data sampel saka iki link.

Iki mung conto set data kanggo mbantu sampeyan miwiti machine learning.

Kita duwe 18 nilai wong sing beda-beda umur lan jender sing duwe musik favorit. Kanthi nggunakake, fitur "umur" lan "gender" kita bakal nyoba kanggo guess genre musik sing paling disenengi.

Cathetan: 1 lan 0 ditugasake kanggo jender minangka wanita lan lanang ing set data iki.

Chart Bagan Lingkaran
Nanging, yen sampeyan ora pengin ngetutake conto kasebut, iku uga apik banget. Aku bakal nerangake kabeh langkah kasebut kanthi rinci. Dadi, ayo nyilem!

Pisanan Sing Ngerti

Sadurunge pindhah menyang langkah-langkah latihan model, ayo njlentrehake sawetara poin. Pembelajaran mesin yaiku Kacerdhasan gawéyan disiplin sing fokus ing ngembangaken algoritma sing bisa sinau saka data.

Kanggo nindakake iki, model machine learning dilatih ing dataset sing mulang model carane nggawe prediksi bener utawa klasifikasi ing anyar, data sadurunge dingerteni.

Dadi, apa model kasebut? A model pembelajaran mesin mirip karo resep sing digunakake komputer kanggo ngasilake prediksi utawa pilihan data.

Model, kaya resep, nderek sakumpulan instruksi kanggo ngevaluasi data lan ngasilake prediksi utawa pertimbangan adhedhasar pola sing ditemokake ing data kasebut. Data sing luwih akeh model dilatih, luwih akurat ramalane.

Model Apa sing Bisa Kita Latih?

Ayo ndeleng apa model pembelajaran mesin dhasar.

Regresi Linear: model sing prédhiksi variabel target sing terus-terusan saka siji utawa luwih variabel input.
Jaringan syaraf: jaringan kelenjar sing disambung sing bisa sinau ndeteksi pola rumit ing data.
Wit Keputusan: pendekatan nggawe keputusan sing dibangun ing rantai pernyataan yen-liyane.
Clustering: sakumpulan model sing nglompokake titik data sing bisa dibandhingake adhedhasar podho.
Regresi Logistik: model kanggo masalah klasifikasi biner ing ngendi variabel target nduweni rong nilai potensial.
Wit Keputusan: pendekatan nggawe keputusan sing dibangun ing rantai pernyataan yen-liyane.
Random Forest: model ensemble sing kasusun saka akeh wit keputusan. Padha kerep digunakake kanggo aplikasi klasifikasi lan regresi.
K-Nearest Neighbors: model sing prédhiksi variabel target nggunakake titik data k-paling cedhak ing set latihan.

Gumantung ing masalah lan set data, kita mutusake model pembelajaran mesin sing paling cocog karo kahanan kita. Nanging, kita bakal bali menyang iki mengko. Saiki, ayo miwiti latihan model kita. Mugi sampeyan wis ngundhuh set data yen sampeyan pengin tindakake conto kita.

Uga, aku nyaranake duwe Notebook Jupyter Kab diinstal ing mesin lokal lan digunakake kanggo proyek learning machine.

1: Nemtokake masalah

Tahap pisanan ing nglatih machine learning model nemtokake masalah sing bakal ditanggulangi. Iki kalebu milih variabel sing pengin diramal (dikenal minangka variabel target) lan variabel sing bakal digunakake kanggo ngasilake ramalan kasebut (dikenal minangka fitur utawa prediktor).

Sampeyan uga kudu mutusake apa jenis masalah machine-learning sing arep diatasi (klasifikasi, regresi, clustering, lan liya-liyane) lan jinis data apa sing kudu diklumpukake utawa dilatih model sampeyan.

Jinis model sing sampeyan gunakake bakal ditemtokake dening jinis masalah machine learning sing arep diatasi. Klasifikasi, regresi, lan clustering minangka telung kategori utama tantangan machine learning. Yen sampeyan pengin prédhiksi variabel kategori, kayata email minangka spam utawa ora, sampeyan nggunakake klasifikasi.

Yen sampeyan pengin ramalan variabel sing terus-terusan, kayata rega omah, sampeyan nggunakake regresi. Clustering digunakake kanggo nggabungake item data sing bisa dibandhingake adhedhasar persamaane.

Yen kita ndeleng conto kita; tantangan kita kanggo nemtokake gaya musik preferred wong saka gender lan umur. Kita bakal nggunakake set data 18 wong kanggo conto iki lan informasi babagan umur, jenis kelamin, lan gaya musik favorit.

2. Siapke data

Sawise sampeyan nemtokake masalah kasebut, sampeyan kudu nyiapake data kanggo latihan model kasebut. Iki mbutuhake ngresiki lan ngolah data. Dadi, kita bisa mesthekake yen ana ing format sing algoritma machine learning bisa nggunakake.

Iki bisa uga kalebu aktivitas kaya mbusak nilai sing ilang, ngowahi data kategoris dadi data numerik, lan skala utawa normalake data kanggo mesthekake kabeh karakteristik ana ing skala sing padha.

Contone, iki carane mbusak nilai sing ilang:

import pandas as pd
# Load the data into a pandas DataFrame
data = pd.read_csv('data.csv')
# Check for missing values
print(data.isnull().sum())
# Drop rows with missing values
data.dropna(inplace=True)
# Check that all missing values have been removed
print(data.isnull().sum())

Tuladha Nilai Ilang

Cathetan cilik: Ing baris o "import pandas as pd", kita ngimpor perpustakaan Pandas lan nemtokake alias "pd" kanggo nggawe luwih gampang kanggo referensi fungsi lan obyek mengko ing kode.

Pandas minangka modul kondhang kanggo Python kanggo manipulasi lan analisis data, utamane nalika nggarap data terstruktur utawa tabular.

Ing conto kita nemtokake genre musik. Kita bakal ngimpor set data dhisik. Aku wis dijenengi music.csv, Nanging, sampeyan bisa jeneng iku sampeyan pengin.

Kanggo nyiapake data kanggo latihan model pembelajaran mesin, kita dibagi dadi atribut (umur lan jender) lan tujuan (genre musik).

Kita uga bakal mbagi data dadi set latihan lan tes 80:20 kanggo netepake kinerja model kita lan supaya ora overfitting.

# Import necessary libraries
import pandas as pd
from sklearn.model_selection import train_test_split
# Load data from CSV file/code> music_data = pd.read_csv('music.csv') # Split data into features and target X = music_data.drop(columns=['genre']) y = music_data['genre'] # Split data into training and testing sets X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

3. Pilih model machine learning.

Sawise nyiapake data, sampeyan kudu milih model machine learning sing cocog karo tugas sampeyan.

Ana sawetara algoritma sing bisa dipilih, kayata wit keputusan, regresi logistik, mesin vektor dhukungan, jaringan saraf, lan liya-liyane. Algoritma sing sampeyan pilih bakal ditemtokake dening masalah sing sampeyan coba jawab, jinis data sing sampeyan duwe, lan kabutuhan kinerja sampeyan.

Kita bakal nggunakake klasifikasi wit keputusan kanggo conto iki amarga kita lagi nggarap masalah klasifikasi (prediksi data kategoris).

# Import necessary libraries
from sklearn.tree import DecisionTreeClassifier

Mangkene visualisasi babagan cara kerja Decision Tree Classifier:

Tuladha Decision Tree

4. Nglatih model

Sampeyan bisa miwiti latihan model kasebut nalika sampeyan milih algoritma machine-learning sing bisa ditampa. Iki mbutuhake nggunakake data sing digawe sadurunge kanggo ngajari algoritma babagan carane nggawe prediksi babagan data anyar sing durung katon sadurunge.

Algoritma bakal ngowahi paramèter internal sajrone latihan kanggo nyilikake prabédan antarane nilai sing diprediksi lan nilai nyata ing data latihan. Jumlah data sing digunakake kanggo latihan, uga paramèter tartamtu saka algoritma, kabeh bisa duwe pengaruh ing akurasi model asil.

Ing conto tartamtu, saiki wis mutusake cara, kita bisa nglatih model nganggo data latihan.

# Train the decision tree classifier
model = DecisionTreeClassifier()
model.fit(X_train, y_train)

Wit Kaputusan

5. Evaluasi model

Sawise model wis dilatih, kudu dievaluasi ing data anyar kanggo mesthekake yen akurat lan bisa dipercaya. Iki mbutuhake nguji model kanthi data sing ora digunakake sajrone latihan lan mbandhingake nilai sing digambarake karo nilai nyata ing data tes.

Tinjauan iki bisa mbantu ngenali cacat model apa wae, kayata overfitting utawa underfitting, lan bisa nyebabake fine-tuning sing dibutuhake.

Nggunakake data testing, kita bakal netepke bener model kita.

# Import necessary libraries
from sklearn.metrics import accuracy_score
# Predict the music genre for the test data
predictions = model.predict(X_test)
# Evaluate the model's accuracy
accuracy = accuracy_score(y_test, predictions)
print("Accuracy: ", accuracy)

akurasi

Skor akurasi ora dadi ala kanggo saiki. 🙂 Kanggo nambah skor akurasi, sampeyan bisa tansah ngresiki data luwih utawa nyoba model machine learning beda kanggo ndeleng kang menehi skor paling dhuwur.

6. Fine-tune model

Yen efisiensi model ora cukup, sampeyan bisa nyempurnakake kanthi ngowahi macem-macem parameter algoritma utawa kanthi eksperimen karo algoritma anyar kabeh.

Prosedur iki bisa uga kalebu eksperimen karo tingkat sinau alternatif, ngowahi setelan regularisasi, utawa ngganti jumlah utawa ukuran lapisan sing didhelikake ing jaringan saraf.

7. Gunakake model

Sawise sampeyan seneng karo kinerja model kasebut, sampeyan bisa miwiti nggunakake kanggo ngasilake prediksi data anyar.

Iki bisa uga mbutuhake pakan data anyar menyang model lan nggunakake paramèter sinau model kanggo ngasilake prediksi data kasebut, utawa nggabungake model menyang aplikasi utawa sistem sing luwih jembar.

Kita bisa nggunakake model kita kanggo ngasilake prediksi data anyar sawise kita seneng karo akurasi. Sampeyan bisa nyoba macem-macem nilai jender lan umur.

# Test the model with new data
new_data = [[25, 1], [30, 0]]
predictions = model.predict(new_data)
print("Predictions: ", predictions)

Bungkus

Kita wis rampung latihan model machine learning pisanan kita.

Mugi sampeyan wis ketemu migunani. Sampeyan saiki bisa nyoba nggunakake macem-macem model machine learning kaya Linear Regression utawa Random Forest.

Ana akeh set data lan tantangan ing Kaggle yen sampeyan pengin nambah coding lan pangerten babagan machine learning.