Dhaptar Algoritma Pembelajaran Mesin Utama kanggo Pamula

Bab lan Paragraf[Singidaken][Tampilake]

Dadi, apa algoritma Machine Learning?
Sinau Pengawasan, Tanpa Pengawasan & Penguatan+-
Algoritma Pembelajaran Mesin Utama+-
kesimpulan

Donya cepet ganti amarga intelijen buatan, lan pembelajaran mesin, sing nduwe pengaruh ing saben aspek urip saben dinane.

Saka asisten swara sing nggunakake NLP lan machine learning kanggo nggawe janjian, goleki acara ing tanggalan kita, lan muter musik menyang piranti sing akurat banget supaya bisa ngantisipasi kabutuhan sadurunge kita nimbang.

Komputer bisa main catur, nindakake operasi, lan berkembang dadi mesin sing luwih pinter, kaya manungsa kanthi bantuan algoritma pembelajaran mesin.

Kita ana ing jaman kemajuan teknologi sing terus-terusan, lan kanthi ndeleng kepiye komputer berkembang liwat wektu, kita bisa nggawe ramalan babagan apa sing bakal kelakon ing mangsa ngarep.

Demokratisasi alat lan metode komputasi minangka salah sawijining aspek penting saka revolusi iki. Ilmuwan data wis nggawe komputer data-crunching kuat sajrone limang taun kepungkur kanthi gampang ngetrapake metodologi mutakhir. Asil sing nggumunake.

Ing kirim iki, kita bakal nliti kanthi rapet learning machine algoritma lan kabeh variasi.

Dadi, apa algoritma Machine Learning?

Pendekatan sing digunakake dening sistem AI kanggo nindakake tugas - umume, prédhiksi nilai output saka data input sing diwenehake - dikenal minangka algoritma pembelajaran mesin.

Algoritma machine learning minangka proses sing nggunakake data lan digunakake kanggo nggawe model machine learning sing siap kanggo produksi. Yen learning machine minangka sepur sing nindakake pakaryan, mula algoritma machine learning minangka lokomotif sing mindhah karya kasebut.

Pendekatan machine learning sing paling apik kanggo digunakake bakal ditemtokake dening masalah bisnis sing sampeyan coba ditangani, jinis set data sing sampeyan gunakake, lan sumber daya sing kasedhiya.

Algoritma pembelajaran mesin yaiku sing ngowahi set data dadi model. Gumantung saka masalah sing sampeyan coba jawab, kekuwatan pangolahan sing kasedhiya, lan jinis data sing sampeyan duwe, algoritma pembelajaran sing diawasi, ora diawasi, utawa penguatan bisa nindakake kanthi apik.

Dadi, kita ngomong babagan sinau sing diawasi, ora diawasi, lan penguatan, nanging apa iku? Ayo padha njelajah.

Sinau Pengawasan, Tanpa Pengawasan & Penguatan

Sinau sing Diawasi

Ing pembelajaran sing diawasi, model AI dikembangake adhedhasar input sing wis diwenehake lan label sing nuduhake asil sing diprediksi. Adhedhasar input lan output, model ngembangake persamaan pemetaan, lan nggunakake persamaan pemetaan kasebut, prakiraan label input ing mangsa ngarep.

Ayo kita kudu nggawe model sing bisa mbedakake antarane asu lan kucing. Akeh foto kucing lan asu dilebokake ing model kanthi label sing nuduhake manawa kucing utawa asu kanggo nglatih model kasebut.

Model kasebut ngupaya nggawe persamaan sing ana gandhengane karo label ing foto input menyang gambar kasebut. Sanajan model kasebut durung nate ndeleng gambar kasebut, sawise latihan, bisa ngenali manawa kucing utawa asu.

Sinau tanpa Pengawasan

Pembelajaran tanpa pengawasan kalebu latihan model AI mung ing input tanpa menehi label. Model kasebut mbagi data input menyang klompok kanthi karakteristik sing gegandhengan.

Label input ing mangsa ngarep bakal diramalake gumantung sepira cedhake atribut kasebut cocog karo salah sawijining klasifikasi. Coba kahanan ing ngendi kita kudu dibagi klompok bal abang lan biru dadi rong kategori.

Ayo dadi nganggep sing bal' karakteristik liyane padha, kajaba werna. Ing basis saka carane bisa dibagi bal dadi rong kelas, model katon kanggo karakteristik sing beda antarane bal.

Rong kluster bal-siji biru lan siji abang-digawe nalika bal dipérang dadi rong klompok adhedhasar hue.

Sinau Penguatan

Ing sinau penguatan, model AI ngupaya nggedhekake bathi sakabèhé kanthi tumindak kaya sing bisa ditindakake ing kahanan tartamtu. Umpan balik babagan asil sadurunge mbantu model sinau.

Coba skenario nalika robot diarahake milih rute antarane titik A lan B. Robot pisanan milih salah siji saka kursus amarga ora duwe pengalaman sadurunge.

Robot kasebut nampa input babagan rute sing ditindakake lan entuk kawruh saka iku. Robot bisa nggunakake input kanggo ndandani masalah kasebut nalika nemoni kahanan sing padha.

Contone, yen robot milih opsi B lan nampa ganjaran, kayata umpan balik positif, iku ngerti wektu iki kudu milih cara B kanggo nambah ganjaran.

Saiki pungkasane sing sampeyan tunggu, yaiku algoritma.

Algoritma Pembelajaran Mesin Utama

1. Regresi Linear

Pendekatan machine learning paling gampang sing nyimpang saka sinau sing diawasi yaiku regresi linier. Kanthi kawruh saka variabel bebas, umume digunakake kanggo ngrampungake masalah regresi lan nggawe prediksi babagan variabel gumantung sing terus-terusan.

Nemokake garis sing paling pas, sing bisa mbantu prédhiksi asil kanggo variabel gumantung sing terus-terusan, minangka tujuan regresi linier. Rega omah, umur, lan upah minangka sawetara conto nilai sing terus-terusan.

Regression Linear

Model sing dikenal minangka regresi linier prasaja nggunakake garis lurus kanggo ngetung asosiasi antarane siji variabel bebas lan siji variabel dependen. Ana luwih saka rong variabel bebas ing pirang-pirang regresi linier.

Model regresi linier nduweni papat asumsi dhasar:

Linearity: Ana sambungan linear antarane X lan rata-rata Y.
Homoskedastisitas: Kanggo saben nilai X, varians residual padha.
Kamardikan: Pengamatan bebas saka siji liyane ing babagan kamardikan.
Normalitas: Nalika X tetep, Y disebarake kanthi normal.

Regresi linier nindakake kanthi apik kanggo data sing bisa dipisahake ing garis. Bisa ngontrol overfitting kanthi nggunakake teknik regularisasi, validasi silang, lan pengurangan dimensi. Nanging, ana kedadeyan sing mbutuhake teknik fitur ekstensif, sing sok-sok bisa nyebabake overfitting lan gangguan.

2. Regresi Logistik

Regresi logistik minangka teknik sinau mesin liyane sing mangkat saka sinau sing diawasi. Panggunaan utama yaiku klasifikasi, nanging uga bisa digunakake kanggo masalah regresi.

Regresi logistik digunakake kanggo ramalan variabel gumantung kategori nggunakake informasi saka faktor independen. Tujuane kanggo nggolongake output, sing mung bisa ana ing antarane 0 lan 1.

Getun Logistik

Total bobot saka input diproses dening fungsi sigmoid, fungsi aktivasi sing ngowahi nilai antarane 0 lan 1.

Basis regresi logistik yaiku estimasi kemungkinan maksimum, cara kanggo ngitung paramèter saka distribusi probabilitas sing dianggep diwenehi data sing diamati khusus.

3. Wit Kaputusan

Cara sinau mesin liyane sing ngilangi pembelajaran sing diawasi yaiku wit keputusan. Kanggo masalah klasifikasi lan regresi, pendekatan wit keputusan bisa digunakake.

Alat nggawe keputusan iki, sing meh padha karo wit, nggunakake representasi visual kanggo nuduhake asil, biaya, lan akibat sing bakal ditindakake. Kanthi mbagi data dadi bagean sing kapisah, ide kasebut padha karo pikiran manungsa.

Wit Kaputusan

Data kasebut wis dipérang dadi bagéan sing béda-béda kaya sing bisa ditindakake. Tujuan utama Decision Tree yaiku mbangun model latihan sing bisa digunakake kanggo ramalan kelas variabel target. Nilai sing ilang bisa ditangani kanthi otomatis nggunakake Decision Tree.

Ora ana syarat kanggo enkoding siji-shot, variabel dummy, utawa langkah pretreatment data liyane. Iku kaku ing pangertèn sing angel kanggo nambah data seger menyang. Yen sampeyan entuk data label tambahan, sampeyan kudu nglatih maneh wit ing kabeh set data.

Akibaté, wit keputusan minangka pilihan sing ora apik kanggo aplikasi apa wae sing mbutuhake owah-owahan model dinamis.

Adhedhasar jinis variabel target, wit keputusan diklasifikasikake dadi rong jinis:

Variabel Categorical: Pohon Keputusan sing variabel tujuane yaiku Kategori.
Variabel Terus-terusan: Pohon Keputusan sing variabel tujuane Kontinu.

4. Alas Acak

Metode Random Forest minangka teknik pembelajaran mesin sabanjure lan minangka algoritma pembelajaran mesin sing diawasi sing digunakake sacara ekstensif ing masalah klasifikasi lan regresi. Iki uga minangka cara adhedhasar wit, padha karo wit keputusan.

Alas wit, utawa akeh wit keputusan, digunakake kanthi cara alas acak kanggo nggawe pengadilan. Nalika nangani tugas klasifikasi, metode alas acak nggunakake variabel kategori nalika nangani tugas regresi kanthi dataset sing ngemot variabel terus-terusan.

Alas Acak

Gamelan, utawa campuran pirang-pirang model, yaiku metode alas acak, sing tegese ramalan digawe nggunakake klompok model tinimbang mung siji.

Kemampuan kanggo digunakake kanggo masalah klasifikasi lan regresi, sing nggawe mayoritas sistem pembelajaran mesin modern, minangka mupangat utama saka alas acak.

Rong strategi beda digunakake dening Ensemble:

Bagging: Kanthi nindakake iki, luwih akeh data diprodhuksi kanggo dataset latihan. Kanggo nyuda variasi ing ramalan, iki ditindakake.
Boosting yaiku proses nggabungake siswa sing lemah karo siswa sing kuwat kanthi mbangun model sing berturut-turut, ngasilake model pungkasan kanthi akurasi maksimal.

5. Naif Bayes

Masalah klasifikasi binar (loro-kelas) lan multi-kelas bisa ditanggulangi kanthi nggunakake teknik Naive Bayes. Nalika metode kasebut diterangake kanthi nggunakake nilai input binar utawa kategori, paling gampang dipahami. Asumsi sing digawe dening klasifikasi Naive Bayes yaiku yen ana siji fitur ing kelas ora ana hubungane karo fitur liyane.

Naif Bayes

Rumus ing ndhuwur nuduhake:

P(H): Kemungkinan hipotesis H bener. Kemungkinan sadurunge diarani minangka iki.
P(E): Kemungkinan bukti
P(E|H): Kemungkinan hipotesis didhukung dening bukti.
P(H|E): Kemungkinan hipotesis kasebut bener, diwenehi bukti.

Klasifikasi Naive Bayes bakal nganggep saben karakteristik kasebut kanthi individu nalika nemtokake kemungkinan asil tartamtu, sanajan atribut kasebut disambungake. Model Naive Bayesian gampang dibangun lan efektif kanggo dataset gedhe.

Dikenal kanggo nindakake luwih apik tinimbang teknik kategorisasi sing paling rumit nalika dadi dhasar. Iki minangka kumpulan algoritma sing kabeh adhedhasar Teorema Bayes, tinimbang cara siji.

6. K-Tanggane paling cedhak

Teknik K-nearst neighbors (kNN) minangka subset saka pembelajaran mesin sing diawasi sing bisa digunakake kanggo ngatasi masalah klasifikasi lan regresi. Algoritma KNN nganggep manawa obyek sing bisa dibandhingake bisa ditemokake ing cedhak.

Aku kelingan minangka kumpul saka individu sing padha. kNN ndadekake kauntungan saka gagasan resemblance antarane titik data liyane nggunakke jarak, closeness, utawa jarak. Kanggo menehi label data sing ora katon adhedhasar titik data sing bisa diamati kanthi label sing paling cedhak, cara matematika digunakake kanggo nemtokake pamisahan antarane titik ing grafik.

K Tanggi cedhak

Sampeyan kudu nemtokake jarak antarane titik data kanggo ngenali panggonan sing bisa dibandhingake. Pangukuran jarak kayata jarak Euclidean, jarak Hamming, jarak Manhattan, lan jarak Minkowski bisa digunakake kanggo iki. K dikenal minangka nomer pepadhamu sing paling cedhak, lan asring nomer ganjil.

KNN bisa ditrapake kanggo masalah klasifikasi lan regresi. Prediksi nalika KNN digunakake kanggo masalah regresi adhedhasar rata-rata utawa median saka K-paling padha kedadeyan.

Asil algoritma klasifikasi adhedhasar KNN bisa ditemtokake minangka kelas kanthi frekuensi paling dhuwur ing antarane K sing paling mirip. Saben kedadean ateges menehi swara kanggo kelas, lan prediksi kasebut kalebu kelas sing entuk swara paling akeh.

7. K-tegese

Iki minangka teknik kanggo sinau tanpa pengawasan sing ngatasi masalah clustering. Kumpulan data dipérang dadi sawetara klompok tartamtu - sebutna K - kanthi cara sing saben titik data kluster homogen lan béda saka klompok liyane.

K tegese 1

Metode k-means clustering:

Kanggo saben kluster, algoritma K-means milih k centroid, utawa titik.
Kanthi kluster centroid utawa K sing paling cedhak, saben titik data mbentuk kluster.
Saiki, centroid anyar diprodhuksi gumantung saka anggota kluster sing wis ana.
Jarak paling cedhak kanggo saben titik data diitung nggunakake centroid sing dianyari iki. Nganti centroid ora owah, proses iki diulang.

Iku luwih cepet, luwih dipercaya, lan luwih gampang dingerteni. Yen ana masalah, adaptasi k-means nggawe pangaturan sing gampang. Nalika set data beda-beda utawa diisolasi saka siji liyane, asil paling apik. Iku ora bisa ngatur data erratic utawa outliers.

8. Dhukungan Mesin Vektor

Nalika nggunakake teknik SVM kanggo nggolongake data, data mentah ditampilake minangka titik ing spasi n-dimensi (ngendi n yaiku jumlah fitur sing sampeyan duwe). Data kasebut bisa gampang diklasifikasikake amarga saben nilai fitur disambungake menyang koordinat tartamtu.

Kanggo misahake data lan sijine ing grafik, nggunakake garis dikenal minangka classifiers. Pendekatan iki ngrancang saben titik data minangka titik ing spasi n-dimensi, ing ngendi n yaiku jumlah fitur sing sampeyan duwe lan saben nilai fitur minangka nilai koordinat tartamtu.

Dhukungan Mesin Vektor

Saiki kita bakal nemokake baris sing mbagi data dadi rong set data sing wis dikategorikake kanthi beda. Jarak saka titik paling cedhak ing saben rong klompok bakal paling adoh ing garis iki.

Amarga rong titik sing paling cedhak yaiku sing paling adoh saka garis ing conto ing ndhuwur, garis sing mbagi data dadi rong klompok sing dikategorikake beda yaiku garis tengah. Klasifikasi kita yaiku baris iki.

9. Pengurangan dimensi

Nggunakake pendekatan pengurangan dimensi, data latihan bisa uga duwe variabel input sing luwih sithik. Ing istilah sing gampang, iki nuduhake proses nyuda ukuran set fitur sampeyan. Coba bayangake dataset sampeyan duwe 100 kolom; pengurangan dimensi bakal nyuda jumlah kasebut dadi 20 kolom.

Pangirangan Dimensionalitas

Model kasebut kanthi otomatis dadi luwih canggih lan duwe risiko overfitting amarga jumlah fitur mundhak. Masalah paling gedhe babagan nggarap data ing dimensi sing luwih gedhe yaiku sing dikenal minangka "kutukan dimensi," sing kedadeyan nalika data sampeyan ngemot akeh karakteristik.

Unsur ing ngisor iki bisa digunakake kanggo ngrampungake pengurangan dimensi:

Kanggo nemokake lan milih karakteristik sing cocog, pilihan fitur digunakake.
Nggunakake fitur sing wis ana, rekayasa fitur nggawe fitur anyar kanthi manual.

kesimpulan

Pembelajaran mesin sing ora diawasi utawa diawasi bisa uga. Pilih sinau sing diawasi yen data sampeyan kurang akeh lan diwenehi tag kanggo latihan.

Kumpulan data sing gedhe bakal kerep nindakake lan ngasilake asil sing luwih apik kanthi nggunakake pembelajaran tanpa pengawasan. Learning jero cara paling apik yen sampeyan duwe koleksi data sing cukup akeh sing kasedhiya.

Pembuatan sing dikuwatake lan sinau penguatan jero minangka sawetara topik sing sampeyan sinau. Karakteristik, panggunaan, lan kendala jaringan saraf saiki wis jelas kanggo sampeyan. Pungkasan, sampeyan nimbang opsi kanggo macem-macem basa pamrograman, IDE, lan platform nalika nggawe sampeyan dhewe. model pembelajaran mesin.

Sabanjure sampeyan kudu miwiti sinau lan nggunakake saben learning machine pendekatan. Sanajan subyek kasebut jembar, topik apa wae bisa dimangerteni sajrone sawetara jam yen sampeyan fokus ing jerone. Saben subyek ngadeg piyambak saka liyane.

Sampeyan kudu mikir babagan siji masalah sekaligus, sinau, praktik, lan gunakake basa sing sampeyan pilih kanggo ngetrapake algoritma kasebut.

Dhaptar Algoritma Pembelajaran Mesin Utama kanggo Pamula

Dadi, apa algoritma Machine Learning?