Daptar Algoritma Pembelajaran Mesin Utama pikeun Pemula

Daptar eusi[Sumputkeun][Témbongkeun]

Janten, naon algoritma Pembelajaran Mesin?
Diawasan, Unsupervised & Pangajaran Panguatan+-
Algoritma Pembelajaran Mesin Utama+-
kacindekan

Dunya gancang robih kusabab intelijen buatan, sareng pembelajaran mesin, anu ngagaduhan dampak dina unggal aspék kahirupan sapopoe urang.

Tina asisten sora anu ngagunakeun NLP sareng mesin diajar pikeun mesen janjian, milarian acara dina kalénder urang, sareng maénkeun musik kana alat anu akurat pisan anu aranjeunna tiasa ngantisipasi kabutuhan urang sateuacan urang nganggap éta.

Komputer tiasa maén catur, ngalakukeun operasi, sareng janten langkung pinter, mesin anu langkung mirip manusa kalayan bantosan algoritma pembelajaran mesin.

Kami dina waktos kamajuan téknologi anu terus-terusan, sareng ku ningali kumaha komputer parantos mekar dina waktosna, urang tiasa ngadamel prediksi ngeunaan naon anu bakal kajadian di hareup.

Démokratisasi alat sareng metode komputasi mangrupikeun salah sahiji aspék konci revolusi ieu anu menonjol. Élmuwan data geus nyieun komputer data-crunching kuat salila lima taun panungtungan ku effortlessly ngalaksanakeun metodologi canggih. Hasilna pikaheraneun.

Dina tulisan ieu, urang bakal ningali sacara saksama learning mesin algoritma jeung sakabéh variasi maranéhanana.

Janten, naon algoritma Pembelajaran Mesin?

Pendekatan anu digunakeun ku sistem AI pikeun ngalaksanakeun tugasna—umumna, ngaramal nilai kaluaran tina data input anu dipasihkeun—dipikawanoh salaku algoritma pembelajaran mesin.

Algoritma pembelajaran mesin mangrupikeun prosés anu ngagunakeun data sareng dianggo pikeun nyiptakeun modél pembelajaran mesin anu siap produksi. Upami learning machine mangrupikeun karéta anu ngalaksanakeun padamelan, maka algoritma pembelajaran mesin mangrupikeun lokomotif anu ngalihkeun padamelan.

Pendekatan pembelajaran mesin anu pangsaéna pikeun dianggo bakal ditangtukeun ku masalah bisnis anu anjeun badé atasi, jinis set data anu anjeun anggo, sareng sumber daya anu anjeun sayogi.

Algoritma pembelajaran mesin nyaéta anu ngarobih set data janten modél. Gumantung kana jinis masalah anu anjeun badé ngajawab, kakuatan ngolah anu sayogi, sareng jinis data anu anjeun gaduh, diawasi, henteu diawaskeun, atanapi algoritma pembelajaran penguatan tiasa berkinerja saé.

Janten, urang nyarioskeun diajar anu diawasi, henteu diawasi, sareng penguatan, tapi naon éta? Hayu urang ngajajah aranjeunna.

Diawasan, Unsupervised & Pangajaran Panguatan

Pembelajaran Diawitan

Dina pangajaran diawasan, modél AI dimekarkeun dumasar kana input anu geus disadiakeun jeung labél anu ngagambarkeun hasil diprediksi. Dumasar kana input sareng kaluaran, modél ngembangkeun persamaan pemetaan, sareng nganggo persamaan pemetaan éta, éta ngaramalkeun labél input di hareup.

Sebutkeun urang kedah nyiptakeun modél anu tiasa ngabédakeun anjing sareng ucing. Sababaraha poto ucing jeung anjing nu fed kana model jeung labél nunjukkeun naha éta ucing atawa anjing guna ngalatih model.

Model ieu nyobian ngadamel persamaan anu aya hubunganana sareng labél dina poto input kana gambar éta. Sanaos modél éta henteu kantos ningali gambar sateuacanna, saatos latihan, éta tiasa ngaidentipikasi naha éta ucing atanapi anjing.

Pembelajaran Anu Henteu Dilayanan

Pangajaran anu teu diawaskeun ngalibatkeun ngalatih modél AI ngan ukur dina input tanpa labélna. Modél ngabagi data asupan kana kelompok anu aya hubunganana.

Labél input anu bakal datang diramalkeun gumantung kana kumaha raket atributna cocog sareng salah sahiji klasifikasi. Mertimbangkeun kaayaan dimana urang kudu ngabagi grup bola beureum jeung biru kana dua kategori.

Hayu urang nganggap yén ciri séjén bal idéntik, iwal warna. Dina dasar kumaha eta bisa ngabagi bal kana dua kelas, model néangan ciri anu béda antara bal.

Dua klaster bal-hiji biru jeung hiji beureum-dihasilkeun nalika bal dibagi kana dua grup dumasar kana hue maranéhanana.

Pembuatan Penguatan

Dina pembelajaran penguatan, modél AI narékahan pikeun maksimalkeun kauntungan sacara umum ku akting sakumaha ogé dina kaayaan anu tangtu. Eupan balik kana hasil saméméhna mantuan model diajar.

Pikirkeun skenario nalika robot maréntahkeun pikeun milih jalur antara titik A jeung B. Robot mimiti milih salah sahiji kursus sabab teu boga pangalaman prior.

Robot narima input dina jalur nu diperlukeun tur gains pangaweruh ti dinya. Robot tiasa ngagunakeun input pikeun ngabéréskeun masalah dina waktos salajengna éta mendakan kaayaan anu sami.

Salaku conto, upami robot milih pilihan B sareng nampi ganjaran, sapertos eupan balik positif, waktos ieu ngartos yén éta kedah milih jalan B pikeun ningkatkeun pahala.

Ayeuna tungtungna naon anu anjeun sadayana ngantosan, nyaéta algoritma.

Algoritma Pembelajaran Mesin Utama

1. Régrési liniér

Pendekatan pembelajaran mesin pangbasajanna anu nyimpang tina pangajaran anu diawaskeun nyaéta régrési linier. Kalayan pangaweruh tina variabel bebas, lolobana digunakeun pikeun ngabéréskeun masalah régrési sareng nyiptakeun prediksi dina variabel terikat kontinyu.

Milarian garis anu paling pas, anu tiasa ngabantosan dina ngaramalkeun hasil pikeun variabel terikat kontinyu, mangrupikeun tujuan régrési linier. Harga imah, umur, jeung gajih sababaraha conto nilai kontinyu.

liniér Regression

Modél anu katelah régrési liniér basajan ngagunakeun garis lempeng pikeun ngitung asosiasi antara hiji variabel bébas jeung hiji variabel terikat. Aya leuwih ti dua variabel bébas dina régrési liniér sababaraha.

Modél régrési liniér boga opat asumsi dasar:

Linieritas: Aya sambungan linier antara X jeung rata-rata Y.
Homoscedasticity: Pikeun unggal nilai X, varian sésa-sésa sarua.
Kamerdikaan: Obsérvasi téh bebas ti hiji lianna dina hal kamerdikaan.
Normalitas: Lamun X dibereskeun, Y sebaran normal.

régrési linier ngalakukeun admirably pikeun data nu bisa dipisahkeun sapanjang garis. Bisa ngadalikeun overfitting ku ngagunakeun regularization, cross-validasi, sarta téhnik réduksi dimensi. Tapi, aya instansi dimana rékayasa fitur éksténsif diperlukeun, nu aya kalana bisa ngakibatkeun overfitting jeung noise.

2. Regresi Logistik

Regresi logistik mangrupikeun téknik diajar mesin anu sanés tina diajar anu diawasi. Pamakéan utama nyaéta klasifikasi, sedengkeun éta ogé tiasa dianggo pikeun masalah régrési.

Régrési logistik digunakeun pikeun ngaramal variabel terikat kategoris ngagunakeun inpormasi tina faktor bebas. Tujuanana nyaéta pikeun ngagolongkeun kaluaran, anu ngan ukur tiasa turun antara 0 sareng 1.

Logistik Regresi

Total beurat input diolah ku fungsi sigmoid, fungsi aktivasina anu ngarobah nilai antara 0 jeung 1.

Dasar régrési logistik nyaéta estimasi likelihood maksimum, métode pikeun ngitung parameter tina sebaran probabiliti diasumsikeun tina data observasi husus.

3. Tangkal Kaputusan

Métode pembelajaran mesin anu sanés anu ngaleungitkeun diajar anu diawaskeun nyaéta tangkal kaputusan. Pikeun masalah klasifikasi sareng régrési, pendekatan tangkal kaputusan tiasa dianggo.

Alat-nyieun kaputusan ieu, anu nyarupaan tangkal, ngagunakeun répréséntasi visual pikeun nembongkeun hasil prospektif tindakan, waragad, sarta repercussions. Ku ngabagi data kana bagian-bagian anu misah, ideu sami sareng pikiran manusa.

Kaputusan Kaputusan

Data geus dibagi kana bagian béda saloba urang bisa granulate eta. Tujuan utama Pohon Kaputusan nyaéta ngawangun modél pelatihan anu tiasa dianggo pikeun ngaramal kelas variabel target. Nilai anu leungit tiasa diurus sacara otomatis nganggo Tangkal Kaputusan.

Henteu aya sarat pikeun encoding hiji-shot, variabel dummy, atanapi léngkah-léngkah pra-perlakuan data anu sanés. Éta kaku dina hartos yén sesah nambihan data énggal kana éta. Upami anjeun ngagaduhan data anu dilabélan tambahan, anjeun kedah ngalatih deui tangkal dina sadaya set data.

Hasilna, tangkal kaputusan mangrupakeun pilihan goréng pikeun sagala aplikasi nu merlukeun parobahan modél dinamis.

Dumasar kana jinis variabel udagan, tangkal kaputusan digolongkeun kana dua jinis:

Variabel Categorical: Tangkal Kaputusan dimana variabel tujuanna nyaéta Kategoris.
Variabel Kontinyu: Tangkal Kaputusan dimana variabel tujuanana Kontinyu.

4. Leuweung Acak

Métode Leuweung Acak nyaéta téknik pembelajaran mesin anu salajengna sareng mangrupikeun algoritma pembelajaran mesin anu diawasi dianggo sacara éksténsif dina masalah klasifikasi sareng régrési. Éta ogé métode dumasar tangkal, sarupa jeung tangkal kaputusan.

A leuweung tangkal, atawa loba tangkal kaputusan, dipaké ku métode leuweung acak pikeun nyieun judgments. Nalika nanganan tugas klasifikasi, métode leuweung acak dianggo variabel categorical bari nanganan tugas regression kalawan datasets nu ngandung variabel kontinyu.

Leuweung Acak

Hiji ensemble, atawa campuran loba model, nyaeta naon metoda leuweung acak, nu hartina prediksi dijieun maké grup model tinimbang ngan hiji.

Kamampuhan pikeun dianggo pikeun masalah klasifikasi sareng régrési, anu janten seuseueurna sistem pembelajaran mesin modern, mangrupikeun kauntungan konci leuweung acak.

Dua strategi anu béda dianggo ku Ensemble:

Bagging: Ku ngalakukeun ieu, leuwih data dihasilkeun pikeun set data latihan. Pikeun ngirangan variasi dina ramalan, ieu dilakukeun.
Boosting nyaéta prosés ngagabungkeun peserta didik lemah jeung peserta didik kuat ku cara ngawangun model saterusna, hasilna model ahir kalawan akurasi maksimum.

5. Naif Bayes

Masalah klasifikasi binér (dua kelas) sareng multi-kelas tiasa direngsekeun nganggo téknik Naive Bayes. Nalika métode dipedar ngagunakeun nilai input binér atawa kategori, éta paling basajan pikeun nangkep. Asumsi anu dilakukeun ku klasifikasi Naive Bayes nyaéta ayana hiji fitur dina kelas henteu aya hubunganana sareng ayana fitur anu sanés.

Bayes naif

Rumus di luhur nunjukkeun:

P(H): Kamungkinan hipotésis H bener. Probabilitas prior disebut kieu.
P(E): Kamungkinan bukti
P(E|H): Kamungkinan hipotésis dirojong ku bukti.
P(H|E): Kamungkinan hipotésis téh bener, dumasar kana buktina.

Klasifikasi Naive Bayes bakal tumut kana akun unggal ciri ieu sacara individual nalika nangtukeun kamungkinan hasil nu tangtu, sanajan atribut ieu disambungkeun ka nu séjén. Modél Bayesian Naive basajan pikeun ngawangun sareng mujarab pikeun set data ageung.

Dipikanyaho ngalaksanakeun langkung saé tibatan téknik categorization anu paling rumit nalika dasarna. Ieu mangrupikeun kumpulan algoritma anu sadayana didasarkeun kana Teorema Bayes, tinimbang metode tunggal.

6. K-tatanggana pangdeukeutna

Téhnik K-nearst neighbors (kNN) nyaéta sawaréh tina pembelajaran mesin anu diawaskeun anu tiasa dianggo pikeun ngatasi masalah klasifikasi sareng régrési. Algoritma KNN nganggap yén objék anu dibandingkeun tiasa dipendakan caket dieu.

Kuring ngelingan éta salaku ngumpulna jalma-jalma anu sami. kNN ngamangpaatkeun gagasan kasaruaan antara titik data séjén ngamangpaatkeun jarak, closeness, atawa jarak. Dina raraga labél data ghaib dumasar kana pangdeukeutna dilabélan titik data observasi, metoda matematik dipake pikeun nangtukeun separation antara titik dina grafik.

K Tatanggana Pangdeukeutna

Anjeun kudu nangtukeun jarak antara titik data dina urutan pikeun ngaidentipikasi spot comparable pangcaketna. Pangukuran jarak sapertos jarak Euclidean, jarak Hamming, jarak Manhattan, sareng jarak Minkowski tiasa dianggo pikeun ieu. The K dipikawanoh salaku angka tatangga pangdeukeutna, sarta mindeng mangrupa angka ganjil.

KNN bisa dilarapkeun kana masalah klasifikasi jeung régrési. Prediksi anu dilakukeun nalika KNN dianggo pikeun masalah régrési dumasar kana rata-rata atanapi median kajadian K-paling mirip.

Hasil tina algoritma klasifikasi dumasar kana KNN bisa ditangtukeun salaku kelas kalawan frékuénsi luhur diantara K kajadian paling sarupa. Unggal conto dasarna masihan sora pikeun kelasna, sareng prediksina kalebet kelas anu nampi sora paling seueur.

7. K-hartina

Éta mangrupikeun téknik pikeun diajar anu henteu diawasi anu ngarengsekeun masalah clustering. Susunan data dibagi kana sababaraha klaster — sebut wae K — ku kituna titik data unggal klaster homogén jeung béda ti nu aya dina klaster séjén.

K hartina 1

K-means metodologi clustering:

Pikeun unggal klaster, algoritma K-means milih k centroids, atawa titik.
Kalawan centroids pangcaketna atawa K klaster, unggal titik data ngabentuk klaster.
Ayeuna, centroids anyar dihasilkeun gumantung kana anggota klaster geus hadir.
Jarak pangdeukeutna pikeun tiap titik data diitung ngagunakeun centroids diropéa ieu. Nepi ka centroids teu robah, prosés ieu diulang deui.

Éta langkung gancang, langkung dipercaya, sareng langkung gampang kaharti. Upami aya masalah, kamampuan adaptasi k-means ngajantenkeun panyesuaian saderhana. Nalika set data béda atanapi terasing tina anu sanés, hasilna langkung saé. Teu bisa ngatur data erratic atanapi outliers.

8. Rojongan Mesin Véktor

Nalika ngagunakeun téknik SVM pikeun ngagolongkeun data, data atah ditampilkeun salaku titik-titik dina rohangan n-dimensi (dimana n nyaéta jumlah fitur anu anjeun gaduh). Data lajeng bisa gampang digolongkeun sabab nilai unggal fitur urang lajeng disambungkeun ka koordinat husus.

Pikeun misahkeun data sarta nempatkeun eta dina grafik, employ garis katelah classifiers. Pendekatan ieu plot unggal titik data salaku titik dina spasi n-dimensi, dimana n nyaéta jumlah fitur nu Anjeun gaduh sarta nilai unggal fitur urang mangrupa nilai koordinat husus.

Rojongan Mesin Véktor

Urang ayeuna bakal manggihan hiji garis nu ngabagi data kana dua sét data nu geus categorized béda. Jarak ti titik pangdeukeutna dina unggal dua grup bakal jadi pangjauhna eta sapanjang garis ieu.

Kusabab dua titik anu pangdeukeutna nyaéta anu paling jauh tina garis dina conto di luhur, garis anu ngabagi data kana dua kelompok anu dikategorikeun béda nyaéta garis tengah. Klasifikasi kami nyaéta garis ieu.

9. Ngurangan dimensi

Ngagunakeun pendekatan pangurangan diménsi, data latihan bisa jadi leuwih saeutik variabel input. Dina istilah saderhana, éta ngarujuk kana prosés ngaleutikan ukuran set fitur anjeun. Hayu urang ngabayangkeun dataset anjeun boga 100 kolom; réduksi dimensi bakal ngurangan jumlah nu ka 20 kolom.

Réduksi Diménsi

Modél ieu sacara otomatis janten langkung canggih sareng résiko overfitting langkung ageung nalika jumlah fitur naék. Masalah anu paling ageung sareng damel sareng data dina ukuran anu langkung ageung nyaéta anu katelah "kutukan dimensi," anu lumangsung nalika data anjeun ngandung sajumlah ciri anu kaleuleuwihan.

Unsur-unsur ieu tiasa dianggo pikeun ngirangan dimensi:

Pikeun milarian sareng milih ciri anu cocog, pilihan fitur dianggo.
Ngagunakeun fitur nu geus aya, fitur rékayasa sacara manual nyieun fitur anyar.

kacindekan

Pembelajaran mesin anu teu diawaskeun atanapi diawaskeun duanana mungkin. Pilih pangajaran anu diawaskeun upami data anjeun kirang seueur sareng ditandaan saé pikeun latihan.

Susunan data anu ageung bakal sering ngalaksanakeun sareng ngahasilkeun hasil anu langkung saé ngagunakeun pangajaran anu teu diawasi. Diajar jero métode anu pangalusna lamun anjeun boga ngumpulkeun data sizable nu geus sadia.

Diajar tulangan sareng diajar penguatan jero mangrupikeun sababaraha topik anu anjeun pelajari. Ciri, kagunaan, sareng kendala jaringan saraf ayeuna jelas pikeun anjeun. Panungtungan tapi teu saeutik, anjeun nganggap pilihan pikeun basa pamrograman, IDE, sareng platform anu béda nalika nyiptakeun anjeun sorangan. modél pembelajaran mesin.

Hal salajengna anu anjeun kedah laksanakeun nyaéta ngamimitian diajar sareng nganggo masing-masing learning mesin ngadeukeutan. Sanaos subjekna lega, topik naon waé tiasa kahartos dina sababaraha jam upami anjeun fokus kana jerona. Unggal mata pelajaran nangtung nyalira ti anu sanés.

Anjeun kudu mikir ngeunaan hiji masalah dina hiji waktu, diajar eta, nempatkeun kana prakték, sarta ngagunakeun basa pilihan Anjeun pikeun nerapkeun algoritma (s) dina eta.

Daptar Algoritma Pembelajaran Mesin Utama pikeun Pemula

Janten, naon algoritma Pembelajaran Mesin?