Senarai Algoritma Pembelajaran Mesin Utama untuk Pemula

Jadual Kandungan[Sembunyi][Tunjukkan]

Jadi, apakah algoritma Pembelajaran Mesin?
Pembelajaran Diselia, Tanpa Diawasi & Pengukuhan+-
Algoritma Pembelajaran Mesin Utama+-
Kesimpulan

Dunia cepat berubah disebabkan oleh kecerdasan buatan dan pembelajaran mesin, yang memberi kesan pada setiap aspek kehidupan seharian kita.

Daripada pembantu suara yang menggunakan NLP dan pembelajaran mesin untuk menempah janji temu, mencari acara pada kalendar kami dan memainkan muzik ke peranti yang sangat tepat sehingga mereka boleh menjangka keperluan kami sebelum kami mempertimbangkannya.

Komputer boleh bermain catur, melakukan pembedahan dan berkembang menjadi mesin yang lebih pintar dan lebih seperti manusia dengan bantuan algoritma pembelajaran mesin.

Kita berada pada masa kemajuan teknologi yang berterusan, dan dengan melihat bagaimana komputer telah berkembang dari semasa ke semasa, kita boleh membuat ramalan tentang perkara yang akan berlaku pada masa hadapan.

Pendemokrasian alat dan kaedah pengkomputeran adalah salah satu aspek utama revolusi ini yang menonjol. Saintis data telah mencipta komputer pemecah data yang berkuasa dalam tempoh lima tahun yang lalu dengan melaksanakan metodologi termaju dengan mudah. Hasilnya mengagumkan.

Dalam siaran ini, kita akan melihat dengan teliti pembelajaran mesin algoritma dan semua variasinya.

Jadi, apakah algoritma Pembelajaran Mesin?

Pendekatan yang digunakan oleh sistem AI untuk menjalankan tugasnya—secara amnya, meramalkan nilai output daripada data input yang diberikan—dikenali sebagai algoritma pembelajaran mesin.

Algoritma pembelajaran mesin ialah proses yang menggunakan data dan digunakan untuk mencipta model pembelajaran mesin yang sedia untuk pengeluaran. Jika pembelajaran mesin ialah kereta api yang menjalankan sesuatu kerja, maka algoritma pembelajaran mesin ialah lokomotif yang menggerakkan kerja tersebut.

Pendekatan pembelajaran mesin terbaik untuk digunakan akan ditentukan oleh masalah perniagaan yang anda cuba tangani, jenis set data yang anda gunakan dan sumber yang anda ada.

Algoritma pembelajaran mesin ialah algoritma yang mengubah set data menjadi model. Bergantung pada jenis masalah yang anda cuba jawab, kuasa pemprosesan yang tersedia dan jenis data yang anda miliki, algoritma pembelajaran yang diawasi, tidak diawasi atau pengukuhan boleh berfungsi dengan baik.

Jadi, kita bercakap tentang pembelajaran diselia, tidak diselia, dan pengukuhan, tetapi apakah itu? Mari kita terokai mereka.

Pembelajaran Diselia, Tanpa Diawasi & Pengukuhan

Pembelajaran yang diselia

Dalam pembelajaran diselia, model AI dibangunkan berdasarkan input yang telah disediakan dan label yang mewakili hasil yang diramalkan. Berdasarkan input dan output, model membangunkan persamaan pemetaan, dan menggunakan persamaan pemetaan itu, ia meramalkan label input pada masa hadapan.

Katakan kita perlu mencipta model yang boleh membezakan antara anjing dan kucing. Berbilang foto kucing dan anjing dimasukkan ke dalam model dengan label yang menunjukkan sama ada mereka kucing atau anjing untuk melatih model.

Model ini bertujuan untuk mewujudkan persamaan yang mengaitkan label pada gambar input dengan imej tersebut. Walaupun model itu tidak pernah melihat imej itu sebelum ini, selepas latihan, ia boleh mengenal pasti sama ada ia adalah kucing atau anjing.

Pembelajaran Tanpa Pengawasan

Pembelajaran tanpa pengawasan melibatkan latihan model AI hanya pada input tanpa melabelkannya. Model membahagikan data input kepada kumpulan dengan ciri-ciri yang berkaitan.

Label masa depan input kemudiannya diramalkan bergantung pada sejauh mana atributnya sepadan dengan salah satu klasifikasi. Pertimbangkan situasi di mana kita mesti membahagikan sekumpulan bola merah dan biru kepada dua kategori.

Mari kita anggap bahawa ciri-ciri lain bola adalah sama, kecuali warna. Atas dasar bagaimana ia boleh membahagikan bola kepada dua kelas, model mencari ciri-ciri yang berbeza antara bola.

Dua kelompok bola—satu biru dan satu merah—dihasilkan apabila bola dibahagikan kepada dua kumpulan berdasarkan warnanya.

Pembelajaran Pengukuhan

Dalam pembelajaran pengukuhan, model AI berusaha untuk memaksimumkan keuntungan keseluruhan dengan bertindak sebaik mungkin dalam keadaan tertentu. Maklum balas tentang keputusan terdahulu membantu model belajar.

Fikirkan tentang senario apabila robot diarahkan untuk memilih laluan antara titik A dan B. Robot terlebih dahulu memilih salah satu daripada kursus kerana ia tidak mempunyai pengalaman terdahulu.

Robot menerima input pada laluan yang dilalui dan mendapat pengetahuan daripadanya. Robot boleh menggunakan input untuk membetulkan isu apabila ia menghadapi keadaan yang serupa.

Sebagai contoh, jika robot memilih pilihan B dan menerima ganjaran, seperti maklum balas positif, ia memahami kali ini bahawa ia mesti memilih cara B untuk meningkatkan ganjarannya.

Kini akhirnya apa yang anda semua tunggu, ialah algoritma.

Algoritma Pembelajaran Mesin Utama

1. Regresi Linear

Pendekatan pembelajaran mesin paling mudah yang menyimpang daripada pembelajaran diselia ialah regresi linear. Dengan pengetahuan daripada pembolehubah tidak bersandar, ia kebanyakannya digunakan untuk menyelesaikan isu regresi dan mencipta ramalan ke atas pembolehubah bersandar berterusan.

Mencari garisan yang paling sesuai, yang boleh membantu dalam meramalkan hasil bagi pembolehubah bersandar berterusan, adalah matlamat regresi linear. Harga rumah, umur dan upah adalah beberapa contoh nilai berterusan.

linear Regression

Model yang dikenali sebagai regresi linear mudah menggunakan garis lurus untuk mengira perkaitan antara satu pembolehubah bebas dan satu pembolehubah bersandar. Terdapat lebih daripada dua pembolehubah bebas dalam regresi linear berbilang.

Model regresi linear mempunyai empat andaian asas:

Kelinearan: Terdapat sambungan linear antara X dan min Y.
Homoskedastisitas: Untuk setiap nilai X, varians baki adalah sama.
Kemerdekaan: Pemerhatian adalah bebas antara satu sama lain dari segi kebebasan.
Kenormalan: Apabila X ditetapkan, Y diedarkan secara normal.

Regresi linear menunjukkan prestasi yang mengagumkan untuk data yang boleh dipisahkan mengikut baris. Ia boleh mengawal overfitting dengan menggunakan teknik regularization, cross-validation dan pengurangan dimensi. Walau bagaimanapun, terdapat keadaan di mana kejuruteraan ciri yang luas diperlukan, yang kadangkala boleh mengakibatkan pemasangan berlebihan dan bunyi bising.

2. Regresi Logistik

Regresi logistik ialah satu lagi teknik pembelajaran mesin yang berlepas daripada pembelajaran diselia. Penggunaan utamanya ialah klasifikasi, sementara ia juga boleh digunakan untuk masalah regresi.

Regresi logistik digunakan untuk meramalkan pembolehubah bersandar kategori menggunakan maklumat daripada faktor bebas. Matlamatnya adalah untuk mengklasifikasikan output, yang hanya boleh jatuh antara 0 dan 1.

Regresi Logistik

Jumlah wajaran input diproses oleh fungsi sigmoid, fungsi pengaktifan yang menukar nilai antara 0 dan 1.

Asas regresi logistik ialah anggaran kemungkinan maksimum, kaedah untuk mengira parameter taburan kebarangkalian yang diandaikan diberikan data cerapan khusus.

3. Pokok Keputusan

Kaedah pembelajaran mesin lain yang memisahkan pembelajaran terselia ialah pokok keputusan. Untuk kedua-dua isu klasifikasi dan regresi, pendekatan pokok keputusan boleh digunakan.

Alat membuat keputusan ini, yang menyerupai pokok, menggunakan representasi visual untuk menunjukkan hasil prospektif, kos dan kesan tindakan. Dengan membahagikan data kepada bahagian yang berasingan, idea itu serupa dengan minda manusia.

Pokok keputusan

Data telah dibahagikan kepada bahagian-bahagian yang berbeza sebanyak yang kita boleh butirannya. Objektif utama Pokok Keputusan adalah untuk membina model latihan yang boleh digunakan untuk meramalkan kelas pembolehubah sasaran. Nilai yang hilang boleh dikendalikan secara automatik menggunakan Pokok Keputusan.

Tiada keperluan untuk pengekodan satu pukulan, pembolehubah tiruan atau langkah prarawatan data lain. Ia adalah tegar dalam erti kata bahawa sukar untuk menambah data baru kepadanya. Jika anda mendapat data berlabel tambahan, anda harus melatih semula pepohon pada keseluruhan set data.

Akibatnya, pepohon keputusan adalah pilihan yang tidak baik untuk mana-mana aplikasi yang memerlukan perubahan model dinamik.

Berdasarkan jenis pembolehubah sasaran, pokok keputusan dikelaskan kepada dua jenis:

Pembolehubah Kategori: Pokok Keputusan di mana pembolehubah matlamat adalah Kategori.
Pembolehubah Berterusan: Pokok Keputusan di mana pembolehubah matlamat adalah Berterusan.

4. Hutan Rawak

Kaedah Hutan Rawak ialah teknik pembelajaran mesin seterusnya dan merupakan algoritma pembelajaran mesin diselia yang digunakan secara meluas dalam isu klasifikasi dan regresi. Ia juga merupakan kaedah berasaskan pokok, sama seperti pokok keputusan.

Hutan pokok, atau banyak pokok keputusan, digunakan oleh kaedah hutan rawak untuk membuat pertimbangan. Semasa mengendalikan tugas pengelasan, kaedah hutan rawak menggunakan pembolehubah kategori semasa mengendalikan tugas regresi dengan set data yang mengandungi pembolehubah berterusan.

Hutan Rawak

Satu ensembel, atau pencampuran banyak model, adalah kaedah hutan rawak, yang bermaksud ramalan dibuat menggunakan sekumpulan model dan bukan hanya satu.

Keupayaan untuk digunakan untuk kedua-dua masalah klasifikasi dan regresi, yang membentuk sebahagian besar sistem pembelajaran mesin moden, adalah manfaat utama hutan rawak.

Dua strategi berbeza digunakan oleh Ensemble:

Bagging: Dengan melakukan ini, lebih banyak data dihasilkan untuk set data latihan. Untuk mengurangkan variasi dalam ramalan, ini dilakukan.
Boosting ialah proses menggabungkan pelajar lemah dengan pelajar kuat dengan membina model berturut-turut, menghasilkan model akhir dengan ketepatan maksimum.

5. Naif Bayes

Isu klasifikasi binari (dua kelas) dan pelbagai kelas boleh diselesaikan menggunakan teknik Naive Bayes. Apabila kaedah diterangkan menggunakan nilai input binari atau kategori, ia adalah paling mudah untuk difahami. Andaian yang dibuat oleh pengelas Naive Bayes ialah kewujudan satu ciri dalam kelas tidak mempunyai kaitan dengan kehadiran sebarang ciri lain.

Naif Bayes

Formula di atas menunjukkan:

P(H): Kemungkinan hipotesis H adalah betul. Kebarangkalian terdahulu dirujuk sebagai ini.
P(E): Kemungkinan bukti
P(E|H): Kemungkinan hipotesis disokong oleh bukti.
P(H|E): Kemungkinan hipotesis adalah benar, berdasarkan bukti.

Pengelas Naive Bayes akan mengambil kira setiap ciri ini secara individu apabila menentukan kemungkinan hasil tertentu, walaupun jika atribut ini disambungkan antara satu sama lain. Model Naive Bayesian adalah mudah untuk dibina dan berkesan untuk set data yang besar.

Ia diketahui berprestasi lebih baik daripada teknik pengkategorian yang paling kompleks semasa menjadi asas. Ia adalah koleksi algoritma yang semuanya berdasarkan Teorem Bayes, bukannya kaedah tunggal.

6. K-Jiran Terdekat

Teknik K-nerest neighbors (kNN) ialah subset pembelajaran mesin diselia yang boleh digunakan untuk menangani isu klasifikasi dan regresi. Algoritma KNN menganggap bahawa objek setanding boleh ditemui berdekatan.

Saya ingat ia sebagai perhimpunan individu yang berfikiran sama. kNN memanfaatkan idea persamaan antara titik data lain menggunakan kedekatan, kedekatan atau jarak. Untuk melabelkan data ghaib berdasarkan titik data boleh diperhatikan berlabel terdekat, kaedah matematik digunakan untuk menentukan pemisahan antara titik pada graf.

K Jiran Terdekat

Anda mesti menentukan jarak antara titik data untuk mengenal pasti titik sebanding yang terdekat. Pengukuran jarak seperti jarak Euclidean, jarak Hamming, jarak Manhattan dan jarak Minkowski boleh digunakan untuk ini. K dikenali sebagai nombor jiran terdekat, dan selalunya nombor ganjil.

KNN boleh digunakan untuk masalah klasifikasi dan regresi. Ramalan yang dibuat apabila KNN digunakan untuk isu regresi adalah berdasarkan min atau median kejadian K-paling serupa.

Hasil daripada algoritma pengelasan berdasarkan KNN boleh ditentukan sebagai kelas yang mempunyai kekerapan tertinggi antara kejadian K yang paling serupa. Setiap kejadian pada dasarnya memberikan undian untuk kelas mereka, dan ramalan itu tergolong dalam kelas yang menerima undian terbanyak.

7. K-bermaksud

Ia adalah teknik untuk pembelajaran tanpa pengawasan yang menangani isu pengelompokan. Set data dibahagikan kepada bilangan gugusan tertentu—sebutkan K—dengan cara yang setiap titik data gugusan adalah homogen dan berbeza daripada gugusan yang lain.

K Bermaksud 1

K-means metodologi pengelompokan:

Untuk setiap kelompok, algoritma K-means memilih k centroid, atau titik.
Dengan gugusan centroid atau K terdekat, setiap titik data membentuk gugusan.
Kini, centroid baharu dihasilkan bergantung kepada ahli kluster yang sedia ada.
Jarak terdekat untuk setiap titik data dikira menggunakan centroid yang dikemas kini ini. Sehingga centroid tidak berubah, proses ini diulang.

Ia lebih cepat, lebih dipercayai, dan lebih mudah untuk difahami. Jika terdapat masalah, kebolehsuaian k-means menjadikan pelarasan menjadi mudah. Apabila set data berbeza atau terpencil dengan baik antara satu sama lain, hasilnya adalah yang terbaik. Ia tidak boleh mengurus data yang tidak menentu atau outlier.

8. Mesin Vektor Sokongan

Apabila menggunakan teknik SVM untuk mengklasifikasikan data, data mentah ditunjukkan sebagai titik dalam ruang dimensi-n (dengan n ialah bilangan ciri yang anda miliki). Data kemudiannya boleh diklasifikasikan dengan mudah kerana setiap nilai ciri kemudiannya disambungkan kepada koordinat tertentu.

Untuk memisahkan data dan meletakkannya pada graf, gunakan garis yang dikenali sebagai pengelas. Pendekatan ini memplot setiap titik data sebagai titik dalam ruang n-dimensi, dengan n ialah bilangan ciri yang anda miliki dan setiap nilai ciri ialah nilai koordinat tertentu.

Mesin Vektor Sokongan

Kami kini akan mencari baris yang membahagikan data kepada dua set data yang telah dikategorikan secara berbeza. Jarak dari titik terdekat dalam setiap dua kumpulan adalah yang paling jauh di sepanjang garisan ini.

Oleh kerana dua titik terdekat adalah yang paling jauh dari garis dalam contoh di atas, garis yang membahagikan data kepada dua kumpulan yang dikategorikan secara berbeza ialah garis tengah. Pengelas kami ialah baris ini.

9. Pengurangan Dimensi

Menggunakan pendekatan pengurangan dimensi, data latihan mungkin mempunyai pembolehubah input yang lebih sedikit. Secara ringkas, ia merujuk kepada proses mengecilkan saiz set ciri anda. Mari bayangkan set data anda mempunyai 100 lajur; pengurangan dimensi akan mengurangkan jumlah itu kepada 20 lajur.

Pengurangan Dimensi

Model secara automatik berkembang lebih canggih dan mempunyai risiko yang lebih besar untuk overfitting apabila bilangan ciri meningkat. Isu terbesar dengan bekerja dengan data dalam dimensi yang lebih besar ialah apa yang dikenali sebagai "kutukan dimensi", yang berlaku apabila data anda mengandungi bilangan ciri yang berlebihan.

Elemen berikut boleh digunakan untuk mencapai pengurangan dimensi:

Untuk mencari dan memilih ciri yang berkaitan, pemilihan ciri digunakan.
Menggunakan ciri yang sedia ada, kejuruteraan ciri mencipta ciri baharu secara manual.

Kesimpulan

Pembelajaran mesin tanpa diawasi atau diawasi adalah mungkin. Pilih pembelajaran diselia jika data anda kurang banyak dan ditandakan dengan baik untuk latihan.

Set data yang besar selalunya akan melakukan dan menghasilkan hasil yang lebih baik menggunakan pembelajaran tanpa pengawasan. Pembelajaran yang mendalam kaedah adalah yang terbaik jika anda mempunyai pengumpulan data yang cukup besar yang sedia ada.

Pembelajaran pengukuhan dan pembelajaran peneguhan mendalam ialah beberapa topik yang anda pelajari. Ciri, kegunaan dan kekangan rangkaian saraf kini jelas kepada anda. Akhir sekali, anda mempertimbangkan pilihan untuk bahasa pengaturcaraan, IDE dan platform yang berbeza apabila ia datang untuk mencipta sendiri model pembelajaran mesin.

Perkara seterusnya yang perlu anda lakukan ialah mula belajar dan menggunakan setiap satu pembelajaran mesin pendekatan. Walaupun subjek itu luas, sebarang topik boleh difahami dalam beberapa jam jika anda memfokuskan pada kedalamannya. Setiap subjek berdiri sendiri daripada yang lain.

Anda mesti memikirkan satu isu pada satu masa, mengkajinya, mempraktikkannya dan menggunakan bahasa pilihan anda untuk melaksanakan algoritma di dalamnya.

Senarai Algoritma Pembelajaran Mesin Utama untuk Pemula

Jadi, apakah algoritma Pembelajaran Mesin?