Jadual Kandungan[Sembunyi][Tunjukkan]
Salah satu kriteria utama untuk sebarang jenis aktiviti korporat ialah penggunaan maklumat yang berkesan. Pada satu ketika, jumlah data yang dicipta melebihi kapasiti pemprosesan asas.
Di situlah algoritma pembelajaran mesin berperanan. Walau bagaimanapun, sebelum mana-mana perkara ini boleh berlaku, maklumat itu mesti dikaji dan ditafsirkan. Secara ringkasnya, pembelajaran mesin tanpa pengawasan digunakan untuknya.
Dalam artikel ini, kami akan mengkaji pembelajaran mesin tanpa pengawasan yang mendalam, termasuk algoritmanya, kes penggunaan dan banyak lagi.
Apakah Pembelajaran Mesin Tanpa Seliaan?
Algoritma pembelajaran mesin tanpa pengawasan mengenal pasti corak dalam set data yang tidak mempunyai akibat yang diketahui atau dilabelkan. diselia algoritma pembelajaran mesin mempunyai keluaran berlabel.
Mengetahui perbezaan ini membantu anda memahami sebab kaedah pembelajaran mesin tanpa pengawasan tidak boleh digunakan untuk menyelesaikan isu regresi atau klasifikasi, kerana anda tidak tahu nilai/jawapan untuk data output. Anda tidak boleh melatih algoritma secara normal jika anda tidak tahu nilai/jawapannya.
Selain itu, pembelajaran tanpa pengawasan boleh digunakan untuk mengenal pasti struktur asas data. Algoritma ini mengesan corak tersembunyi atau kumpulan data tanpa memerlukan interaksi manusia.
Keupayaannya untuk mengesan persamaan dan kontras dalam maklumat menjadikannya pilihan terbaik untuk analisis data penerokaan, teknik jualan silang, pembahagian pengguna dan pengenalan gambar.
Pertimbangkan senario berikut: anda berada di kedai runcit dan melihat buah yang tidak dikenali yang tidak pernah anda lihat sebelum ini. Anda boleh dengan mudah membezakan buah yang tidak diketahui berbeza daripada buah lain di sekeliling berdasarkan pemerhatian anda terhadap bentuk, saiz atau warnanya.
Algoritma Pembelajaran Mesin tanpa pengawasan
Clustering
Pengelompokan tidak diragukan lagi merupakan pendekatan pembelajaran tanpa pengawasan yang paling banyak digunakan. Pendekatan ini meletakkan item data berkaitan ke dalam kelompok yang dijana secara rawak.
Dengan sendirinya, model ML menemui sebarang corak, persamaan dan/atau perbezaan dalam struktur data yang tidak dikategorikan. Model akan dapat menemui sebarang kumpulan atau kelas semula jadi dalam data.
jenis
Terdapat beberapa bentuk pengelompokan yang boleh digunakan. Mari kita lihat yang paling penting dahulu.
- Pengelompokan eksklusif, kadangkala dikenali sebagai pengelompokan "keras", ialah jenis pengelompokan di mana sekeping data hanya dimiliki oleh satu gugusan.
- Pengelompokan bertindih, selalunya dikenali sebagai pengelompokan "lembut", membenarkan objek data tergolong dalam lebih daripada satu gugusan pada tahap yang berbeza-beza. Tambahan pula, pengelompokan kebarangkalian boleh digunakan untuk menangani masalah pengelompokan "lembut" atau anggaran ketumpatan, serta untuk menilai kebarangkalian atau kemungkinan titik data kepunyaan kelompok tertentu.
- Mencipta hierarki item data terkumpul ialah matlamat pengelompokan hierarki, seperti yang ditunjukkan oleh namanya. Item data dinyahkonstruk atau digabungkan berdasarkan hierarki untuk menjana kelompok.
Gunakan kes:
- Pengesanan Anomali:
Sebarang jenis outlier dalam data boleh dikesan menggunakan pengelompokan. Syarikat dalam pengangkutan dan logistik, contohnya, boleh menggunakan pengesanan anomali untuk menemui halangan logistik atau mendedahkan bahagian mekanikal yang rosak (penyelenggaraan ramalan).
Institusi kewangan boleh menggunakan teknologi untuk mengesan transaksi penipuan dan bertindak balas dengan cepat, yang berpotensi menjimatkan banyak wang. Ketahui lebih lanjut tentang mengesan kelainan dan penipuan dengan menonton video kami.
- Segmentasi pelanggan dan pasaran:
Algoritma pengelompokan boleh membantu dalam mengumpulkan orang yang mempunyai ciri yang serupa dan mencipta persona pengguna untuk pemasaran yang lebih berkesan dan inisiatif disasarkan.
K-Means
K-means ialah kaedah pengelompokan yang juga dikenali sebagai partitioning atau segmentation. Ia membahagikan titik data kepada bilangan gugusan yang telah ditetapkan yang dikenali sebagai K.
Dalam kaedah K-means, K ialah input kerana anda memberitahu komputer berapa banyak kluster yang anda ingin kenal pasti dalam data anda. Setiap item data kemudiannya ditugaskan ke pusat kluster terdekat, dikenali sebagai centroid (titik hitam dalam gambar).
Yang terakhir berfungsi sebagai ruang penyimpanan data. Teknik pengelompokan boleh dilakukan berkali-kali sehingga gugusan ditakrifkan dengan baik.
Fuzzy K-maksudnya
Fuzzy K-means ialah lanjutan daripada teknik K-means, yang digunakan untuk melakukan pengelompokan bertindih. Berbeza dengan teknik K-means, K-means kabur menunjukkan bahawa titik data mungkin tergolong dalam banyak kelompok dengan darjah kedekatan yang berbeza bagi setiap gugusan.
Jarak antara titik data dan pusat gugusan digunakan untuk mengira kehampiran. Akibatnya, terdapat keadaan apabila pelbagai kelompok bertindih.
Model Campuran Gaussian
Model Campuran Gaussian (GMM) ialah kaedah yang digunakan dalam pengelompokan kebarangkalian. Oleh kerana min dan varians tidak diketahui, model mengandaikan bahawa terdapat bilangan tetap taburan Gaussian, setiap satu mewakili kelompok yang berbeza.
Untuk menentukan kelompok mana titik data tertentu milik, kaedah ini pada asasnya digunakan.
Pengelompokan Hierarki
Strategi pengelompokan hierarki boleh bermula dengan setiap titik data yang diperuntukkan kepada kelompok yang berbeza. Kedua-dua kelompok yang paling hampir antara satu sama lain kemudiannya digabungkan menjadi satu kelompok. Penggabungan berulang berterusan sehingga hanya satu kelompok kekal di bahagian atas.
Kaedah ini dikenali sebagai bottom-up atau aglomeratif. Jika anda bermula dengan semua item data yang diikat pada gugusan yang sama dan kemudian menjalankan pemisahan sehingga setiap item data ditetapkan sebagai gugusan yang berasingan, kaedah tersebut dikenali sebagai pengelompokan hierarki atas ke bawah atau pembahagian.
Algoritma Apriori
Analisis bakul pasaran mempopularkan algoritma apriori, menghasilkan pelbagai enjin pengesyoran untuk platform muzik dan kedai dalam talian.
Ia digunakan dalam set data transaksi untuk mencari set item yang kerap, atau kumpulan item, untuk meramalkan kemungkinan menggunakan satu produk berdasarkan penggunaan yang lain.
Sebagai contoh, jika saya mula memainkan radio OneRepublic di Spotify dengan "Counting Stars", salah satu lagu lain di saluran ini pastinya akan menjadi lagu Imagine Dragon, seperti "Bad Liar."
Ini berdasarkan tabiat mendengar saya sebelum ini dan juga corak mendengar orang lain. Kaedah Apriori mengira set item menggunakan pepohon cincang, merentasi keluasan set data dahulu.
Pengurangan Dimensi
Pengurangan dimensi ialah sejenis pembelajaran tanpa seliaan yang menggunakan koleksi strategi untuk meminimumkan bilangan ciri – atau dimensi – dalam set data. Izinkan kami menjelaskan.
Ia boleh menggoda untuk memasukkan sebanyak mungkin data semasa membuat anda set data untuk pembelajaran mesin. Jangan salah sangka: strategi ini berfungsi dengan baik kerana lebih banyak data biasanya menghasilkan penemuan yang lebih tepat.
Andaikan bahawa data disimpan dalam ruang N-dimensi, dengan setiap ciri mewakili dimensi yang berbeza. Mungkin terdapat ratusan dimensi jika terdapat banyak data.
Pertimbangkan hamparan Excel, dengan lajur mewakili ciri dan baris mewakili item data. Apabila terdapat terlalu banyak dimensi, algoritma ML mungkin berprestasi buruk dan visualisasi data boleh menjadi sukar.
Oleh itu, adalah logik untuk mengehadkan ciri atau dimensi, dan menyampaikan maklumat yang berkaitan sahaja. Pengurangan dimensi hanyalah itu. Ia membolehkan kuantiti input data yang boleh diurus tanpa menjejaskan integriti set data.
Analisis Komponen Utama (PCA)
Analisis komponen utama ialah pendekatan pengurangan dimensi. Ia digunakan untuk meminimumkan bilangan ciri dalam set data yang besar, menghasilkan kesederhanaan data yang lebih besar tanpa mengorbankan ketepatan.
Pemampatan set data dicapai dengan kaedah yang dikenali sebagai pengekstrakan ciri. Ia menunjukkan bahawa unsur-unsur daripada set asal digabungkan menjadi yang baru, lebih kecil. Ciri-ciri baru ini dikenali sebagai komponen utama.
Sudah tentu, terdapat algoritma tambahan yang boleh anda gunakan dalam aplikasi pembelajaran tanpa pengawasan anda. Yang disenaraikan di atas hanyalah yang paling lazim, itulah sebabnya ia dibincangkan dengan lebih terperinci.
Aplikasi pembelajaran tanpa pengawasan
- Kaedah pembelajaran tanpa pengawasan digunakan untuk tugas persepsi visual seperti pengecaman objek.
- Pembelajaran mesin tanpa pengawasan memberikan aspek kritikal kepada sistem pengimejan perubatan, seperti pengenalan imej, klasifikasi dan segmentasi, yang digunakan dalam radiologi dan patologi untuk mendiagnosis pesakit dengan cepat dan boleh dipercayai.
- Pembelajaran tanpa pengawasan boleh membantu mengenal pasti arah aliran data yang boleh digunakan untuk mencipta strategi jualan silang yang lebih berkesan menggunakan data masa lalu tentang tingkah laku pengguna. Semasa proses pembayaran, ini digunakan oleh perniagaan dalam talian untuk mencadangkan alat tambah yang betul kepada pelanggan.
- Kaedah pembelajaran tanpa pengawasan boleh menapis volum data yang besar untuk mencari penyimpangan. Keabnormalan ini mungkin menimbulkan notis peralatan yang tidak berfungsi, kesilapan manusia atau pelanggaran keselamatan.
Isu dengan pembelajaran tanpa pengawasan
Pembelajaran tanpa pengawasan menarik dalam pelbagai cara, daripada potensi untuk mencari cerapan penting data untuk mengelakkan pelabelan data yang mahal operasi. Walau bagaimanapun, terdapat beberapa kelemahan untuk menggunakan strategi ini untuk melatih model pembelajaran mesin yang patut anda sedari. Berikut adalah beberapa contoh.
- Memandangkan data input tidak mempunyai label yang berfungsi sebagai kunci tindak balas, hasil model pembelajaran tanpa pengawasan mungkin menjadi kurang tepat.
- Pembelajaran tanpa pengawasan kerap berfungsi dengan set data yang besar, yang boleh meningkatkan kerumitan pengiraan.
- Pendekatan ini memerlukan pengesahan output oleh manusia, sama ada pakar dalaman atau luaran dalam subjek siasatan.
- Algoritma mesti memeriksa dan mengira setiap senario yang mungkin sepanjang fasa latihan, yang mengambil sedikit masa.
Kesimpulan
Penggunaan data yang berkesan adalah kunci untuk mewujudkan kelebihan daya saing dalam pasaran tertentu.
Anda boleh membahagikan data menggunakan algoritma pembelajaran mesin tanpa pengawasan untuk memeriksa keutamaan khalayak sasaran anda atau untuk menentukan cara jangkitan tertentu bertindak balas terhadap rawatan tertentu.
Terdapat beberapa aplikasi praktikal, dan saintis data, jurutera dan arkitek boleh membantu anda dalam menentukan matlamat anda dan membangunkan penyelesaian ML yang unik untuk syarikat anda.
Sila tinggalkan balasan anda