Talaan ng nilalaman[Tago][Ipakita]
Ang isa sa mga pangunahing pamantayan para sa anumang uri ng aktibidad ng korporasyon ay ang epektibong paggamit ng impormasyon. Sa ilang mga punto, ang dami ng data na nilikha ay lumampas sa kapasidad ng pangunahing pagproseso.
Doon pumapasok ang mga algorithm ng machine learning. Gayunpaman, bago mangyari ang alinman sa mga ito, ang impormasyon ay dapat pag-aralan at bigyang-kahulugan. Sa madaling sabi, ito ang ginagamit ng hindi sinusubaybayang machine learning.
Sa artikulong ito, susuriin namin ang malalim na unsupervised machine learning, kabilang ang mga algorithm nito, mga kaso ng paggamit, at marami pang iba.
Ano ang Unsupervised Machine Learning?
Tinutukoy ng mga unsupervised machine learning algorithm ang mga pattern sa isang dataset na walang alam o may label na kahihinatnan. Pinangangasiwaan algorithm ng pag-aaral ng machine may label na output.
Ang pag-alam sa pagkakaibang ito ay nakakatulong sa iyo na maunawaan kung bakit hindi maaaring gamitin ang mga unsupervised machine learning na pamamaraan para malutas ang mga isyu sa regression o classification, dahil hindi mo alam kung ano ang maaaring maging value/sagot para sa output data. Hindi mo maaaring sanayin ang isang algorithm nang normal kung hindi mo alam ang halaga/sagot.
Higit pa rito, maaaring gamitin ang Unsupervised learning para matukoy ang pangunahing istruktura ng data. Nakikita ng mga algorithm na ito ang mga nakatagong pattern o pagpapangkat ng data nang hindi nangangailangan ng pakikipag-ugnayan ng tao.
Ang kakayahan nitong makakita ng mga pagkakatulad at kaibahan sa impormasyon ay ginagawa itong isang mahusay na pagpipilian para sa pagsusuri ng data ng eksplorasyon, mga diskarte sa cross-selling, segmentasyon ng consumer, at pagkakakilanlan ng larawan.
Isaalang-alang ang sumusunod na senaryo: ikaw ay nasa isang grocery shop at nakakita ng hindi kilalang prutas na hindi mo pa nakikita. Madali mong makilala ang hindi kilalang prutas na naiiba sa iba pang prutas sa paligid batay sa iyong mga obserbasyon sa anyo, sukat, o kulay nito.
Mga Algorithm sa Pag-aaral ng Machine na Hindi Pinangangasiwaan
Clustering
Ang pag-cluster ay walang alinlangan ang pinakamalawak na ginagamit na paraan ng pag-aaral na hindi pinangangasiwaan. Inilalagay ng diskarteng ito ang mga kaugnay na item ng data sa mga random na nabuong cluster.
Sa mismong paraan, natutuklasan ng isang modelo ng ML ang anumang mga pattern, pagkakatulad, at/o pagkakaiba sa isang hindi nakategoryang istruktura ng data. Ang isang modelo ay makakatuklas ng anumang natural na pagpapangkat o klase sa data.
Uri
Mayroong ilang mga paraan ng clustering na maaaring gamitin. Tingnan muna natin ang pinakamahalaga.
- Ang eksklusibong clustering, kung minsan ay kilala bilang "hard" clustering, ay isang uri ng pagpapangkat kung saan ang isang piraso ng data ay nabibilang sa isang cluster lang.
- Ang overlapping clustering, kadalasang kilala bilang "soft" clustering, ay nagbibigay-daan sa mga object ng data na mapabilang sa higit sa isang cluster sa iba't ibang antas. Higit pa rito, maaaring gamitin ang probabilistic clustering upang matugunan ang "malambot" na clustering o mga problema sa pagtatantya ng density, pati na rin upang masuri ang posibilidad o posibilidad ng mga punto ng data na kabilang sa ilang mga cluster.
- Ang paglikha ng hierarchy ng mga nakagrupong item ng data ay ang layunin ng hierarchical clustering, gaya ng ipinahihiwatig ng pangalan. Ang mga item ng data ay na-deconstruct o pinagsama-sama batay sa hierarchy upang bumuo ng mga cluster.
Gumamit ng mga kaso:
- Pagtuklas ng Anomalya:
Maaaring matukoy ang anumang uri ng outlier sa data gamit ang clustering. Ang mga kumpanya sa transportasyon at logistik, halimbawa, ay maaaring gumamit ng anomalya na pagtuklas upang matuklasan ang mga hadlang sa logistik o ibunyag ang mga nasirang bahagi ng makina (predictive maintenance).
Maaaring gamitin ng mga institusyong pampinansyal ang teknolohiya upang makita ang mga mapanlinlang na transaksyon at mabilis na tumugon, na posibleng makatipid ng maraming pera. Matuto pa tungkol sa pagtukoy ng mga abnormalidad at panloloko sa pamamagitan ng panonood sa aming video.
- Segmentation ng mga customer at market:
Makakatulong ang pag-cluster ng mga algorithm sa pagpapangkat ng mga tao na may mga katulad na katangian at paglikha ng mga persona ng consumer para sa mas epektibong marketing at mga naka-target na inisyatiba.
K-Ibig sabihin
Ang K-means ay isang clustering method na kilala rin bilang partitioning o segmentation. Hinahati nito ang mga punto ng data sa isang paunang natukoy na bilang ng mga kumpol na kilala bilang K.
Sa pamamaraang K-means, ang K ang input dahil sasabihin mo sa computer kung ilang cluster ang gusto mong tukuyin sa iyong data. Ang bawat data item ay kasunod na itinalaga sa pinakamalapit na cluster center, na kilala bilang isang centroid (mga itim na tuldok sa larawan).
Ang huli ay nagsisilbing mga puwang ng imbakan ng data. Ang pamamaraan ng clustering ay maaaring gawin nang maraming beses hanggang ang mga cluster ay mahusay na natukoy.
Malabo K-ibig sabihin
Ang Fuzzy K-means ay isang extension ng K-means technique, na ginagamit para gawin ang overlapping clustering. Hindi tulad ng K-means technique, ang malabo na K-means ay nagpapahiwatig na ang mga data point ay maaaring kabilang sa maraming cluster na may iba't ibang antas ng kalapitan sa bawat isa.
Ang distansya sa pagitan ng mga punto ng data at sentroid ng cluster ay ginagamit upang kalkulahin ang kalapitan. Bilang resulta, maaaring may mga pagkakataon na nagsasapawan ang iba't ibang kumpol.
Gaussian Mixture Models
Ang Gaussian Mixture Models (GMMs) ay isang paraan na ginagamit sa probabilistic clustering. Dahil hindi alam ang mean at variance, ipinapalagay ng mga modelo na mayroong isang nakapirming bilang ng mga distribusyon ng Gaussian, bawat isa ay kumakatawan sa isang natatanging cluster.
Upang matukoy kung aling cluster kabilang ang isang partikular na punto ng data, ang pamamaraan ay mahalagang ginagamit.
Hierarchical Clustering
Maaaring magsimula ang hierarchical clustering strategy sa bawat data point na nakatalaga sa ibang cluster. Ang dalawang kumpol na pinakamalapit sa isa't isa ay pinaghalo sa iisang kumpol. Nagpapatuloy ang iterative merging hanggang sa isang cluster na lang ang natitira sa itaas.
Ang pamamaraang ito ay kilala bilang bottom-up o agglomerative. Kung magsisimula ka sa lahat ng item ng data na nakatali sa parehong cluster at pagkatapos ay magsasagawa ng mga hati hanggang sa ang bawat item ng data ay italaga bilang isang hiwalay na cluster, ang pamamaraan ay kilala bilang top-down o divisive hierarchical clustering.
Apriori Algorithm
Pinasikat ng pagsusuri sa basket ng merkado ang mga apriori algorithm, na nagreresulta sa iba't ibang engine ng rekomendasyon para sa mga platform ng musika at mga online na tindahan.
Ginagamit ang mga ito sa mga transactional dataset upang maghanap ng mga madalas na itemset, o pagpapangkat ng mga item, upang mahulaan ang posibilidad na ubusin ang isang produkto batay sa pagkonsumo ng isa pa.
Halimbawa, kung sisimulan kong i-play ang radyo ng OneRepublic sa Spotify gamit ang "Counting Stars," ang isa sa iba pang mga kanta sa channel na ito ay tiyak na magiging isang Imagine Dragon na kanta, gaya ng "Bad Liar."
Ito ay batay sa aking mga dating gawi sa pakikinig pati na rin ang mga pattern ng pakikinig ng iba. Ang mga paraan ng Apriori ay nagbibilang ng mga itemet gamit ang hash tree, na tinatahak ang dataset na una sa lapad.
Pagbawas sa Dimensionality
Ang pagbabawas ng dimensional ay isang uri ng hindi pinangangasiwaang pag-aaral na gumagamit ng koleksyon ng mga diskarte para mabawasan ang bilang ng mga feature – o mga dimensyon – sa isang dataset. Hayaan mo kaming linawin.
Maaari itong maging kaakit-akit na isama ang mas maraming data hangga't maaari habang ginagawa ang iyong dataset para sa machine learning. Huwag kaming magkamali: gumagana nang maayos ang diskarteng ito dahil mas maraming data ang kadalasang nagbubunga ng mas tumpak na mga natuklasan.
Ipagpalagay na ang data ay nakaimbak sa N-dimensional na espasyo, na ang bawat feature ay kumakatawan sa ibang dimensyon. Maaaring may daan-daang dimensyon kung maraming data.
Isaalang-alang ang mga spreadsheet ng Excel, na may mga column na kumakatawan sa mga katangian at mga row na kumakatawan sa mga item ng data. Kapag masyadong maraming dimensyon, maaaring hindi maganda ang performance ng mga ML algorithm at visualization ng data maaaring maging mahirap.
Kaya't ginagawang lohikal na limitahan ang mga katangian o sukat, at ihatid lamang ang may-katuturang impormasyon. Ang pagbabawas ng dimensional ay ganoon lang. Nagbibigay-daan ito para sa isang napapamahalaang dami ng mga input ng data nang hindi nakompromiso ang integridad ng dataset.
Principal Component Analysis (PCA)
Ang pangunahing bahagi ng pagsusuri ay isang dimensionality reduction approach. Ginagamit ito upang mabawasan ang bilang ng mga feature sa malalaking dataset, na nagreresulta sa higit na pagiging simple ng data nang hindi sinasakripisyo ang katumpakan.
Ang compression ng dataset ay ginagawa sa pamamagitan ng isang paraan na kilala bilang feature extraction. Ipinapahiwatig nito na ang mga elemento mula sa orihinal na hanay ay pinaghalo sa isang bago, mas maliit. Ang mga bagong katangiang ito ay kilala bilang mga pangunahing sangkap.
Siyempre, may mga karagdagang algorithm na magagamit mo sa iyong mga hindi pinangangasiwaang mga application sa pag-aaral. Ang mga nakalista sa itaas ay ang pinakakaraniwan, kaya naman ang mga ito ay tinalakay nang mas detalyado.
Paglalapat ng Unsupervised learning
- Ang mga pamamaraan ng hindi pinangangasiwaang pag-aaral ay ginagamit para sa mga gawaing visual na perception gaya ng pagkilala sa bagay.
- Ang unsupervised machine learning ay nagbibigay ng mga kritikal na aspeto sa mga medical imaging system, gaya ng image identification, classification, at segmentation, na ginagamit sa radiology at pathology para ma-diagnose ang mga pasyente nang mabilis at maaasahan.
- Makakatulong ang hindi pinangangasiwaang pag-aaral na matukoy ang mga trend ng data na maaaring magamit upang lumikha ng mas epektibong mga diskarte sa cross-selling na gumagamit ng nakaraang data sa gawi ng consumer. Sa panahon ng proseso ng pag-checkout, ito ay ginagamit ng mga online na negosyo upang magmungkahi ng mga tamang add-on sa mga kliyente.
- Ang mga pamamaraan ng hindi pinangangasiwaang pag-aaral ay maaaring magsala sa napakalaking dami ng data upang makahanap ng mga outlier. Ang mga abnormalidad na ito ay maaaring magtaas ng paunawa ng hindi gumaganang kagamitan, pagkakamali ng tao, o mga paglabag sa seguridad.
Mga isyu sa Unsupervised learning
Ang hindi pinangangasiwaang pag-aaral ay nakakaakit sa iba't ibang paraan, mula sa potensyal na makahanap ng mahahalagang insight data sa pag-iwas sa magastos na pag-label ng data mga operasyon. Gayunpaman, may ilang mga disbentaha sa paggamit ng diskarteng ito sa pagsasanay mga modelo ng pag-aaral ng makina na dapat mong malaman. Narito ang ilang mga halimbawa.
- Dahil kulang ang input data ng mga label na nagsisilbing response key, maaaring hindi gaanong tumpak ang mga resulta ng mga modelo ng hindi pinangangasiwaang pag-aaral.
- Ang hindi sinusubaybayang pag-aaral ay madalas na gumagana sa napakalaking dataset, na maaaring magpapataas ng pagiging kumplikado ng computational.
- Ang diskarte ay nangangailangan ng kumpirmasyon ng output ng mga tao, alinman sa panloob o panlabas na mga espesyalista sa paksa ng pagtatanong.
- Dapat suriin at kalkulahin ng mga algorithm ang bawat posibleng senaryo sa buong yugto ng pagsasanay, na tumatagal ng ilang oras.
Konklusyon
Ang epektibong paggamit ng data ay ang susi sa pagtatatag ng isang competitive na gilid sa isang partikular na merkado.
Maaari mong i-segment ang data gamit ang hindi sinusubaybayang machine learning algorithm para suriin ang mga kagustuhan ng iyong target na audience o para matukoy kung paano tumutugon ang isang partikular na impeksiyon sa isang partikular na paggamot.
Mayroong ilang mga praktikal na aplikasyon, at data scientistMatutulungan ka ng , mga inhinyero, at arkitekto sa pagtukoy ng iyong mga layunin at pagbuo ng mga natatanging solusyon sa ML para sa iyong kumpanya.
Mag-iwan ng Sagot