Algoritmen foar masinelearen sûnder tafersjoch

Table of Contents[Ferstopje][Toanje]

Wat is Unsupervised Machine Learning?
Algoritmen foar masine-learen sûnder tafersjoch+-
Tapassing fan Unsupervised learen
Problemen mei Unsupervised learen
Konklúzje

Ien fan 'e primêre kritearia foar elk type bedriuwsaktiviteit is it effektive gebrûk fan ynformaasje. Op in stuit is it folume fan oanmakke gegevens grutter dan de kapasiteit fan basisferwurking.

Dat is wêr't masine-learen-algoritmen yn spiel komme. Foardat ien fan dit kin foarkomme, moat de ynformaasje lykwols wurde bestudearre en ynterpretearre. Yn in notedop is it wêrfoar sûnder tafersjoch masine learen wurdt brûkt.

Yn dit artikel sille wy yngeand ûndersykje sûnder tafersjoch masine learen, ynklusyf syn algoritmen, gebrûksgefallen, en folle mear.

Wat is Unsupervised Machine Learning?

Algorithmen foar masine-learen sûnder tafersjoch identifisearje patroanen yn in dataset dy't gjin bekende of markearre konsekwinsje hawwe. Tafersjoch masine learen algoritmen hawwe in markearre útfier.

Troch dit ûnderskied te kennen helpt jo te begripen wêrom't metoaden foar masinelearen sûnder tafersjoch net kinne wurde brûkt om problemen mei regression of klassifikaasje op te lossen, om't jo net witte wat de wearde / antwurd foar de útfiergegevens kin wêze. Jo kinne net traine in algoritme normaal as jo net witte de wearde / antwurd.

Boppedat kin sûnder tafersjoch learen wurde brûkt om de fûnemintele struktuer fan 'e gegevens te identifisearjen. Dizze algoritmen detektearje ferburgen patroanen as gegevensgroepen sûnder de needsaak foar minsklike ynteraksje.

De fermogen om oerienkomsten en kontrasten yn ynformaasje te detektearjen makket it in geweldige kar foar ferkennende gegevensanalyse, krúsferkeaptechniken, konsumintsegmentaasje en ôfbyldingsidentifikaasje.

Beskôgje it folgjende senario: jo binne yn in boadskip en sjogge in ûnbekende frucht dy't jo noch noait earder sjoen hawwe. Jo kinne de ûnbekende frucht maklik ûnderskiede fan oare fruchten op basis fan jo observaasjes fan har foarm, grutte of kleur.

Algoritmen foar masine-learen sûnder tafersjoch

Clustering

Clustering is sûnder mis de meast brûkte oanpak foar learen sûnder tafersjoch. Dizze oanpak set besibbe gegevensitems yn willekeurich oanmakke klusters.

Op himsels ûntdekt in ML-model alle patroanen, oerienkomsten en/of ferskillen yn in net-kategorisearre gegevensstruktuer. In model sil by steat wêze om te ûntdekken alle natuerlike groepearrings of klassen yn gegevens.

Clustering

soarten

D'r binne ferskate foarmen fan klustering dy't brûkt wurde kinne. Litte wy earst nei de wichtichste sjen.

Eksklusive klustering, soms bekend as "hurde" klusterjen, is in soarte fan groepearring wêryn ien stik gegevens by mar ien kluster heart.
Oerlappende klustering, faak bekend as "sêfte" klustering, lit gegevensobjekten yn ferskate mjitte ta mear as ien kluster hearre. Fierder kin probabilistyske klustering brûkt wurde om "sêfte" klustering- of tichtensskattingsproblemen oan te pakken, en ek om de kâns of kâns te beoardieljen fan gegevenspunten dy't ta bepaalde klusters hearre.
It meitsjen fan in hiërargy fan groepearre gegevens items is it doel fan hiërargyske klustering, sa't de namme oanjout. Gegevens items wurde dekonstruearre of kombinearre basearre op de hiërargy om klusters te generearjen.

Brûk gefallen:

Anomaly Detection:

Elk type útfaller yn gegevens kin wurde ûntdutsen mei klustering. Bedriuwen yn ferfier en logistyk kinne bygelyks anomalydeteksje brûke om logistike obstakels te ûntdekken of skansearre meganyske dielen te iepenbierjen (foarsizzend ûnderhâld).

Finansjele ynstellingen kinne de technology brûke om frauduleuze transaksjes te ûntdekken en fluch te reagearjen, mooglik in soad jild te besparjen. Learje mear oer it opspoaren fan abnormaliteiten en fraude troch ús fideo te besjen.

Segmentaasje fan klanten en merken:

Clustering-algoritmen kinne helpe by it groepearjen fan minsken dy't ferlykbere skaaimerken hawwe en it meitsjen fan konsumintepersona's foar effektiver marketing en rjochte inisjativen.

K-Means

K-means is in klustermetoade dy't ek bekend is as partitioning of segmentation. It dielt de gegevenspunten yn in foarbepaald oantal klusters bekend as K.

Yn 'e K-means metoade is K de ynfier, om't jo de kompjûter fertelle hoefolle klusters jo wolle identifisearje yn jo gegevens. Elk gegevensitem wurdt dêrnei tawiisd oan it tichtstby lizzende klustersintrum, bekend as in centroid (swarte stippen op 'e foto).

K Middel

Dy lêste tsjinje as gegevens opslachromten. De klustertechnyk kin ferskate kearen dien wurde oant de klusters goed definieare binne.

Fuzzy K-betsjut

Fuzzy K-means is in útwreiding fan 'e K-means-technyk, dy't brûkt wurdt om oerlappende klustering te dwaan. Oars as de K-means-technyk jouwe fuzzy K-means oan dat gegevenspunten ta in protte klusters hearre kinne mei ferskate graden fan tichtby elk.

De ôfstân tusken gegevenspunten en it sintrum fan it kluster wurdt brûkt om de tichtby te berekkenjen. As gefolch kinne d'r gelegenheden wêze dat ferskate klusters oerlappe.

Gaussian Mixture Models

Gaussian Mixture Models (GMM's) binne in metoade brûkt yn probabilistyske klustering. Om't de gemiddelde en fariânsje ûnbekend binne, geane de modellen der fan út dat der in fêst oantal Gaussiaanske distribúsjes binne, dy't elk in ûnderskate kluster fertsjintwurdigje.

Om te bepalen hokker kluster in spesifyk gegevenspunt heart, wurdt de metoade yn wêzen brûkt.

Hierarchyske klustering

De hiërargyske klusterstrategy kin begjinne mei elk gegevenspunt tawiisd oan in oar kluster. De twa klusters dy't it tichtst by elkoar lizze, wurde dan yn ien kluster gearfoege. Iterative gearfoeging giet troch oant mar ien kluster oan 'e boppekant bliuwt.

Dizze metoade is bekend as bottom-up of agglomerative. As jo begjinne mei alle gegevens items bûn oan deselde kluster en dan fiere splitsing oant elk gegevens item wurdt tawiisd as in apart kluster, de metoade is bekend as top-down of divisive hiërargyske clustering.

Apriori algoritme

Market basket analyze popularisearre apriori-algoritmen, wat resultearre yn ferskate oanbefellingsmotoren foar muzykplatfoarms en online winkels.

Se wurde brûkt yn transaksjonele datasets om faak itemsets, of groepearrings fan items te finen, om de kâns te foarsizzen fan it konsumearjen fan ien produkt basearre op it konsumpsje fan in oar.

As ik bygelyks de radio fan OneRepublic op Spotify begjin te spyljen mei "Counting Stars", sil ien fan 'e oare ferskes op dit kanaal heul wis in Imagine Dragon-ferske wêze, lykas "Bad Liar."

Dit is basearre op myn eardere harkgewoanten lykas de harkpatroanen fan oaren. Apriori-metoaden telle itemsets mei in hashbeam, troch de datasetbreedte-earst troch te gean.

Dimensjonaliteit Reduksje

Dimensionaliteitsreduksje is in soarte fan learen sûnder tafersjoch dy't in samling strategyen brûke om it oantal funksjes - of dimensjes - yn in dataset te minimalisearjen. Lit ús dúdlik meitsje.

It kin ferleidend wêze om safolle mooglik gegevens op te nimmen by it meitsjen fan jo dataset foar masine learen. Begryp ús net ferkeard: dizze strategy wurket goed, om't mear gegevens gewoanlik krekter fynsten opleverje.

Stel dat gegevens wurde opslein yn N-dimensionale romte, mei elke funksje dy't in oare diminsje fertsjintwurdiget. D'r kinne hûnderten dimensjes wêze as d'r in protte gegevens binne.

Beskôgje Excel-spreadsheets, mei kolommen dy't skaaimerken fertsjintwurdigje en rigen foar gegevensitems. As d'r te folle dimensjes binne, kinne ML-algoritmen min prestearje en data fisualisaasje kin dreech wurde.

Dat it makket it logysk om de skaaimerken of dimensjes te beheinen, en gewoan relevante ynformaasje oer te bringen. Dimensionaliteitsreduksje is krekt dat. It soarget foar in behearbere hoemannichte gegevensynputs sûnder de yntegriteit fan 'e dataset te kompromittearjen.

Principal Component Analysis (PCA)

De wichtichste komponintanalyse is in oanpak fan dimensjereduksje. It wurdt brûkt om it oantal funksjes yn enoarme datasets te minimalisearjen, wat resulteart yn gruttere gegevensienfâldichheid sûnder de krektens op te offerjen.

Dataset-kompresje wurdt berikt troch in metoade bekend as funksje-ekstraksje. It jout oan dat eleminten út 'e orizjinele set wurde blende yn in nije, lytsere. Dizze nije eigenskippen binne bekend as primêre komponinten.

Fansels binne d'r ekstra algoritmen dy't jo kinne brûke yn jo learapplikaasjes sûnder tafersjoch. De hjirboppe neamde binne gewoan de meast foarkommende, en dêrom wurde se yn mear detail besprutsen.

Tapassing fan Unsupervised learen

Learmetoaden sûnder tafersjoch wurde brûkt foar fisuele waarnimmingstaken lykas objektherkenning.
Net tafersjoch masine learen jout krityske aspekten oan medyske imaging systemen, lykas byld identifikaasje, klassifikaasje, en segmentaasje, dy't wurde brûkt yn radiology en patology om pasjinten fluch en betrouber te diagnostearjen.
Learje sûnder tafersjoch kin helpe om gegevenstrends te identifisearjen dy't kinne wurde brûkt om effektiver krúsferkeapstrategyen te meitsjen mei gebrûk fan ferline gegevens oer konsumintgedrach. Tidens it kassaproses wurdt dit brûkt troch online bedriuwen om de juste tafoegings oan kliïnten foar te stellen.
Learmetoaden sûnder tafersjoch kinne troch enoarme voluminten gegevens siftje om outliers te finen. Dizze abnormaliteiten kinne de melding ferheegje fan defekte apparatuer, minsklike flater, of feiligensbrekken.

Problemen mei Unsupervised learen

Learje sûnder tafersjoch is op ferskate manieren oansprekkend, fan it potinsjeel om wichtige ynsjoch te finen yn gegevens om kostbere gegevenslabeling te foarkommen operaasjes. D'r binne lykwols ferskate neidielen oan it brûken fan dizze strategy om te trenen masine learmodellen dat jo moatte wêze bewust fan. Hjir binne wat foarbylden.

Om't ynfiergegevens etiketten misse dy't as antwurdkaaien tsjinje, kinne de útkomsten fan learmodellen sûnder tafersjoch minder presys wêze.
Learje sûnder tafersjoch wurket faak mei massive datasets, dy't komputaasjekompleksiteit kinne ferheegje.
De oanpak fereasket útfierbefêstiging troch minsken, sawol ynterne as eksterne spesjalisten yn it ûnderwerp fan ûndersyk.
Algoritmen moatte alle mooglike senario's ûndersykje en berekkenje yn 'e trainingsfaze, dy't wat tiid nimt.

Konklúzje

Effektyf gebrûk fan gegevens is de kaai foar it fêststellen fan in konkurrinsjefoardiel yn in bepaalde merk.

Jo kinne de gegevens segmentearje mei algoritmen foar masine-learen sûnder tafersjoch om de foarkar fan jo doelgroep te ûndersykjen of om te bepalen hoe't in bepaalde ynfeksje reagearret op in bepaalde behanneling.

Der binne ferskate praktyske tapassingen, en data wittenskippers, yngenieurs en arsjitekten kinne jo helpe by it definiearjen fan jo doelen en it ûntwikkeljen fan unike ML-oplossingen foar jo bedriuw.

Unsupervised Machine learning Algoritmen

Wat is Unsupervised Machine Learning?