Inhaltsverzeechnes[Verstoppen][Show]
Ee vun de primäre Critèrë fir all Zort vu Firmenaktivitéit ass déi effektiv Notzung vun Informatioun. Irgendwann iwwerschreift de Volume vun erstallt Daten d'Kapazitéit vun der Basisveraarbechtung.
Dat ass wou Maschinn Léieren Algorithmen an d'Spill kommen. Wéi och ëmmer, ier eppes vun dësem ka geschéien, muss d'Informatioun studéiert an interpretéiert ginn. An enger Nossschuel, et ass wat onkontrolléiert Maschinnléiere benotzt gëtt.
An dësem Artikel wäerte mir déif oniwwerwaacht Maschinnléieren ënnersichen, dorënner seng Algorithmen, Benotzungsfäll a vill méi.
Wat ass Onkontrolléiert Maschinn Léieren?
Onkontrolléiert Maschinn Léieren Algorithmen identifizéieren Musteren an engem Datesaz, déi keng bekannt oder markéiert Konsequenz hunn. Iwwerwaacht Maschinn Léieren Algorithmen hunn eng markéiert Ausgab.
Dësen Ënnerscheed ze kennen hëlleft Iech ze verstoen firwat onkontrolléiert Maschinnléieremethoden net kënne benotzt ginn fir Regressioun oder Klassifikatiounsprobleemer ze léisen, well Dir wësst net wat de Wäert / d'Äntwert fir d'Ausgabdaten ka sinn. Dir kënnt net en Algorithmus normalerweis trainéieren wann Dir de Wäert / Äntwert net wësst.
Ausserdeem kann Oniwwerwaacht Léieren benotzt ginn fir d'fundamental Struktur vun den Daten z'identifizéieren. Dës Algorithmen entdecken verstoppte Mustere oder Dategruppéierungen ouni de Besoin fir mënschlech Interaktioun.
Seng Kapazitéit fir Ähnlechkeeten a Kontraster an Informatioun z'entdecken mécht et eng super Wiel fir explorativ Datenanalyse, Cross-Seling Techniken, Konsument Segmentatioun, a Bildidentifikatioun.
Betruecht de folgende Szenario: Dir sidd an engem Epicerie a gesitt eng onidentifizéiert Uebst déi Dir nach ni gesinn hutt. Dir kënnt einfach déi onbekannt Uebst anescht wéi aner Uebst ënnerscheeden op Basis vun Ären Observatioune vu senger Form, Gréisst oder Faarf.
Onkontrolléiert Maschinn Léieren Algorithmen
Clustering
Clustering ass ouni Zweiwel déi am meeschte verbreet genotzten unsupervised Léier Approche. Dës Approche setzt verbonne Datenartikelen an zoufälleg generéiert Cluster.
Selwer entdeckt en ML Modell all Muster, Ähnlechkeeten an / oder Differenzen an enger onkategoriséierter Datestruktur. E Modell wäert fäeg sinn all natierlech Gruppéierungen oder Klassen an Daten z'entdecken.
Zorte
Et gi verschidde Forme vu Clustering déi benotzt kënne ginn. Loosst d'éischt op déi wichtegst kucken.
- Exklusiv Clustering, heiansdo als "haard" Clustering bekannt, ass eng Zort Gruppéierung an där en eenzegt Stéck Daten zu engem Cluster gehéiert.
- Iwwerlappend Clustering, dacks als "mëll" Clustering bekannt, erlaabt Datenobjeten zu méi wéi engem Cluster a verschiddene Grad ze gehéieren. Ausserdeem kann probabilistesch Clustering benotzt ginn fir "mëll" Clustering oder Dichtestimatiounsproblemer unzegoen, souwéi d'Wahrscheinlechkeet oder d'Wahrscheinlechkeet vun Datenpunkten ze bewäerten, déi zu bestëmmte Cluster gehéieren.
- Eng Hierarchie vu gruppéierten Dateartikel erstellen ass d'Zil vun hierarchesche Clustering, wéi den Numm et seet. Dateartikele ginn dekonstruéiert oder kombinéiert baséiert op der Hierarchie fir Cluster ze generéieren.
Benotz Fäll:
- Anomalie Detektioun:
All Zort vun Outlier an Daten kann mat Clustering festgestallt ginn. Firmen am Transport a Logistik, zum Beispill, kënnen Anomalie Detektioun benotze fir logistesch Behënnerungen ze entdecken oder beschiedegt mechanesch Deeler z'erklären (predictive Maintenance).
Finanzinstituter kënnen d'Technologie benotzen fir betrügeresch Transaktiounen z'entdecken a séier z'äntwerten, potenziell vill Sue spueren. Léiert méi iwwer Abnormalitéiten a Bedruch ze gesinn andeems Dir eise Video kuckt.
- Segmentatioun vu Clienten a Mäert:
Clustering Algorithmen kënnen hëllefe bei der Gruppéierung vu Leit déi ähnlech Charakteristiken hunn a Konsumentenpersounen fir méi effektiv Marketing a geziilte Initiativen kreéieren.
K-Mëttel
K-means ass eng Clustermethod déi och als Partitionéierung oder Segmentatioun bekannt ass. Et trennt d'Datepunkten an eng virbestëmmte Zuel vu Stärekéip bekannt als K.
An der K-Bedeitungsmethod ass K den Input well Dir dem Computer seet wéivill Cluster Dir wëllt an Ären Donnéeën identifizéieren. All Dateartikel gëtt duerno dem nootste Stärekoupzentrum zougewisen, bekannt als Zentroid (schwaarz Punkten am Bild).
Déi lescht déngen als Datespäicherplazen. D'Clustertechnik kann e puer Mol gemaach ginn bis d'Cluster gutt definéiert sinn.
Fuzzy K-bedeit
Fuzzy K-means ass eng Ausdehnung vun der K-means Technik, déi benotzt gëtt fir iwwerlappend Clustering ze maachen. Am Géigesaz zu der K-Bedeitungstechnik weisen fuzzy K-Bedeitungen un datt Datepunkte zu ville Stärekéip mat ënnerschiddleche Grad vun der Proximitéit zu jidderengem gehéieren.
D'Distanz tëscht Datenpunkten an dem Centroid vum Stärekoup gëtt benotzt fir d'Proximitéit ze berechnen. Als Resultat kënnen et Occasiounen sinn wou verschidde Cluster iwwerlappen.
Gaussian Mixture Modeller
Gaussian Mixture Models (GMMs) sinn eng Method déi am probabilistesche Clustering benotzt gëtt. Well d'Moyenne an d'Varianz onbekannt sinn, ginn d'Modeller un datt et eng fix Zuel vu Gaussian Verdeelungen gëtt, déi jidderee e markéierte Stärekoup representéiert.
Fir ze bestëmmen zu wéi engem Cluster e spezifeschen Datepunkt gehéiert, gëtt d'Method wesentlech benotzt.
Hierarchesch Clustering
Déi hierarchesch Clusterstrategie kann mat all Datepunkt un en anere Cluster zougewisen ginn. Déi zwee Cluster, déi am nootste beienee sinn, ginn dann an engem eenzege Cluster gemëscht. Iterativ Fusioun geet weider bis nëmmen ee Stärekoup uewen bleift.
Dës Method ass bekannt als Bottom-up oder Agglomerativ. Wann Dir ufänkt mat all Dateartikelen, déi un deeselwechte Stärekoup verbonne sinn, an dann Spaltungen ausféiert bis all Dateartikel als getrennte Stärekoup zougewisen ass, ass d'Method bekannt als Top-down oder divisiv hierarchesch Clustering.
Apriori Algorithmus
Maart Kuerf Analyse populariséiert apriori Algorithmen, doraus zu verschiddenen Empfehlung Motore fir Musek Plattformen an online Geschäfter.
Si ginn an Transaktiounsdatesets benotzt fir dacks Artikelsets, oder Gruppéierunge vun Artikelen ze fannen, fir d'Wahrscheinlechkeet virauszesoen fir ee Produkt ze konsuméieren baséiert op dem Konsum vun engem aneren.
Zum Beispill, wann ech dem OneRepublic Radio op Spotify mat "Counting Stars" ufänken ze spillen, wäert ee vun deenen anere Lidder op dësem Kanal ganz sécher en Imagine Dragon Song sinn, wéi "Bad Liar."
Dëst baséiert op menge fréiere Nolauschtergewunnechten souwéi den Nolauschtermuster vun aneren. Apriori Methoden zielen Artikelsets mat engem Hashbaum, duerch d'Datetazbreet-éischt duerch.
Dimensionalitéit Reduktioun
Dimensionalitéitsreduktioun ass eng Zort vun oniwwerwaachter Léieren déi eng Sammlung vu Strategien benotze fir d'Zuel vun de Featuren - oder Dimensiounen - an engem Dataset ze minimiséieren. Loosst eis klären.
Et kann verlockend sinn sou vill Donnéeën wéi méiglech ze integréieren wärend Dir Är Dataset fir Maschinnléieren. Verstitt eis net falsch: dës Strategie funktionnéiert gutt well méi Daten normalerweis méi genee Erkenntnisser ginn.
Ugeholl datt d'Donnéeën am N-dimensionalen Raum gespäichert sinn, mat all Feature eng aner Dimensioun. Et kënnen Honnerte vun Dimensiounen sinn wann et vill Daten ass.
Betruecht Excel Spreadsheets, mat Spalten déi Charakteristiken a Reihen representéieren Datenartikelen. Wann et ze vill Dimensiounen, ML Algorithmen vläicht schlecht Leeschtung an Datenvisualiséierung ka schwéier ginn.
Also et mécht et logesch d'Charakteristiken oder Dimensiounen ze limitéieren, a just pertinent Informatioun ze vermëttelen. Dimensiounsreduktioun ass just dat. Et erlaabt eng handhabbar Quantitéit vun Dateninputen ouni d'Integritéit vun der Datesaz ze kompromittéieren.
Haaptkomponentanalyse (PCA)
D'Haaptkomponentanalyse ass eng Dimensiounsreduktioun Approche. Et gëtt benotzt fir d'Zuel vun de Featuren a grousse Datesätz ze minimiséieren, wat zu enger gréisserer Dateeinfachheet resultéiert ouni d'Genauegkeet ofzeschafen.
Datekompressioun gëtt erreecht duerch eng Method bekannt als Feature Extraktioun. Et weist datt Elementer aus dem ursprénglechen Set an en neien, méi klengen gemëscht ginn. Dës nei Eegeschafte sinn als primär Komponenten bekannt.
Natierlech ginn et zousätzlech Algorithmen déi Dir an Ären net iwwerwaachte Léierapplikatiounen benotze kënnt. Déi hei uewen opgezielt si just am meeschte verbreet, dofir gi se méi detailléiert diskutéiert.
Uwendung vun Unsupervised Léieren
- Net iwwerwaacht Léiermethoden gi benotzt fir visuell Perceptiounsaufgaben wéi Objekterkennung.
- Oniwwerwaacht Maschinnléiere gëtt kritesch Aspekter fir medizinesch Imaging Systemer, sou wéi Bildidentifikatioun, Klassifikatioun a Segmentatioun, déi an der Radiologie a Pathologie benotzt ginn fir Patienten séier an zouverlässeg ze diagnostizéieren.
- Net iwwerwaacht Léieren kann hëllefen Datetrends z'identifizéieren déi kënne benotzt ginn fir méi effektiv Cross-Seling Strategien ze kreéieren déi vergaangen Daten iwwer Konsumenteverhalen benotzen. Wärend dem Keessprozess gëtt dëst vun Online Geschäfter benotzt fir déi richteg Add-ons fir Clienten ze proposéieren.
- Oniwwerwaacht Léiermethoden kënnen duerch enorme Volumen vun Daten siften fir Outliers ze fannen. Dës Abnormalitéite kënnen d'Notiz vu falschen Ausrüstung, mënschleche Feeler oder Sécherheetsverletzungen erhéijen.
Problemer mat Onkontrolléiert Léieren
Net iwwerwaacht Léieren ass op verschidde Manéieren attraktiv, vum Potenzial fir wichteg Abléck ze fannen Daten fir d'Vermeidung vun deier Dateetikettéierung Operatiounen. Wéi och ëmmer, et gi verschidde Nodeeler fir dës Strategie ze benotzen fir ze trainéieren Maschinn léieren Modeller déi Dir sollt bewosst sinn. Hei sinn e puer Beispiller.
- Well Inputdaten Etiketten feelen déi als Äntwertschlëssel déngen, kënnen d'Resultater vun onkontrolléierte Léiermodeller manner präzis sinn.
- Net iwwerwaacht Léieren funktionnéiert dacks mat massiven Datesätz, wat d'Computational Komplexitéit erhéijen kann.
- D'Approche erfuerdert d'Ausgabbestätegung vu Mënschen, entweder intern oder extern Spezialisten am Thema vun der Enquête.
- Algorithmen mussen all méiglech Szenario uechter d'Trainingsphase ënnersichen a berechnen, wat e bëssen Zäit dauert.
Konklusioun
Effektiv Dateverbrauch ass de Schlëssel fir e Konkurrenzvirdeel an engem bestëmmte Maart z'etabléieren.
Dir kënnt d'Donnéeën segmentéieren mat onkontrolléierten Maschinnléiere Algorithmen fir d'Astellunge vun Ärem Zilpublikum z'ënnersichen oder ze bestëmmen wéi eng gewësse Infektioun op eng bestëmmte Behandlung reagéiert.
Et gi verschidde praktesch Uwendungen, an Daten Wëssenschaftler, Ingenieuren an Architekten kënnen Iech hëllefen Är Ziler ze definéieren an eenzegaarteg ML Léisunge fir Är Firma z'entwéckelen.
Hannerlooss eng Äntwert