Algoritmi de învățare automată nesupravegheați

Cuprins[Ascunde][Spectacol]

Ce este învățarea automată nesupravegheată?
Algoritmi de învățare automată nesupravegheați+-
Aplicarea învățării nesupravegheate
Probleme cu învățarea nesupravegheată
Concluzie

Unul dintre criteriile principale pentru orice tip de activitate corporativă este utilizarea eficientă a informațiilor. La un moment dat, volumul de date creat depășește capacitatea de procesare de bază.

Aici intră în joc algoritmii de învățare automată. Cu toate acestea, înainte ca toate acestea să se întâmple, informațiile trebuie studiate și interpretate. Pe scurt, pentru asta se folosește învățarea automată nesupravegheată.

În acest articol, vom examina în profunzime învățarea automată nesupravegheată, inclusiv algoritmii, cazurile de utilizare și multe altele.

Ce este învățarea automată nesupravegheată?

Algoritmii de învățare automată nesupravegheați identifică modele dintr-un set de date care nu au o consecință cunoscută sau etichetată. Supravegheat algoritmi de învățare automată au o ieșire etichetată.

Cunoașterea acestei distincții vă ajută să înțelegeți de ce metodele de învățare automată nesupravegheată nu pot fi utilizate pentru a rezolva probleme de regresie sau clasificare, deoarece nu știți care poate fi valoarea/răspunsul pentru datele de ieșire. Nu puteți antrena un algoritm în mod normal dacă nu cunoașteți valoarea/răspunsul.

Mai mult, învățarea nesupravegheată poate fi utilizată pentru a identifica structura fundamentală a datelor. Acești algoritmi detectează modele ascunse sau grupări de date fără a fi nevoie de interacțiune umană.

Capacitatea sa de a detecta asemănări și contraste în informații îl face o alegere excelentă pentru analiza exploratorie a datelor, tehnici de vânzare încrucișată, segmentarea consumatorilor și identificarea imaginilor.

Luați în considerare următorul scenariu: vă aflați într-un magazin alimentar și vedeți un fruct neidentificat pe care nu l-ați mai văzut până acum. Puteți distinge cu ușurință fructul necunoscut diferit de alte fructe din jur pe baza observațiilor dvs. asupra formei, mărimii sau culorii sale.

Algoritmi de învățare automată nesupravegheați

clustering

Clusteringul este, fără îndoială, cea mai utilizată abordare de învățare nesupravegheată. Această abordare plasează elementele de date asociate în clustere generate aleatoriu.

În sine, un model ML descoperă orice tipare, asemănări și/sau diferențe într-o structură de date necategorizată. Un model va putea descoperi orice grupări sau clase naturale în date.

clustering

Tipuri de

Există mai multe forme de grupare care pot fi utilizate. Să ne uităm mai întâi la cele mai importante.

Gruparea exclusivă, cunoscută uneori sub denumirea de clustering „hard”, este un tip de grupare în care o singură bucată de date aparține unui singur cluster.
Gruparea suprapusă, cunoscută adesea sub denumirea de clustering „soft”, permite obiectelor de date să aparțină mai mult de un cluster în grade diferite. În plus, clustering-ul probabilistic poate fi folosit pentru a aborda problemele de clustering „soft” sau de estimare a densității, precum și pentru a evalua probabilitatea sau probabilitatea ca punctele de date să aparțină anumitor clustere.
Crearea unei ierarhii de elemente de date grupate este scopul grupării ierarhice, după cum indică numele. Elementele de date sunt deconstruite sau combinate pe baza ierarhiei pentru a genera clustere.

Cazuri de utilizare:

Detectarea anomaliilor:

Orice tip de valori aberante în date poate fi detectat folosind clustering. Companiile din transport și logistică, de exemplu, pot utiliza detectarea anomaliilor pentru a descoperi impedimente logistice sau pentru a dezvălui piesele mecanice deteriorate (întreținere predictivă).

Instituțiile financiare pot folosi tehnologia pentru a detecta tranzacțiile frauduloase și pentru a răspunde rapid, economisind potențial o mulțime de bani. Aflați mai multe despre depistarea anomaliilor și fraudei vizionând videoclipul nostru.

Segmentarea clienților și a piețelor:

Algoritmii de grupare pot ajuta la gruparea persoanelor care au caracteristici similare și la crearea de persoane pentru consumatori pentru marketing mai eficient și inițiative direcționate.

K-înseamnă

K-means este o metodă de grupare care este cunoscută și sub numele de partiționare sau segmentare. Împarte punctele de date într-un număr predeterminat de clustere cunoscute sub numele de K.

În metoda K-means, K este intrarea, deoarece îi spuneți computerului câte grupuri doriți să identificați în datele dvs. Fiecare element de date este atribuit ulterior celui mai apropiat centru al clusterului, cunoscut sub numele de centroid (puncte negre din imagine).

K Înseamnă

Acestea din urmă servesc drept spații de stocare a datelor. Tehnica grupării se poate face de mai multe ori până când clusterele sunt bine definite.

Fuzzy K-mijloace

Fuzzy K-means este o extensie a tehnicii K-means, care este folosită pentru a face clustering suprapus. Spre deosebire de tehnica K-means, fuzzy K-means indică faptul că punctele de date pot aparține mai multor grupuri cu grade diferite de proximitate față de fiecare.

Distanța dintre punctele de date și centroidul clusterului este utilizată pentru a calcula proximitatea. Ca rezultat, pot exista ocazii în care diferite grupuri se suprapun.

Modele de amestec gaussiene

Modelele Gaussian Mixture (GMM) sunt o metodă utilizată în clustering probabilistic. Deoarece media și varianța sunt necunoscute, modelele presupun că există un număr fix de distribuții gaussiene, fiecare reprezentând un cluster distinct.

Pentru a determina cărui cluster îi aparține un anumit punct de date, metoda este utilizată în esență.

Clusterizarea ierarhică

Strategia de grupare ierarhică poate începe cu fiecare punct de date alocat unui cluster diferit. Cele două grupuri care sunt cele mai apropiate unul de altul sunt apoi amestecate într-un singur cluster. Fuziunea iterativă continuă până când un singur cluster rămâne în partea de sus.

Această metodă este cunoscută ca de jos în sus sau aglomerativă. Dacă începeți cu toate elementele de date legate de același cluster și apoi efectuați împărțiri până când fiecare element de date este atribuit ca un cluster separat, metoda este cunoscută sub denumirea de grupare ierarhică de sus în jos sau divizionară.

Algoritmul Apriori

Analiza coșului de piață a popularizat algoritmii apriori, rezultând diverse motoare de recomandare pentru platformele muzicale și magazinele online.

Ele sunt utilizate în seturile de date tranzacționale pentru a găsi seturi de articole frecvente, sau grupări de articole, pentru a prezice probabilitatea de a consuma un produs pe baza consumului altuia.

De exemplu, dacă încep să redau radioul OneRepublic pe Spotify cu „Counting Stars”, una dintre celelalte melodii de pe acest canal va fi cu siguranță o melodie Imagine Dragon, cum ar fi „Bad Liar”.

Acest lucru se bazează pe obiceiurile mele anterioare de ascultare, precum și pe modelele de ascultare ale altora. Metodele apriori numără seturile de articole folosind un arbore hash, parcurgând setul de date mai întâi pe lățimea.

Reducerea dimensionalității

Reducerea dimensionalității este un fel de învățare nesupravegheată care utilizează o colecție de strategii pentru a minimiza numărul de caracteristici – sau dimensiuni – dintr-un set de date. Permite-ne să clarificăm.

Poate fi tentant să încorporați cât mai multe date posibil în timp ce vă creați set de date pentru învățarea automată. Nu ne înțelegeți greșit: această strategie funcționează bine, deoarece mai multe date oferă de obicei constatări mai precise.

Să presupunem că datele sunt stocate în spațiul N-dimensional, fiecare caracteristică reprezentând o dimensiune diferită. Ar putea exista sute de dimensiuni dacă există o mulțime de date.

Luați în considerare foile de calcul Excel, cu coloane care reprezintă caracteristici și rânduri care reprezintă elemente de date. Când există prea multe dimensiuni, algoritmii ML ar putea funcționa slab și vizualizarea datelor poate deveni dificil.

Prin urmare, este logic limitarea caracteristicilor sau dimensiunilor și transmiterea doar a informațiilor pertinente. Reducerea dimensionalității este doar atât. Permite o cantitate gestionabilă de date intrări fără a compromite integritatea setului de date.

Analiza componentelor principale (PCA)

Analiza componentelor principale este o abordare de reducere a dimensionalității. Este folosit pentru a minimiza numărul de caracteristici din seturi de date uriașe, rezultând o simplitate mai mare a datelor fără a sacrifica acuratețea.

Comprimarea setului de date este realizată printr-o metodă cunoscută sub denumirea de extragere a caracteristicilor. Indică faptul că elementele din setul original sunt amestecate într-unul nou, mai mic. Aceste noi trăsături sunt cunoscute ca componente primare.

Desigur, există algoritmi suplimentari pe care îi puteți folosi în aplicațiile de învățare nesupravegheate. Cele enumerate mai sus sunt doar cele mai răspândite, motiv pentru care sunt discutate mai detaliat.

Aplicarea învățării nesupravegheate

Metodele de învățare nesupravegheate sunt utilizate pentru sarcini de percepție vizuală, cum ar fi recunoașterea obiectelor.
Învățarea automată nesupravegheată oferă aspecte critice sistemelor de imagistică medicală, cum ar fi identificarea, clasificarea și segmentarea imaginilor, care sunt utilizate în radiologie și patologie pentru a diagnostica pacienții rapid și fiabil.
Învățarea nesupravegheată poate ajuta la identificarea tendințelor de date care pot fi utilizate pentru a crea strategii de vânzare încrucișată mai eficiente, utilizând datele anterioare despre comportamentul consumatorilor. În timpul procesului de finalizare a achiziției, acesta este folosit de companiile online pentru a sugera suplimentele potrivite clienților.
Metodele de învățare nesupravegheate pot analiza volume enorme de date pentru a găsi valori aberante. Aceste anomalii pot semnala funcționarea defectuoasă a echipamentului, greșelile umane sau încălcările de securitate.

Probleme cu învățarea nesupravegheată

Învățarea nesupravegheată este atrăgătoare într-o varietate de moduri, de la potențialul de a găsi perspective importante asupra date pentru a evita etichetarea costisitoare a datelor operațiuni. Cu toate acestea, există mai multe dezavantaje în utilizarea acestei strategii pentru antrenament modele de învățare automată de care ar trebui să fii conștient. Aici sunt cateva exemple.

Deoarece datele de intrare nu dispun de etichete care să servească drept chei de răspuns, rezultatele modelelor de învățare nesupravegheate ar putea fi mai puțin precise.
Învățarea nesupravegheată funcționează frecvent cu seturi de date masive, ceea ce poate crește complexitatea computațională.
Abordarea necesită confirmarea rezultatelor de către oameni, fie specialiști interni sau externi în subiectul anchetei.
Algoritmii trebuie să examineze și să calculeze fiecare scenariu posibil pe parcursul fazei de antrenament, care durează ceva timp.

Concluzie

Utilizarea eficientă a datelor este cheia pentru a stabili un avantaj competitiv pe o anumită piață.

Puteți segmenta datele folosind algoritmi de învățare automată nesupravegheați pentru a examina preferințele publicului țintă sau pentru a determina modul în care o anumită infecție răspunde la un anumit tratament.

Există mai multe aplicații practice și oamenii de știință de date, inginerii și arhitecții vă pot ajuta să vă definiți obiectivele și să dezvoltați soluții ML unice pentru compania dvs.

Algoritmi de învățare automată nesupravegheați

Ce este învățarea automată nesupravegheată?