Algorismes d'aprenentatge automàtic no supervisats

Taula de continguts[Amaga][Espectacle]

Què és l'aprenentatge automàtic no supervisat?
Algoritmes d'aprenentatge automàtic no supervisat+-
Aplicació de l'aprenentatge no supervisat
Problemes amb l'aprenentatge no supervisat
Conclusió

Un dels criteris principals per a qualsevol tipus d'activitat corporativa és l'ús efectiu de la informació. En algun moment, el volum de dades creades supera la capacitat de processament bàsic.

Aquí és on entren en joc els algorismes d'aprenentatge automàtic. Tanmateix, abans que això pugui passar, la informació s'ha d'estudiar i interpretar. En poques paraules, és per a què s'utilitza l'aprenentatge automàtic no supervisat.

En aquest article, examinarem en profunditat l'aprenentatge automàtic no supervisat, inclosos els seus algorismes, casos d'ús i molt més.

Què és l'aprenentatge automàtic no supervisat?

Els algorismes d'aprenentatge automàtic no supervisats identifiquen patrons en un conjunt de dades que no tenen una conseqüència coneguda o etiquetada. Supervisat algorismes d'aprenentatge automàtic tenen una sortida etiquetada.

Conèixer aquesta distinció us ajuda a entendre per què els mètodes d'aprenentatge automàtic no supervisats no es poden utilitzar per resoldre problemes de regressió o classificació, ja que no sabeu quin pot ser el valor/resposta de les dades de sortida. No podeu entrenar un algorisme amb normalitat si no coneixeu el valor/resposta.

A més, l'aprenentatge no supervisat es pot utilitzar per identificar l'estructura fonamental de les dades. Aquests algorismes detecten patrons o agrupacions de dades ocults sense necessitat d'interacció humana.

La seva capacitat per detectar similituds i contrastos en la informació el converteix en una opció fantàstica per a l'anàlisi exploratòria de dades, tècniques de venda creuada, segmentació de consumidors i identificació d'imatges.

Penseu en el següent escenari: esteu en una botiga de queviures i veus una fruita no identificada que mai abans has vist. Podeu distingir fàcilment la fruita desconeguda diferent d'altres fruites del voltant segons les vostres observacions de la seva forma, mida o color.

Algoritmes d'aprenentatge automàtic no supervisat

Clustering

El clúster és, sens dubte, l'enfocament d'aprenentatge no supervisat més utilitzat. Aquest enfocament posa els elements de dades relacionats en clústers generats aleatòriament.

Per si mateix, un model de ML descobreix patrons, semblances i/o diferències en una estructura de dades no categoritzada. Un model podrà descobrir qualsevol agrupació o classe natural a les dades.

Clustering

Tipus

Hi ha diverses formes de agrupació que es poden utilitzar. Vegem primer els més importants.

L'agrupament exclusiu, de vegades conegut com a clúster "dur", és un tipus d'agrupació en què una única peça de dades pertany a un sol clúster.
La superposició de clúster, sovint coneguda com a agrupació "suau", permet que els objectes de dades pertanyin a més d'un clúster en diferents graus. A més, la agrupació probabilística es pot utilitzar per abordar problemes d'estimació de densitat o agrupació "suau", així com per avaluar la probabilitat o probabilitat que els punts de dades pertanyin a determinats clústers.
La creació d'una jerarquia d'elements de dades agrupats és l'objectiu de la agrupació jeràrquica, com el seu nom indica. Els elements de dades es deconstrueixen o es combinen en funció de la jerarquia per generar clústers.

Casos d'ús:

Detecció d'anomalies:

Qualsevol tipus de valor atípic en les dades es pot detectar mitjançant l'agrupació. Les empreses de transport i logística, per exemple, poden utilitzar la detecció d'anomalies per descobrir impediments logístics o revelar peces mecàniques danyades (manteniment predictiu).

Les institucions financeres poden utilitzar la tecnologia per detectar transaccions fraudulentes i respondre ràpidament, estalviant potencialment molts diners. Obtén més informació sobre com detectar anomalies i fraus mirant el nostre vídeo.

Segmentació de clients i mercats:

Els algorismes d'agrupament poden ajudar a agrupar persones que tenen característiques similars i a crear persones de consumidors per a un màrqueting més efectiu i iniciatives dirigides.

K-Mitjans

K-means és un mètode d'agrupació que també es coneix com a partició o segmentació. Divideix els punts de dades en un nombre predeterminat de clústers coneguts com a K.

En el mètode K-means, K és l'entrada, ja que dieu a l'ordinador quants clústers voleu identificar a les vostres dades. Cada element de dades s'assigna posteriorment al centre del clúster més proper, conegut com a centroide (punts negres a la imatge).

K vol dir

Aquests últims serveixen com a espais d'emmagatzematge de dades. La tècnica de agrupació es pot fer nombroses vegades fins que els clústers estiguin ben definits.

K-means difusos

Fuzzy K-means és una extensió de la tècnica K-means, que s'utilitza per fer agrupacions superposades. A diferència de la tècnica de K-means, els K-means difusos indiquen que els punts de dades poden pertànyer a molts clústers amb diferents graus de proximitat a cadascun.

La distància entre els punts de dades i el centroide del clúster s'utilitza per calcular la proximitat. Com a resultat, hi pot haver ocasions en què diversos clústers es superposen.

Models de mescles gaussianes

Els models de mescles gaussianes (GMM) són un mètode utilitzat en l'agrupació probabilística. Com que la mitjana i la variància són desconegudes, els models assumeixen que hi ha un nombre fix de distribucions gaussianes, cadascuna representant un clúster diferent.

Per determinar a quin clúster pertany un punt de dades específic, s'utilitza bàsicament el mètode.

Clúster jeràrquic

L'estratègia de agrupació jeràrquica pot començar amb cada punt de dades assignat a un clúster diferent. Els dos grups més propers l'un a l'altre es barregen en un únic clúster. La fusió iterativa continua fins que només queda un clúster a la part superior.

Aquest mètode es coneix com de baix a dalt o aglomeratiu. Si comenceu amb tots els elements de dades vinculats al mateix clúster i després feu divisions fins que cada element de dades s'assigni com a clúster independent, el mètode es coneix com a agrupació jeràrquica de dalt a baix o divisió.

Algorisme a priori

L'anàlisi de cistella de mercat va popularitzar els algorismes a priori, donant lloc a diversos motors de recomanació per a plataformes de música i botigues en línia.

S'utilitzen en conjunts de dades transaccionals per trobar conjunts d'articles freqüents, o agrupacions d'articles, per tal de predir la probabilitat de consumir un producte en funció del consum d'un altre.

Per exemple, si començo a reproduir la ràdio d'OneRepublic a Spotify amb "Counting Stars", una de les altres cançons d'aquest canal serà sens dubte una cançó d'Imagine Dragon, com ara "Bad Liar".

Això es basa en els meus hàbits d'escolta anteriors, així com en els patrons d'escolta dels altres. Els mètodes a priori compten els conjunts d'elements mitjançant un arbre hash, travessant primer el conjunt de dades.

Reducció de la dimensionalitat

La reducció de la dimensionalitat és una mena d'aprenentatge no supervisat que utilitza una col·lecció d'estratègies per minimitzar el nombre de funcions (o dimensions) en un conjunt de dades. Permeteu-nos aclarir.

Pot ser temptador incorporar tantes dades com sigui possible mentre es crea el vostre conjunt de dades per a l'aprenentatge automàtic. No ens enganyeu: aquesta estratègia funciona bé, ja que més dades acostumen a produir resultats més precisos.

Suposem que les dades s'emmagatzemen a l'espai N-dimensional, amb cada característica que representa una dimensió diferent. Pot haver-hi centenars de dimensions si hi ha moltes dades.

Penseu en els fulls de càlcul d'Excel, amb columnes que representen característiques i files que representen elements de dades. Quan hi ha massa dimensions, els algorismes de ML poden funcionar malament i visualització de dades pot arribar a ser difícil.

Per tant, és lògic limitar les característiques o dimensions i transmetre només la informació pertinent. La reducció de la dimensionalitat és només això. Permet una quantitat manejable d'entrades de dades sense comprometre la integritat del conjunt de dades.

Anàlisi de components principals (PCA)

L'anàlisi de components principals és un enfocament de reducció de la dimensionalitat. S'utilitza per minimitzar el nombre de funcions en grans conjunts de dades, donant com a resultat una major simplicitat de dades sense sacrificar la precisió.

La compressió del conjunt de dades s'aconsegueix mitjançant un mètode conegut com a extracció de característiques. Indica que els elements del conjunt original es barregen en un de nou més petit. Aquests nous trets es coneixen com a components primaris.

Per descomptat, hi ha algorismes addicionals que podeu utilitzar a les vostres aplicacions d'aprenentatge no supervisat. Les enumerades anteriorment són només les més freqüents, per això es comenten amb més detall.

Aplicació de l'aprenentatge no supervisat

Els mètodes d'aprenentatge no supervisats s'utilitzen per a tasques de percepció visual com ara el reconeixement d'objectes.
L'aprenentatge automàtic no supervisat ofereix aspectes crítics als sistemes d'imatge mèdica, com ara la identificació, classificació i segmentació d'imatges, que s'utilitzen en radiologia i patologia per diagnosticar pacients de manera ràpida i fiable.
L'aprenentatge no supervisat pot ajudar a identificar tendències de dades que es poden utilitzar per crear estratègies de venda creuada més efectives utilitzant dades anteriors sobre el comportament del consumidor. Durant el procés de pagament, les empreses en línia l'utilitzen per suggerir els complements adequats als clients.
Els mètodes d'aprenentatge no supervisats poden filtrar enormes volums de dades per trobar valors atípics. Aquestes anomalies poden provocar un avís de mal funcionament de l'equip, error humà o bretxes de seguretat.

Problemes amb l'aprenentatge no supervisat

L'aprenentatge no supervisat és atractiu de diverses maneres, des de la possibilitat de trobar coneixements importants sobre dades per evitar costosos etiquetatges de dades operacions. Tanmateix, hi ha diversos inconvenients en utilitzar aquesta estratègia per entrenar models d’aprenentatge automàtic que hauries de ser conscient. Aquí teniu alguns exemples.

Com que les dades d'entrada no tenen etiquetes que serveixin com a claus de resposta, els resultats dels models d'aprenentatge no supervisats podrien ser menys precisos.
L'aprenentatge no supervisat sovint funciona amb conjunts de dades massius, cosa que pot augmentar la complexitat computacional.
L'enfocament requereix la confirmació de la sortida per part dels humans, ja siguin especialistes interns o externs en el tema de la investigació.
Els algorismes han d'examinar i calcular tots els escenaris possibles al llarg de la fase d'entrenament, que triga un temps.

Conclusió

L'ús eficaç de les dades és la clau per establir un avantatge competitiu en un mercat determinat.

Podeu segmentar les dades mitjançant algorismes d'aprenentatge automàtic no supervisats per examinar les preferències del vostre públic objectiu o per determinar com respon una determinada infecció a un tractament concret.

Hi ha diverses aplicacions pràctiques, i científics de dades, enginyers i arquitectes us poden ajudar a definir els vostres objectius i desenvolupar solucions ML úniques per a la vostra empresa.

Algoritmes d'aprenentatge automàtic no supervisat

Algorismes d'aprenentatge automàtic no supervisats

Què és l'aprenentatge automàtic no supervisat?