Valvomattomat koneoppimisalgoritmit

Sisällysluettelo[Piilottaa][Näytä]

Mitä on valvomaton koneoppiminen?
Valvomattomat koneoppimisalgoritmit+-
Ohjaamattoman oppimisen soveltaminen
Valvomattomaan oppimiseen liittyvät ongelmat
Yhteenveto

Yksi tärkeimmistä kriteereistä kaikenlaisessa yritystoiminnassa on tiedon tehokas hyödyntäminen. Jossain vaiheessa luotavan tiedon määrä ylittää peruskäsittelyn kapasiteetin.

Siellä koneoppimisalgoritmit tulevat peliin. Tietoa on kuitenkin tutkittava ja tulkittava ennen kuin tämä voi tapahtua. Lyhyesti sanottuna valvomatonta koneoppimista käytetään siihen.

Tässä artikkelissa tutkimme perusteellisesti valvomatonta koneoppimista, mukaan lukien sen algoritmit, käyttötapaukset ja paljon muuta.

Mitä on valvomaton koneoppiminen?

Valvomattomat koneoppimisalgoritmit tunnistavat tietojoukossa malleja, joilla ei ole tunnettuja tai merkittyjä seurauksia. Valvottu koneoppimisalgoritmit on merkitty tuloste.

Tämän eron tunteminen auttaa sinua ymmärtämään, miksi valvomattomia koneoppimismenetelmiä ei voida käyttää regressio- tai luokitteluongelmien ratkaisemiseen, koska et tiedä, mikä tulostiedon arvo/vastaus voi olla. Et voi opettaa algoritmia normaalisti, jos et tiedä arvoa/vastausta.

Lisäksi ohjaamatonta oppimista voidaan käyttää tiedon perusrakenteen tunnistamiseen. Nämä algoritmit havaitsevat piilotetut kuviot tai dataryhmittelyt ilman ihmisen vuorovaikutusta.

Sen kyky havaita tiedon yhtäläisyyksiä ja kontrasteja tekee siitä loistavan valinnan tutkivaan data-analyysiin, ristiinmyyntitekniikoihin, kuluttajien segmentointiin ja kuvan tunnistamiseen.

Harkitse seuraavaa skenaariota: olet ruokakaupassa ja näet tuntemattoman hedelmän, jota et ole koskaan ennen nähnyt. Voit helposti erottaa tuntemattoman hedelmän, joka eroaa muista ympärillä olevista hedelmistä sen muodosta, koosta tai väristä tehtyjen havaintojen perusteella.

Valvomattomat koneoppimisalgoritmit

Clustering

Klusterointi on epäilemättä yleisimmin käytetty ohjaamaton oppimistapa. Tämä lähestymistapa sijoittaa liittyvät tietokohteet satunnaisesti luotuihin klustereihin.

ML-malli itsessään löytää kaikki mallit, yhtäläisyydet ja/tai erot luokittelemattomasta tietorakenteesta. Malli pystyy löytämään tiedosta kaikki luonnolliset ryhmittelyt tai luokat.

Clustering

Tyypit

On olemassa useita klusterointimuotoja, joita voidaan käyttää. Katsotaanpa ensin tärkeimmät.

Eksklusiivinen klusterointi, joka joskus tunnetaan nimellä "kova" klusteri, on ryhmittelytyyppi, jossa yksittäinen tieto kuuluu vain yhteen klusteriin.
Päällekkäinen klusterointi, joka tunnetaan usein "pehmeänä" klusterina, mahdollistaa tietoobjektien kuulumisen useampaan kuin yhteen klusteriin vaihtelevassa määrin. Lisäksi todennäköisyysklusterointia voidaan käyttää "pehmeiden" klusterointi- tai tiheysestimointiongelmien ratkaisemiseen sekä tiettyihin klustereihin kuuluvien datapisteiden todennäköisyyden tai todennäköisyyden arvioimiseen.
Ryhmitettyjen tietokohteiden hierarkian luominen on hierarkkisen klusteroinnin tavoite, kuten nimi osoittaa. Tietokohteet puretaan tai yhdistetään hierarkian perusteella klusterien luomiseksi.

Käytä koteloita:

Anomalian tunnistus:

Kaiken tyyppiset poikkeamat tiedoista voidaan havaita klusteroinnin avulla. Esimerkiksi kuljetus- ja logistiikkayritykset voivat hyödyntää poikkeamien havaitsemista logististen esteiden havaitsemiseksi tai vaurioituneiden mekaanisten osien paljastamiseksi (ennustehuolto).

Rahoituslaitokset voivat käyttää tekniikkaa vilpillisten liiketoimien havaitsemiseen ja nopeaan reagoimiseen, mikä saattaa säästää paljon rahaa. Saat lisätietoja poikkeavuuksien ja petosten havaitsemisesta katsomalla videomme.

Asiakkaiden ja markkinoiden segmentointi:

Klusterointialgoritmit voivat auttaa ryhmittelemään ihmisiä, joilla on samanlaiset ominaisuudet, ja luomaan kuluttajapersoonaa tehokkaampaa markkinointia ja kohdennettuja aloitteita varten.

K-tarkoittaa

K-means on klusterointimenetelmä, joka tunnetaan myös nimellä osiointi tai segmentointi. Se jakaa datapisteet ennalta määrättyyn määrään klustereita, jotka tunnetaan nimellä K.

K-means-menetelmässä K on syöte, koska kerrot tietokoneelle kuinka monta klusteria haluat tunnistaa tiedoistasi. Jokainen tietokohde osoitetaan myöhemmin lähimpään klusterin keskustaan, joka tunnetaan painopisteenä (kuvassa mustat pisteet).

K tarkoittaa

Jälkimmäiset toimivat tiedon tallennustiloina. Klusteritekniikka voidaan tehdä useita kertoja, kunnes klusterit ovat hyvin määriteltyjä.

Sumea K- tarkoittaa

Fuzzy K-means on K-means-tekniikan laajennus, jota käytetään päällekkäisen klusteroinnin tekemiseen. Toisin kuin K-keskiarvotekniikassa, sumeat K-keskiarvot osoittavat, että datapisteet voivat kuulua useisiin klustereihin, joiden läheisyys on erilainen.

Datapisteiden ja klusterin painopisteen välistä etäisyyttä käytetään läheisyyden laskemiseen. Tämän seurauksena voi olla tilanteita, joissa eri klusterit menevät päällekkäin.

Gaussin sekoitusmallit

Gaussin sekoitusmallit (GMM) ovat probabilistisessa klusteroinnissa käytetty menetelmä. Koska keskiarvoa ja varianssia ei tunneta, mallit olettavat, että Gaussin jakaumia on kiinteä määrä, joista jokainen edustaa erillistä klusteria.

Menetelmää käytetään olennaisesti sen määrittämiseen, mihin klusteriin tietty datapiste kuuluu.

Hierarkkinen klusterointi

Hierarkkinen klusterointistrategia voi alkaa siten, että jokainen datapiste on määritetty eri klusteriin. Kaksi lähimpänä toisiaan olevaa klusteria sekoitetaan sitten yhdeksi klusteriksi. Iteratiivinen yhdistäminen jatkuu, kunnes vain yksi klusteri jää huipulle.

Tämä menetelmä tunnetaan alhaalta ylös tai agglomeratiivisena. Jos aloitat kaikilla tietokohdilla, jotka on sidottu samaan klusteriin, ja suoritat sitten jakoja, kunnes jokainen tietokohde on määritetty erilliseksi klusteriksi, menetelmää kutsutaan ylhäältä alas tai jakavaksi hierarkkiseksi klusteriksi.

Apriori -algoritmi

Markkinakori-analyysi suosi apriori-algoritmeja, mikä johti erilaisiin suosituskoneisiin musiikkialustoihin ja verkkokauppoihin.

Niitä käytetään tapahtumatietosarjoissa etsimään usein esiintyviä nimikkeitä tai tuoteryhmiä, jotta voidaan ennustaa yhden tuotteen kulutuksen todennäköisyys toisen kulutuksen perusteella.

Jos esimerkiksi aloitan soittamaan OneRepublicin radiota Spotifyssa kappaleella "Counting Stars", yksi tämän kanavan muista kappaleista on varmasti Imagine Dragon -kappale, kuten "Bad Liar".

Tämä perustuu aikaisempiin kuuntelutottumuksiini sekä muiden kuuntelutottumuksiin. Apriori-menetelmät laskevat alkiojoukot hash-puun avulla, joka kulkee tietojoukon läpi leveys ensin.

Ulottuvuuden pienentäminen

Ulottuvuuden vähentäminen on eräänlaista valvomatonta oppimista, jossa käytetään strategioita minimoidakseen ominaisuuksien – tai ulottuvuuksien – määrän tietojoukossa. Sallikaa meidän selventää.

Voi olla houkuttelevaa sisällyttää mahdollisimman paljon dataa luodessasi tietojoukko koneoppimista varten. Älä ymmärrä meitä väärin: tämä strategia toimii hyvin, koska enemmän tietoa tuottaa yleensä tarkempia tuloksia.

Oletetaan, että tiedot on tallennettu N-ulotteiseen avaruuteen, ja jokainen piirre edustaa eri ulottuvuutta. Mittoja voi olla satoja, jos dataa on paljon.

Harkitse Excel-laskentataulukoita, joissa sarakkeet edustavat ominaisuuksia ja rivit edustavat tietokohteita. Kun ulottuvuuksia on liian monta, ML-algoritmit voivat toimia huonosti ja datan visualisointi voi tulla vaikeaksi.

Siksi on loogista rajoittaa ominaisuuksia tai mittoja ja välittää vain asiaankuuluvaa tietoa. Mittasuhteiden vähentäminen on juuri sitä. Se mahdollistaa hallittavan määrän datasyötteitä vaarantamatta tietojoukon eheyttä.

Pääkomponenttianalyysi (PCA)

Pääkomponenttianalyysi on ulottuvuuden vähentämisen lähestymistapa. Sitä käytetään minimoimaan ominaisuuksien lukumäärä valtavissa tietojoukoissa, mikä lisää tietojen yksinkertaisuutta tarkkuudesta tinkimättä.

Tietojoukon pakkaus suoritetaan menetelmällä, joka tunnetaan nimellä ominaisuuden purkaminen. Se osoittaa, että alkuperäisen sarjan elementit sekoitetaan uudeksi, pienemmäksi. Nämä uudet ominaisuudet tunnetaan pääkomponentteina.

Tietenkin on olemassa lisäalgoritmeja, joita voit käyttää valvomattomissa oppimissovelluksissasi. Yllä luetellut ovat vain yleisimpiä, minkä vuoksi niitä käsitellään tarkemmin.

Ohjaamattoman oppimisen soveltaminen

Ohjaamattomia oppimismenetelmiä käytetään visuaalisen havainnoinnin tehtävissä, kuten esineiden tunnistamisessa.
Valvomaton koneoppiminen antaa kriittisiä näkökohtia lääketieteellisille kuvantamisjärjestelmille, kuten kuvien tunnistamiseen, luokitteluun ja segmentointiin, joita käytetään radiologiassa ja patologiassa potilaiden nopeaan ja luotettavaan diagnosointiin.
Ohjaamaton oppiminen voi auttaa tunnistamaan datatrendejä, joita voidaan käyttää tehokkaampien ristiinmyyntistrategioiden luomiseen käyttämällä aiempia kuluttajien käyttäytymistä koskevia tietoja. Verkkoyritykset käyttävät tätä maksuprosessin aikana oikeiden lisäosien ehdottamiseen asiakkaille.
Valvomattomat oppimismenetelmät voivat seuloa valtavia tietomääriä löytääkseen poikkeavuuksia. Nämä poikkeavuudet voivat herättää huomion laitteiden toimintahäiriöistä, inhimillisestä virheestä tai tietoturvaloukkauksista.

Valvomattomaan oppimiseen liittyvät ongelmat

Ohjaamaton oppiminen on houkuttelevaa monin tavoin, alkaen mahdollisuudesta löytää tärkeitä oivalluksia kalliiden tietojen merkitsemisen välttämiseksi toiminnot. Tämän strategian käyttämisessä harjoitteluun on kuitenkin useita haittoja koneoppimismallit että sinun pitäisi olla tietoinen. Tässä muutamia esimerkkejä.

Koska syöttötiedoista puuttuu vastausavaimia toimivia merkintöjä, ohjaamattomien oppimismallien tulokset voivat olla vähemmän tarkkoja.
Valvomaton oppiminen toimii usein valtavien tietojoukkojen kanssa, mikä voi lisätä laskennan monimutkaisuutta.
Lähestymistapa edellyttää tulosten vahvistusta ihmisiltä, joko sisäisiltä tai ulkoisilta asiantuntijoilta tiedusteluaiheeseen liittyen.
Algoritmien on tutkittava ja laskettava kaikki mahdolliset skenaariot koko koulutusvaiheen ajan, mikä vie jonkin aikaa.

Yhteenveto

Tehokas tiedon hyödyntäminen on avainasemassa kilpailuedun luomisessa tietyillä markkinoilla.

Voit segmentoida tiedot käyttämällä valvomattomia koneoppimisalgoritmeja tutkiaksesi kohdeyleisösi mieltymyksiä tai määrittääksesi, kuinka tietty infektio reagoi tiettyyn hoitoon.

On olemassa useita käytännön sovelluksia, ja tietojen tutkijat, insinöörit ja arkkitehdit voivat auttaa sinua määrittelemään tavoitteesi ja kehittämään ainutlaatuisia ML-ratkaisuja yrityksellesi.

Valvomattomat koneoppimisalgoritmit

Mitä on valvomaton koneoppiminen?