Kazalo[Skrij][Pokaži]
Eno od glavnih meril za vsako vrsto dejavnosti podjetja je učinkovita uporaba informacij. Na neki točki količina ustvarjenih podatkov preseže zmogljivost osnovne obdelave.
Tu pridejo v poštev algoritmi strojnega učenja. Toda preden se kaj od tega lahko zgodi, je treba informacije preučiti in interpretirati. Na kratko, za to se uporablja nenadzorovano strojno učenje.
V tem članku bomo poglobljeno preučili nenadzorovano strojno učenje, vključno z njegovimi algoritmi, primeri uporabe in še veliko več.
Kaj je nenadzorovano strojno učenje?
Nenadzorovani algoritmi strojnega učenja prepoznajo vzorce v naboru podatkov, ki nimajo znanih ali označenih posledic. Nadzorovano algoritmi strojnega učenja imajo označen izhod.
Poznavanje te razlike vam pomaga razumeti, zakaj nenadzorovanih metod strojnega učenja ni mogoče uporabiti za reševanje težav z regresijo ali klasifikacijo, saj ne veste, kakšna je lahko vrednost/odgovor za izhodne podatke. Ne morete normalno trenirati algoritma, če ne poznate vrednosti/odgovora.
Poleg tega je mogoče nenadzorovano učenje uporabiti za identifikacijo temeljne strukture podatkov. Ti algoritmi zaznajo skrite vzorce ali skupine podatkov brez potrebe po človeški interakciji.
Zaradi njegove zmožnosti zaznavanja podobnosti in nasprotij v informacijah je odlična izbira za raziskovalno analizo podatkov, tehnike navzkrižne prodaje, segmentacijo potrošnikov in identifikacijo slik.
Razmislite o naslednjem scenariju: ste v trgovini z živili in vidite neznan sadež, ki ga še niste videli. Na podlagi svojih opazovanj njegove oblike, velikosti ali barve lahko zlahka ločite neznani sadež od drugega sadja okoli.
Nenadzorovani algoritmi strojnega učenja
Grozdenje
Grozdenje je nedvomno najpogosteje uporabljen pristop nenadzorovanega učenja. Ta pristop postavi povezane podatke v naključno ustvarjene gruče.
Model ML sam po sebi odkrije vse vzorce, podobnosti in/ali razlike v nekategorizirani strukturi podatkov. Model bo lahko odkril vse naravne skupine ali razrede v podatkih.
Vrste
Obstaja več oblik združevanja v gruče, ki jih je mogoče uporabiti. Najprej si poglejmo najpomembnejše.
- Izključno združevanje v gruče, včasih znano kot »trdo« združevanje v gruče, je vrsta združevanja, pri katerem en sam del podatkov pripada samo eni gruči.
- Prekrivajoče se gručevanje, pogosto znano kot »mehko« gručevanje, omogoča, da podatkovni objekti v različni meri pripadajo več kot eni gruči. Poleg tega se lahko verjetnostno združevanje v gruče uporablja za reševanje težav z "mehkim" združevanjem v gruče ali ocenjevanjem gostote, kot tudi za oceno verjetnosti ali verjetnosti, da podatkovne točke pripadajo določenim grozdom.
- Ustvarjanje hierarhije združenih podatkovnih postavk je cilj hierarhičnega združevanja v gruče, kot pove že ime. Podatkovne postavke se dekonstruirajo ali združijo na podlagi hierarhije, da se ustvarijo gruče.
Primeri uporabe:
- Odkrivanje nepravilnosti:
Z združevanjem v gruče je mogoče zaznati kakršno koli izstopajočo vrednost v podatkih. Podjetja v transportu in logistiki lahko na primer uporabijo odkrivanje nepravilnosti, da odkrijejo logistične ovire ali razkrijejo poškodovane mehanske dele (prediktivno vzdrževanje).
Finančne institucije lahko uporabijo tehnologijo za odkrivanje goljufivih transakcij in hiter odziv, s čimer lahko prihranijo veliko denarja. Izvedite več o odkrivanju nepravilnosti in goljufij z ogledom našega videa.
- Segmentacija kupcev in trgov:
Algoritmi združevanja v skupine lahko pomagajo pri združevanju ljudi s podobnimi lastnostmi in ustvarjanju osebnosti potrošnikov za učinkovitejše trženje in ciljno usmerjene pobude.
K-Pomeni
K-means je metoda združevanja v gruče, ki je znana tudi kot particioniranje ali segmentacija. Podatkovne točke razdeli na vnaprej določeno število skupin, znanih kot K.
Pri metodi K-means je K vhod, saj računalniku poveste, koliko gruč želite identificirati v svojih podatkih. Vsaka podatkovna postavka je nato dodeljena najbližjemu središču gruče, znanemu kot centroid (črne pike na sliki).
Slednji služijo kot prostor za shranjevanje podatkov. Tehniko združevanja v grozde je mogoče izvesti večkrat, dokler niso grozdi dobro definirani.
Mehka K-sredstva
Fuzzy K-means je razširitev tehnike K-means, ki se uporablja za prekrivajoče se združevanje v gruče. Za razliko od tehnike K-povprečij, mehka K-povprečja kažejo, da lahko podatkovne točke pripadajo številnim skupinam z različnimi stopnjami bližine vsaki.
Razdalja med podatkovnimi točkami in središčem gruče se uporablja za izračun bližine. Posledično se lahko zgodi, da se različni grozdi prekrivajo.
Gaussovi mešani modeli
Gaussovi mešani modeli (GMM) so metoda, ki se uporablja pri verjetnostnem združevanju v gruče. Ker povprečje in varianca nista znani, modeli predpostavljajo, da obstaja določeno število Gaussovih porazdelitev, od katerih vsaka predstavlja ločeno skupino.
Za določitev, kateri gruči pripada določena podatkovna točka, se v bistvu uporablja metoda.
Hierarhično združevanje
Strategija hierarhičnega združevanja v gruče se lahko začne z vsako podatkovno točko, ki je dodeljena drugi gruči. Dva grozda, ki sta najbližje drug drugemu, se nato združita v en sam grozd. Iterativno združevanje se nadaljuje, dokler na vrhu ne ostane samo ena gruča.
Ta metoda je znana kot metoda od spodaj navzgor ali aglomerativna. Če začnete z vsemi podatkovnimi postavkami, ki so vezane na isto gručo, in nato izvajate delitve, dokler ni vsaka podatkovna postavka dodeljena kot ločena gruča, je metoda znana kot hierarhično združevanje od zgoraj navzdol ali razdelitveno hierarhično združevanje.
Apriorijev algoritem
Analiza tržne košarice je popularizirala apriorne algoritme, kar je povzročilo različne mehanizme priporočil za glasbene platforme in spletne trgovine.
Uporabljajo se v transakcijskih naborih podatkov za iskanje pogostih naborov predmetov ali skupin predmetov, da bi predvideli verjetnost porabe enega izdelka na podlagi porabe drugega.
Na primer, če začnem predvajati radio OneRepublic na Spotifyju s »Counting Stars«, bo ena od drugih pesmi na tem kanalu zagotovo pesem Imagine Dragon, kot je »Bad Liar«.
To temelji na mojih prejšnjih poslušalskih navadah in vzorcih poslušanja drugih. Apriorne metode štejejo nabore elementov z uporabo zgoščenega drevesa, pri čemer najprej prečkajo nabor podatkov v širino.
Zmanjšanje dimenzij
Zmanjšanje dimenzionalnosti je neke vrste nenadzorovano učenje, ki uporablja zbirko strategij za zmanjšanje števila funkcij – ali dimenzij – v nizu podatkov. Dovolite nam, da pojasnimo.
Lahko je skušnjava vključiti čim več podatkov med ustvarjanje svojega nabor podatkov za strojno učenje. Ne razumite nas narobe: ta strategija dobro deluje, saj več podatkov običajno prinese natančnejše ugotovitve.
Predpostavimo, da so podatki shranjeni v N-dimenzionalnem prostoru, pri čemer vsaka značilnost predstavlja drugo dimenzijo. Če je podatkov veliko, je lahko na stotine dimenzij.
Razmislite o Excelovih preglednicah s stolpci, ki predstavljajo značilnosti, in vrsticami, ki predstavljajo podatkovne postavke. Če je dimenzij preveč, lahko algoritmi ML delujejo slabo in vizualizacija podatkov lahko postane težko.
Zato je logično omejiti značilnosti ali dimenzije in posredovati samo ustrezne informacije. Zmanjšanje dimenzij je prav to. Omogoča obvladljivo količino vnosov podatkov brez ogrožanja celovitosti nabora podatkov.
Analiza glavne komponente (PCA)
Analiza glavnih komponent je pristop zmanjševanja dimenzij. Uporablja se za zmanjšanje števila funkcij v ogromnih nizih podatkov, kar ima za posledico večjo preprostost podatkov brez žrtvovanja natančnosti.
Stiskanje nabora podatkov se izvede z metodo, znano kot ekstrakcija značilnosti. Označuje, da so elementi iz prvotnega nabora pomešani v novega, manjšega. Te nove lastnosti so znane kot primarne komponente.
Seveda obstajajo dodatni algoritmi, ki jih lahko uporabite v aplikacijah za nenadzorovano učenje. Zgoraj našteti so le najbolj razširjeni, zato jih podrobneje obravnavamo.
Uporaba nenadzorovanega učenja
- Nenadzorovane učne metode se uporabljajo za naloge vizualnega zaznavanja, kot je prepoznavanje predmetov.
- Nenadzorovano strojno učenje daje kritične vidike sistemom medicinskega slikanja, kot so identifikacija slike, klasifikacija in segmentacija, ki se uporabljajo v radiologiji in patologiji za hitro in zanesljivo diagnosticiranje bolnikov.
- Nenadzorovano učenje lahko pomaga prepoznati podatkovne trende, ki jih je mogoče uporabiti za ustvarjanje učinkovitejših strategij navzkrižne prodaje z uporabo preteklih podatkov o vedenju potrošnikov. Med postopkom nakupa to uporabljajo spletna podjetja, da strankam predlagajo prave dodatke.
- Nenadzorovane učne metode lahko presejejo ogromne količine podatkov, da bi našli odstopanja. Te nenormalnosti lahko povzročijo napako v delovanju opreme, človeško napako ali kršitve varnosti.
Težave z nenadzorovanim učenjem
Nenadzorovano učenje je privlačno na različne načine, od možnosti iskanja pomembnih vpogledov v podatkov, da bi se izognili dragemu označevanju podatkov operacije. Vendar pa obstaja več pomanjkljivosti pri uporabi te strategije za usposabljanje modeli strojnega učenja ki bi se jih morali zavedati. Tukaj je nekaj primerov.
- Ker vhodni podatki nimajo oznak, ki bi služile kot odzivni ključi, bi lahko bili rezultati nenadzorovanih učnih modelov manj natančni.
- Učenje brez nadzora pogosto deluje z ogromnimi nabori podatkov, kar lahko poveča računsko kompleksnost.
- Pristop zahteva potrditev rezultatov s strani ljudi, notranjih ali zunanjih strokovnjakov za predmet poizvedbe.
- Algoritmi morajo preučiti in izračunati vse možne scenarije v fazi usposabljanja, ki traja nekaj časa.
zaključek
Učinkovita uporaba podatkov je ključna za vzpostavitev konkurenčne prednosti na določenem trgu.
Podatke lahko segmentirate z uporabo nenadzorovanih algoritmov strojnega učenja, da preučite preference vaše ciljne publike ali ugotovite, kako se določena okužba odziva na določeno zdravljenje.
Obstaja več praktičnih aplikacij in podatkovni znanstveniki, inženirji in arhitekti vam lahko pomagajo pri definiranju vaših ciljev in razvoju edinstvenih rešitev ML za vaše podjetje.
Pustite Odgovori