Jedným z primárnych kritérií pre akýkoľvek typ podnikovej činnosti je efektívne využitie informácií. V určitom okamihu objem vytvorených dát presahuje kapacitu základného spracovania.
To je miesto, kde vstupujú do hry algoritmy strojového učenia. Predtým, ako sa niečo z toho môže stať, je však potrebné informácie preštudovať a interpretovať. Stručne povedané, na to sa používa strojové učenie bez dozoru.
V tomto článku podrobne preskúmame strojové učenie bez dozoru vrátane jeho algoritmov, prípadov použitia a oveľa viac.
Čo je strojové učenie bez dozoru?
Algoritmy strojového učenia bez dozoru identifikujú vzory v súbore údajov, ktoré nemajú známy alebo označený následok. Pod dohľadom algoritmy strojového učenia majú označený výstup.
Poznanie tohto rozdielu vám pomôže pochopiť, prečo nemožno metódy strojového učenia bez dozoru použiť na riešenie problémov s regresiou alebo klasifikáciou, pretože neviete, aká môže byť hodnota/odpoveď pre výstupné údaje. Algoritmus nemôžete normálne trénovať, ak nepoznáte hodnotu/odpoveď.
Okrem toho možno na identifikáciu základnej štruktúry údajov použiť učenie bez dozoru. Tieto algoritmy zisťujú skryté vzory alebo zoskupenia údajov bez potreby ľudskej interakcie.
Jeho schopnosť odhaliť podobnosti a kontrasty v informáciách z neho robí skvelú voľbu pre prieskumnú analýzu údajov, techniky krížového predaja, segmentáciu spotrebiteľov a identifikáciu obrázkov.
Zvážte nasledujúci scenár: ste v obchode s potravinami a vidíte neidentifikované ovocie, ktoré ste nikdy predtým nevideli. Neznáme ovocie môžete ľahko rozlíšiť od iného ovocia v okolí na základe pozorovania jeho tvaru, veľkosti alebo farby.
Algoritmy strojového učenia bez dozoru
zhlukovaniu
Klastrovanie je bezpochyby najpoužívanejším prístupom učenia bez dozoru. Tento prístup vkladá súvisiace dátové položky do náhodne generovaných zhlukov.
Model ML sám o sebe zisťuje akékoľvek vzory, podobnosti a/alebo rozdiely v nekategorizovanej dátovej štruktúre. Model bude schopný objaviť akékoľvek prirodzené zoskupenia alebo triedy v údajoch.
Typy
Existuje niekoľko foriem klastrovania, ktoré možno použiť. Pozrime sa najskôr na tie najdôležitejšie.
- Exkluzívne klastrovanie, niekedy známe ako „tvrdé“ klastrovanie, je typ zoskupovania, v ktorom jeden údaj patrí len do jedného klastra.
- Prekrývajúce sa klastrovanie, často známe ako „mäkké“ klastrovanie, umožňuje dátovým objektom v rôznej miere patriť do viac ako jedného klastra. Okrem toho možno pravdepodobnostné zhlukovanie použiť na riešenie problémov s „mäkkým“ zhlukom alebo odhadom hustoty, ako aj na posúdenie pravdepodobnosti alebo pravdepodobnosti údajových bodov patriacich do určitých zhlukov.
- Ako naznačuje názov, cieľom hierarchického zoskupovania je vytvorenie hierarchie zoskupených dátových položiek. Dátové položky sa dekonštruujú alebo kombinujú na základe hierarchie na generovanie klastrov.
Prípady použitia:
- Detekcia anomálií:
Pomocou klastrovania možno zistiť akýkoľvek typ odľahlých hodnôt v údajoch. Spoločnosti v oblasti dopravy a logistiky môžu napríklad využiť detekciu anomálií na odhalenie logistických prekážok alebo odhalenie poškodených mechanických častí (prediktívna údržba).
Finančné inštitúcie môžu túto technológiu použiť na odhaľovanie podvodných transakcií a rýchlo reagovať, čím môžu ušetriť veľa peňazí. Viac informácií o odhaľovaní abnormalít a podvodov nájdete v našom videu.
- Segmentácia zákazníkov a trhov:
Algoritmy klastrovania môžu pomôcť pri zoskupovaní ľudí s podobnými charakteristikami a vytváraní spotrebiteľských osobností pre efektívnejší marketing a cielené iniciatívy.
K-Means
K-means je metóda zhlukovania, ktorá je tiež známa ako rozdelenie alebo segmentácia. Rozdeľuje dátové body do vopred určeného počtu zhlukov známych ako K.
V metóde K-means je K vstupom, pretože počítaču hovoríte, koľko klastrov chcete identifikovať vo svojich údajoch. Každá dátová položka je následne priradená k najbližšiemu stredu klastra, známemu ako ťažisko (čierne bodky na obrázku).
Tie slúžia ako priestory na ukladanie dát. Technika klastrovania sa môže vykonávať niekoľkokrát, kým nie sú klastre dobre definované.
Fuzzy K-znamená
Fuzzy K-means je rozšírením techniky K-means, ktorá sa používa na vytváranie prekrývajúcich sa zhlukov. Na rozdiel od techniky K-means, fuzzy K-means naznačujú, že dátové body môžu patriť do mnohých zhlukov s rôznym stupňom blízkosti každého z nich.
Vzdialenosť medzi dátovými bodmi a ťažiskom klastra sa používa na výpočet blízkosti. V dôsledku toho môžu nastať prípady, keď sa rôzne zoskupenia prekrývajú.
Gaussove modely zmesí
Gaussovské modely zmesí (GMM) sú metódou používanou v pravdepodobnostnom zhlukovaní. Pretože priemer a rozptyl nie sú známe, modely predpokladajú, že existuje pevný počet gaussovských rozdelení, z ktorých každé predstavuje odlišný zhluk.
Na určenie, do ktorého klastra patrí konkrétny údajový bod, sa v podstate používa metóda.
Hierarchické klastrovanie
Stratégia hierarchického klastrovania môže začať s každým údajovým bodom priradeným k inému klastru. Dva zhluky, ktoré sú k sebe najbližšie, sa potom zmiešajú do jedného zhluku. Iteratívne spájanie pokračuje, kým nezostane na vrchu iba jeden klaster.
Táto metóda je známa ako zdola nahor alebo aglomeratívna. Ak začnete so všetkými dátovými položkami naviazanými na rovnaký klaster a potom vykonáte rozdelenia, kým nie je každá dátová položka priradená ako samostatný klaster, metóda je známa ako hierarchické zoskupovanie zhora nadol alebo deliace hierarchické zoskupovanie.
Apriori algoritmus
Analýza trhového koša spopularizovala apriorné algoritmy, výsledkom čoho boli rôzne nástroje odporúčaní pre hudobné platformy a online obchody.
Používajú sa v transakčných súboroch údajov na nájdenie častých sád položiek alebo zoskupení položiek, aby sa predpovedala pravdepodobnosť spotreby jedného produktu na základe spotreby iného.
Napríklad, ak začnem hrať rádio OneRepublic na Spotify s „Counting Stars“, jednou z ďalších skladieb na tomto kanáli bude určite pieseň Imagine Dragon, ako napríklad „Bad Liar“.
Toto je založené na mojich predchádzajúcich zvykoch počúvania, ako aj na vzoroch počúvania iných. Metódy Apriori počítajú množiny položiek pomocou hašovacieho stromu, pričom najprv prechádzajú množinou údajov.
Zníženie rozmerov
Zníženie rozmerov je druh učenia bez dozoru, ktoré využíva súbor stratégií na minimalizáciu počtu funkcií – alebo dimenzií – v súbore údajov. Dovoľte nám to objasniť.
Môže byť lákavé začleniť čo najviac údajov pri vytváraní vášho súbor údajov pre strojové učenie. Nechápte nás zle: táto stratégia funguje dobre, pretože viac údajov zvyčajne prináša presnejšie zistenia.
Predpokladajme, že údaje sú uložené v N-rozmernom priestore, pričom každý prvok predstavuje inú dimenziu. Ak existuje veľa údajov, môžu existovať stovky dimenzií.
Zoberme si excelové tabuľky so stĺpcami reprezentujúcimi charakteristiky a riadkami reprezentujúcimi dátové položky. Ak existuje príliš veľa dimenzií, algoritmy ML môžu fungovať zle a vizualizácia dát môže byť ťažké.
Preto je logické obmedziť charakteristiky alebo rozmery a poskytnúť len relevantné informácie. Zníženie rozmerov je práve to. Umožňuje spravovateľné množstvo dátových vstupov bez ohrozenia integrity dátového súboru.
Analýza hlavných komponentov (PCA)
Hlavnou zložkovou analýzou je prístup znižovania rozmerov. Používa sa na minimalizáciu počtu funkcií v obrovských súboroch údajov, čo vedie k väčšej jednoduchosti údajov bez obetovania presnosti.
Kompresia množiny údajov sa vykonáva metódou známou ako extrakcia funkcií. Označuje, že prvky z pôvodnej sady sú zmiešané do novej, menšej. Tieto nové vlastnosti sú známe ako primárne komponenty.
Samozrejme, existujú ďalšie algoritmy, ktoré môžete použiť vo svojich aplikáciách učenia bez dozoru. Vyššie uvedené sú len najrozšírenejšie, a preto sa o nich hovorí podrobnejšie.
Aplikácia učenia bez dozoru
- Metódy učenia bez dozoru sa využívajú pri úlohách vizuálneho vnímania, ako je rozpoznávanie predmetov.
- Strojové učenie bez dozoru dáva kritické aspekty medicínskym zobrazovacím systémom, ako je identifikácia, klasifikácia a segmentácia obrazu, ktoré sa využívajú v rádiológii a patológii na rýchlu a spoľahlivú diagnostiku pacientov.
- Učenie bez dozoru môže pomôcť identifikovať trendy údajov, ktoré možno použiť na vytvorenie efektívnejších stratégií krížového predaja s využitím minulých údajov o správaní spotrebiteľov. Počas procesu platby to používajú online podniky na navrhovanie správnych doplnkov klientom.
- Metódy učenia bez dozoru môžu preosiať obrovské množstvo údajov, aby našli odľahlé hodnoty. Tieto abnormality môžu upozorniť na nefunkčné zariadenie, ľudskú chybu alebo narušenie bezpečnosti.
Problémy s učením bez dozoru
Učenie bez dozoru je príťažlivé rôznymi spôsobmi, od potenciálu nájsť dôležité poznatky údajov, aby sa predišlo nákladnému označovaniu údajov operácií. Použitie tejto stratégie na tréning má však niekoľko nevýhod modely strojového učenia že by ste si to mali uvedomiť. Tu je niekoľko príkladov.
- Keďže vstupným údajom chýbajú štítky, ktoré slúžia ako kľúče odpovede, výsledky modelov učenia bez dozoru môžu byť menej presné.
- Učenie bez dozoru často pracuje s rozsiahlymi súbormi údajov, čo môže zvýšiť výpočtovú zložitosť.
- Tento prístup si vyžaduje potvrdenie výstupu ľuďmi, buď internými alebo externými špecialistami na predmet dopytu.
- Algoritmy musia preskúmať a vypočítať každý možný scenár počas tréningovej fázy, ktorá nejaký čas trvá.
záver
Efektívne využitie dát je kľúčom k vytvoreniu konkurenčnej výhody na konkrétnom trhu.
Údaje môžete segmentovať pomocou algoritmov strojového učenia bez dozoru, aby ste preskúmali preferencie vašej cieľovej skupiny alebo určili, ako určitá infekcia reaguje na konkrétnu liečbu.
Existuje niekoľko praktických aplikácií a vedci údajov, inžinieri a architekti vám môžu pomôcť pri definovaní vašich cieľov a vývoji jedinečných riešení ML pre vašu spoločnosť.
Nechaj odpoveď