Obsah[Skrýt][Ukázat]
Jedním z primárních kritérií pro jakýkoli typ podnikové činnosti je efektivní využití informací. V určitém okamžiku objem vytvořených dat překračuje kapacitu základního zpracování.
Zde vstupují do hry algoritmy strojového učení. Než však k čemukoli z toho může dojít, musí být informace prostudována a interpretována. Stručně řečeno, k tomu se používá strojové učení bez dozoru.
V tomto článku podrobně prozkoumáme neřízené strojové učení, včetně jeho algoritmů, případů použití a mnohem více.
Co je strojové učení bez dozoru?
Algoritmy strojového učení bez dohledu identifikují vzory v datové sadě, které nemají známý nebo označený důsledek. Pod dohledem algoritmy strojového učení mít označený výstup.
Znalost tohoto rozdílu vám pomůže pochopit, proč nelze metody strojového učení bez dozoru použít k řešení problémů s regresí nebo klasifikací, protože nevíte, jaká může být hodnota/odpověď pro výstupní data. Nemůžete normálně trénovat algoritmus, pokud neznáte hodnotu/odpověď.
Kromě toho lze k identifikaci základní struktury dat použít učení bez dozoru. Tyto algoritmy detekují skryté vzory nebo seskupení dat bez potřeby lidské interakce.
Jeho schopnost detekovat podobnosti a kontrasty v informacích z něj dělá skvělou volbu pro průzkumnou analýzu dat, techniky křížového prodeje, segmentaci spotřebitelů a identifikaci obrázků.
Zvažte následující scénář: jste v obchodě s potravinami a vidíte neidentifikované ovoce, které jste nikdy předtím neviděli. Neznámé ovoce, které se liší od jiného ovoce v okolí, můžete snadno rozlišit na základě pozorování jeho tvaru, velikosti nebo barvy.
Algoritmy strojového učení bez dozoru
Clustering
Clustering je bezesporu nejrozšířenějším přístupem učení bez dozoru. Tento přístup vkládá související datové položky do náhodně generovaných shluků.
Model ML sám o sobě objevuje jakékoli vzory, podobnosti a/nebo rozdíly v nekategorizované datové struktuře. Model bude schopen v datech objevit jakákoli přirozená seskupení nebo třídy.
Typ nemovitosti
Existuje několik forem shlukování, které lze použít. Pojďme se nejprve podívat na ty nejdůležitější.
- Exkluzivní shlukování, někdy známé jako „tvrdé“ shlukování, je typ seskupení, ve kterém jeden kus dat patří pouze do jednoho clusteru.
- Překrývající se shlukování, často známé jako „měkké“ shlukování, umožňuje datovým objektům v různé míře patřit do více než jednoho shluku. Kromě toho lze pravděpodobnostní shlukování použít k řešení problémů s „měkkým“ shlukováním nebo odhadem hustoty a také k posouzení pravděpodobnosti nebo pravděpodobnosti datových bodů patřících do určitých shluků.
- Jak název napovídá, vytvoření hierarchie seskupených datových položek je cílem hierarchického shlukování. Datové položky jsou dekonstruovány nebo kombinovány na základě hierarchie za účelem generování shluků.
Případy užití:
- Detekce anomálií:
Pomocí shlukování lze detekovat jakýkoli typ odlehlých hodnot v datech. Společnosti v dopravě a logistice mohou například využít detekci anomálií k odhalení logistických překážek nebo odhalení poškozených mechanických dílů (prediktivní údržba).
Finanční instituce mohou tuto technologii využít k odhalování podvodných transakcí a rychlé reakci, což potenciálně ušetří spoustu peněz. Další informace o odhalování abnormalit a podvodů naleznete v našem videu.
- Segmentace zákazníků a trhů:
Shlukovací algoritmy mohou pomoci při seskupování lidí, kteří mají podobné vlastnosti, a vytváření spotřebitelských osobností pro efektivnější marketing a cílené iniciativy.
K-Means
K-means je metoda shlukování, která je také známá jako dělení nebo segmentace. Rozdělí datové body do předem určeného počtu shluků známých jako K.
V metodě K-means je K vstupem, protože říkáte počítači, kolik clusterů chcete ve svých datech identifikovat. Každá datová položka je následně přiřazena k nejbližšímu středu shluku, známému jako centroid (černé tečky na obrázku).
Ty slouží jako úložiště dat. Technika shlukování může být provedena mnohokrát, dokud nejsou shluky dobře definovány.
Fuzzy K-znamená
Fuzzy K-means je rozšířením techniky K-means, která se používá k provádění překrývajících se shluků. Na rozdíl od techniky K-means fuzzy K-means indikují, že datové body mohou patřit k mnoha shlukům s různým stupněm blízkosti každého z nich.
Vzdálenost mezi datovými body a těžištěm shluku se používá k výpočtu blízkosti. V důsledku toho mohou nastat případy, kdy se různé shluky překrývají.
Modely Gaussových směsí
Gaussovské modely směsí (GMM) jsou metodou používanou v pravděpodobnostním shlukování. Protože průměr a rozptyl nejsou známy, modely předpokládají, že existuje pevný počet Gaussových distribucí, z nichž každé představuje odlišný shluk.
K určení, do kterého klastru patří konkrétní datový bod, se v podstatě používá metoda.
Hierarchické shlukování
Strategie hierarchického shlukování může začít s každým datovým bodem přiřazeným k jinému shluku. Dva shluky, které jsou k sobě nejblíže, se pak smíchají do jednoho shluku. Iterativní slučování pokračuje, dokud nahoře nezůstane pouze jeden shluk.
Tato metoda je známá jako zdola nahoru nebo aglomerativní. Pokud začnete se všemi datovými položkami spojenými se stejným shlukem a poté provedete rozdělení, dokud není každá datová položka přiřazena jako samostatný shluk, tato metoda je známá jako hierarchické shlukování shora dolů nebo dělící hierarchické shlukování.
Apriori algoritmus
Analýza tržního koše popularizovala apriorní algoritmy, což vedlo k různým doporučovacím motorům pro hudební platformy a internetové obchody.
Používají se v transakčních datových sadách k nalezení častých položek nebo seskupení položek, aby bylo možné předpovědět pravděpodobnost spotřeby jednoho produktu na základě spotřeby jiného.
Pokud například začnu hrát na Spotify rádio OneRepublic s „Counting Stars“, jednou z dalších skladeb na tomto kanálu bude zcela jistě píseň Imagine Dragon, jako je „Bad Liar“.
To je založeno na mých předchozích poslechových zvyklostech i na poslechových vzorcích ostatních. Metody Apriori počítají sady položek pomocí hash stromu, přičemž procházejí datovou sadu nejprve na šířku.
Snížení rozměrů
Redukce rozměrů je druh učení bez dozoru, které využívá soubor strategií k minimalizaci počtu prvků – nebo dimenzí – v datové sadě. Dovolte nám to objasnit.
Může být lákavé začlenit co nejvíce dat při vytváření vašeho datová sada pro strojové učení. Nechápejte nás špatně: tato strategie funguje dobře, protože více dat obvykle přináší přesnější zjištění.
Předpokládejme, že data jsou uložena v N-rozměrném prostoru, přičemž každý prvek představuje jinou dimenzi. Pokud existuje mnoho dat, mohou existovat stovky dimenzí.
Zvažte tabulky Excelu se sloupci představujícími charakteristiky a řádky představujícími datové položky. Pokud je dimenzí příliš mnoho, algoritmy ML mohou fungovat špatně a vizualizace dat může být obtížné.
Proto je logické omezit vlastnosti nebo rozměry a předávat pouze relevantní informace. Snížení rozměrů je právě to. Umožňuje spravovatelné množství datových vstupů, aniž by byla ohrožena integrita datové sady.
Analýza hlavních komponent (PCA)
Analýzou hlavních komponent je přístup redukce rozměrů. Používá se k minimalizaci počtu funkcí v obrovských souborech dat, což vede k větší jednoduchosti dat bez obětování přesnosti.
Komprese datové sady se provádí metodou známou jako extrakce funkcí. Označuje, že prvky z původní sady jsou smíchány do nové, menší. Tyto nové vlastnosti jsou známé jako primární komponenty.
Samozřejmě existují další algoritmy, které můžete použít ve svých výukových aplikacích bez dozoru. Výše uvedené jsou jen nejrozšířenější, a proto jsou podrobněji diskutovány.
Aplikace nekontrolovaného učení
- Metody učení bez dozoru se používají pro úkoly vizuálního vnímání, jako je rozpoznávání objektů.
- Strojové učení bez dozoru poskytuje kritické aspekty lékařským zobrazovacím systémům, jako je identifikace, klasifikace a segmentace obrazu, které se používají v radiologii a patologii k rychlé a spolehlivé diagnostice pacientů.
- Učení bez dozoru může pomoci identifikovat datové trendy, které lze použít k vytvoření účinnějších strategií křížového prodeje využívajících minulá data o chování spotřebitelů. Během procesu pokladny to využívají online podniky k navrhování správných doplňků klientům.
- Metody učení bez dozoru mohou probírat obrovské objemy dat, aby našly odlehlé hodnoty. Tyto abnormality mohou upozornit na nefunkční zařízení, lidskou chybu nebo narušení bezpečnosti.
Problémy s učením bez dozoru
Učení bez dozoru je přitažlivé v mnoha ohledech, od potenciálu najít důležité poznatky dat, aby se předešlo nákladnému označování dat operace. Používání této strategie k tréninku má však několik nevýhod modely strojového učení že byste si měli být vědomi. Zde jsou nějaké příklady.
- Vzhledem k tomu, že vstupní data postrádají štítky, které slouží jako klíče odpovědí, výsledky modelů učení bez dozoru by mohly být méně přesné.
- Učení bez dozoru často pracuje s masivními datovými sadami, což může zvýšit výpočetní složitost.
- Tento přístup vyžaduje potvrzení výstupu lidmi, buď interními nebo externími specialisty na předmět dotazu.
- Algoritmy musí prozkoumat a vypočítat každý možný scénář během trénovací fáze, která nějakou dobu trvá.
Proč investovat do čističky vzduchu?
Efektivní využití dat je klíčem k vytvoření konkurenční výhody na konkrétním trhu.
Data můžete segmentovat pomocí neřízených algoritmů strojového učení, abyste prozkoumali preference vaší cílové skupiny nebo určili, jak určitá infekce reaguje na konkrétní léčbu.
Existuje několik praktických aplikací a vědci s údaji, inženýři a architekti vám mohou pomoci při definování vašich cílů a vývoji jedinečných řešení ML pro vaši společnost.
Napsat komentář