Tartalomjegyzék[Elrejt][Előadás]
Bármely vállalati tevékenység egyik elsődleges kritériuma az információ hatékony felhasználása. Egy ponton a létrehozott adatok mennyisége meghaladja az alapvető feldolgozás kapacitását.
Itt lépnek életbe a gépi tanulási algoritmusok. Mielőtt azonban ezek bármelyike bekövetkezhetne, az információt tanulmányozni és értelmezni kell. Dióhéjban: erre használják a felügyelet nélküli gépi tanulást.
Ebben a cikkben részletesen megvizsgáljuk a felügyelet nélküli gépi tanulást, beleértve annak algoritmusait, használati eseteit és még sok mást.
Mi az a felügyelet nélküli gépi tanulás?
A nem felügyelt gépi tanulási algoritmusok olyan mintákat azonosítanak az adatkészletben, amelyeknek nincs ismert vagy címkézett következménye. Felügyelt gépi tanulási algoritmusok feliratos kimenettel rendelkeznek.
Ennek a megkülönböztetésnek az ismerete segít megérteni, hogy a felügyelet nélküli gépi tanulási módszerek miért nem használhatók regressziós vagy osztályozási problémák megoldására, mivel nem tudja, mi lehet a kimeneti adatok értéke/válasza. Nem tud normálisan betanítani egy algoritmust, ha nem ismeri az értéket/választ.
Ezenkívül a felügyelet nélküli tanulás felhasználható az adatok alapvető szerkezetének azonosítására. Ezek az algoritmusok emberi beavatkozás nélkül észlelik a rejtett mintákat vagy adatcsoportokat.
Az információk hasonlóságainak és ellentéteinek kimutatására való képessége nagyszerű választássá teszi feltáró adatelemzés, keresztértékesítési technikák, fogyasztói szegmentálás és képazonosítás számára.
Vegyük fontolóra a következő forgatókönyvet: egy élelmiszerboltban tartózkodik, és egy azonosítatlan gyümölcsöt lát, amelyet még soha nem látott. A formájára, méretére vagy színére vonatkozó megfigyelései alapján könnyen megkülönböztetheti az ismeretlen gyümölcsöt a többi gyümölcstől.
Felügyelet nélküli gépi tanulási algoritmusok
Klaszterezés
A klaszterezés kétségtelenül a legszélesebb körben alkalmazott felügyelet nélküli tanulási megközelítés. Ez a megközelítés a kapcsolódó adatelemeket véletlenszerűen generált fürtökbe helyezi.
Az ML-modell önmagában fedez fel minden mintát, hasonlóságot és/vagy különbséget egy kategorizálatlan adatstruktúrában. A modell képes lesz bármilyen természetes csoportosítást vagy osztályt felfedezni az adatokban.
Típusai
A klaszterezésnek számos formája használható. Nézzük először a legfontosabbakat.
- Az exkluzív fürtözés, amelyet néha „kemény” fürtözésnek is neveznek, olyan csoportosítási típus, amelyben egyetlen adat csak egy fürthöz tartozik.
- Az átfedő fürtözés, amelyet gyakran „puha” fürtözésnek is neveznek, lehetővé teszi, hogy az adatobjektumok egynél több fürthöz tartozzanak különböző mértékben. Továbbá a valószínűségi klaszterezés használható „puha” klaszterezési vagy sűrűségbecslési problémák megoldására, valamint bizonyos klaszterekhez tartozó adatpontok valószínűségének vagy valószínűségének felmérésére.
- A csoportosított adatelemek hierarchiájának létrehozása a hierarchikus klaszterezés célja, ahogy a neve is mutatja. Az adatelemek dekonstruálása vagy kombinálása a hierarchia alapján fürtök létrehozásához történik.
Felhasználási esetek:
- Anomália észlelése:
Az adatok bármilyen típusú kiugró értéke kimutatható klaszterezéssel. A szállítással és logisztikával foglalkozó cégek például felhasználhatják az anomáliák észlelését a logisztikai akadályok felfedezésére vagy a sérült mechanikai alkatrészek felfedésére (prediktív karbantartás).
A pénzintézetek a technológiát a csalárd tranzakciók észlelésére és gyors reagálásra használhatják, amivel sok pénzt takaríthatnak meg. Tudjon meg többet a rendellenességek észleléséről és a csalásról, ha megnézi videónkat.
- Vevők és piacok szegmentálása:
A fürtözési algoritmusok segíthetnek a hasonló tulajdonságokkal rendelkező emberek csoportosításában és fogyasztói személyiségek létrehozásában a hatékonyabb marketing és célzott kezdeményezések érdekében.
K-Means
A K-means egy klaszterezési módszer, amelyet particionálásnak vagy szegmentálásnak is neveznek. Az adatpontokat előre meghatározott számú, K néven ismert klaszterre osztja.
A K-means módszerben a K a bemenet, mivel Ön megmondja a számítógépnek, hogy hány klasztert szeretne azonosítani az adatokban. Ezt követően minden adatelem hozzá van rendelve a legközelebbi klaszterközponthoz, amelyet centroidnak neveznek (fekete pontok a képen).
Ez utóbbiak adattároló helyként szolgálnak. A klaszterezési technikát többször is elvégezhetjük, amíg a klaszterek jól meghatározottak nem lesznek.
Fuzzy K-jelek
A Fuzzy K-means a K-means technika kiterjesztése, amelyet átfedő klaszterezésre használnak. A K-közép technikától eltérően a fuzzy K-középek azt jelzik, hogy az adatpontok sok klaszterhez tartozhatnak, amelyek mindegyikéhez különböző fokú közelség van.
Az adatpontok és a klaszter súlypontja közötti távolságot használják a közelség kiszámításához. Ennek eredményeként előfordulhatnak olyan esetek, amikor a különböző klaszterek átfedik egymást.
Gauss-féle keverékmodellek
A Gauss-féle keverékmodellek (GMM) a valószínűségi klaszterezésben használt módszer. Mivel az átlag és a variancia ismeretlen, a modellek azt feltételezik, hogy meghatározott számú Gauss-eloszlás létezik, amelyek mindegyike egy külön klasztert képvisel.
A módszer lényegében annak meghatározására szolgál, hogy egy adott adatpont melyik klaszterhez tartozik.
Hierarchikus klaszterezés
A hierarchikus klaszterezési stratégia kezdődhet úgy, hogy minden adatpont egy másik fürthöz van hozzárendelve. Az egymáshoz legközelebb eső két klaszter ezután egyetlen klaszterbe keveredik. Az iteratív összevonás addig folytatódik, amíg csak egy fürt marad a tetején.
Ezt a módszert alulról felfelé vagy agglomeratívnak nevezik. Ha az összes adatelemet ugyanahhoz a fürthöz köti, majd felosztásokat hajt végre mindaddig, amíg minden adatelem külön fürtként nem lesz hozzárendelve, a módszert felülről lefelé irányuló vagy megosztó hierarchikus fürtözésnek nevezik.
Apriori algoritmus
A piaci kosárelemzés népszerűsítette az apriori algoritmusokat, aminek eredményeként különböző ajánlómotorok születtek zenei platformok és online áruházak számára.
Tranzakciós adatkészletekben használják őket a gyakori cikkek vagy cikkcsoportok megtalálására, annak érdekében, hogy előre jelezzék egy termék fogyasztásának valószínűségét egy másik fogyasztása alapján.
Például, ha elkezdem játszani a OneRepublic rádióját a Spotify-on a „Counting Stars” funkcióval, akkor ezen a csatornán az egyik másik dal minden bizonnyal egy Imagine Dragon dal lesz, mint például a „Bad Liar”.
Ez a korábbi hallgatási szokásaimon, valamint mások hallgatási szokásain alapul. Az Apriori metódusok egy hashfa segítségével számolják meg az elemkészleteket, az adathalmazt szélességben bejárva.
Dimenzionalitás csökkentés
A dimenziócsökkentés egyfajta felügyelet nélküli tanulás, amely stratégiák gyűjteményét használja az adathalmaz jellemzőinek – vagy dimenzióinak – számának minimalizálására. Engedje meg, hogy tisztázzuk.
Csábító lehet, hogy a lehető legtöbb adatot beépítse a létrehozása során adatkészlet a gépi tanuláshoz. Ne értsen félre minket: ez a stratégia jól működik, mivel a több adat általában pontosabb eredményeket ad.
Tegyük fel, hogy az adatok N-dimenziós térben vannak tárolva, és minden jellemző más-más dimenziót képvisel. Több száz dimenzió is lehet, ha sok adat van.
Fontolja meg az Excel-táblázatokat, amelyekben az oszlopok a jellemzőket, a sorok pedig az adatelemeket képviselik. Ha túl sok a dimenzió, az ML algoritmusok gyengén teljesíthetnek és adatmegjelenítés nehézzé válhat.
Tehát logikussá teszi a jellemzők vagy méretek korlátozását, és csak a vonatkozó információkat továbbítjuk. A dimenziócsökkentés már csak ilyen. Kezelhető mennyiségű adatbevitelt tesz lehetővé anélkül, hogy veszélyeztetné az adatkészlet integritását.
Fő komponens elemzés (PCA)
A főkomponens-elemzés egy dimenziócsökkentési megközelítés. Arra használják, hogy minimálisra csökkentsék a funkciók számát a hatalmas adatkészletekben, ami nagyobb adategyszerűséget eredményez a pontosság feláldozása nélkül.
Az adatkészlet-tömörítést a szolgáltatás-kivonatként ismert módszerrel hajtják végre. Azt jelzi, hogy az eredeti készlet elemei egy új, kisebb készletbe keverednek. Ezeket az új tulajdonságokat elsődleges összetevőknek nevezzük.
Természetesen vannak további algoritmusok, amelyeket használhat a felügyelet nélküli tanulási alkalmazásaiban. A fent felsoroltak csak a legelterjedtebbek, ezért részletesebben tárgyaljuk őket.
A felügyelet nélküli tanulás alkalmazása
- Felügyelet nélküli tanulási módszereket használnak a vizuális észlelési feladatokhoz, például a tárgyfelismeréshez.
- A felügyelet nélküli gépi tanulás kritikus szempontokat ad az orvosi képalkotó rendszereknek, mint például a képazonosítás, osztályozás és szegmentálás, amelyeket a radiológiában és a patológiában használnak a betegek gyors és megbízható diagnosztizálására.
- A felügyelet nélküli tanulás segíthet azonosítani azokat az adattrendeket, amelyek felhasználhatók hatékonyabb keresztértékesítési stratégiák létrehozására a fogyasztói magatartásra vonatkozó múltbeli adatok felhasználásával. A fizetési folyamat során ezt használják az online vállalkozások, hogy a megfelelő kiegészítőket javasolják az ügyfeleknek.
- A nem felügyelt tanulási módszerek hatalmas mennyiségű adatot szitálhatnak át, hogy kiugró értékeket találjanak. Ezek a rendellenességek felhívhatják a figyelmet a berendezés hibás működésére, emberi mulasztásra vagy biztonsági megsértésekre.
A felügyelet nélküli tanulással kapcsolatos problémák
A felügyelet nélküli tanulás sokféleképpen vonzó, attól kezdve, hogy fontos betekintést nyerhetünk a költséges adatcímkézés elkerülése érdekében tevékenységek. Ennek a stratégiának az edzésre való használatának azonban számos hátránya van gépi tanulási modellek amivel tisztában kell lenned. Íme néhány példa.
- Mivel a bemeneti adatokból hiányoznak a válaszkulcsként szolgáló címkék, a felügyelet nélküli tanulási modellek eredményei kevésbé pontosak lehetnek.
- A felügyelet nélküli tanulás gyakran hatalmas adathalmazokkal működik, ami növelheti a számítási bonyolultságot.
- A megközelítés megköveteli a kimenet megerősítését emberek által, akár belső, akár külső szakértőktől a vizsgálat tárgyában.
- Az algoritmusoknak minden lehetséges forgatókönyvet meg kell vizsgálniuk és ki kell számítaniuk a képzési szakasz során, ami némi időt vesz igénybe.
Következtetés
Az adatok hatékony felhasználása a kulcsa a versenyelőny megteremtésének egy adott piacon.
Felügyelet nélküli gépi tanulási algoritmusokkal szegmentálhatja az adatokat, hogy megvizsgálja a célközönség preferenciáit, vagy meghatározza, hogy egy adott fertőzés hogyan reagál egy adott kezelésre.
Számos gyakorlati alkalmazás létezik, ill adatkutatók, mérnökök és építészek segíthetnek Önnek céljainak meghatározásában és egyedi ML-megoldások kidolgozásában cége számára.
Hagy egy Válaszol