Neprižiūrimi mašininio mokymosi algoritmai

Turinys[Slėpti][Rodyti]

Kas yra neprižiūrimas mašininis mokymasis?
Neprižiūrimi mašininio mokymosi algoritmai+-
Neprižiūrimo mokymosi taikymas
Neprižiūrimo mokymosi problemos
Išvada

Vienas iš pagrindinių bet kokios rūšies įmonės veiklos kriterijų yra efektyvus informacijos panaudojimas. Tam tikru momentu sukurtų duomenų kiekis viršija pagrindinio apdorojimo pajėgumus.

Čia pradeda veikti mašininio mokymosi algoritmai. Tačiau prieš tai įvykstant, informaciją reikia išstudijuoti ir interpretuoti. Trumpai tariant, tam naudojamas neprižiūrimas mašininis mokymasis.

Šiame straipsnyje nuodugniai išnagrinėsime neprižiūrimą mašininį mokymąsi, įskaitant jo algoritmus, naudojimo atvejus ir daug daugiau.

Kas yra neprižiūrimas mašininis mokymasis?

Neprižiūrimi mašininio mokymosi algoritmai identifikuoja duomenų rinkinio šablonus, kurie neturi žinomų ar pažymėtų pasekmių. Prižiūrimas mašininio mokymosi algoritmai turėti pažymėtą išvestį.

Žinodami šį skirtumą galite suprasti, kodėl neprižiūrimi mašininio mokymosi metodai negali būti naudojami regresijos ar klasifikavimo problemoms spręsti, nes nežinote, kokia gali būti išvesties duomenų reikšmė / atsakymas. Negalite normaliai išmokyti algoritmo, jei nežinote reikšmės / atsakymo.

Be to, neprižiūrimas mokymasis gali būti naudojamas norint nustatyti pagrindinę duomenų struktūrą. Šie algoritmai aptinka paslėptus šablonus arba duomenų grupes nereikalaujant žmogaus sąveikos.

Dėl galimybės aptikti informacijos panašumus ir kontrastus jis yra puikus pasirinkimas tiriant duomenų analizę, kryžminio pardavimo metodus, vartotojų segmentavimą ir paveikslų identifikavimą.

Apsvarstykite tokį scenarijų: esate bakalėjos parduotuvėje ir matote neatpažintą vaisių, kurio niekada anksčiau nematėte. Galite lengvai atskirti nežinomus vaisius, kurie skiriasi nuo kitų vaisių, atsižvelgdami į jų formos, dydžio ar spalvos stebėjimus.

Neprižiūrimi mašininio mokymosi algoritmai

grupavimas

Be jokios abejonės, grupavimas yra plačiausiai naudojamas neprižiūrimas mokymosi metodas. Šis metodas sujungia susijusius duomenų elementus į atsitiktinai sugeneruotas grupes.

Pats ML modelis atranda bet kokius šablonus, panašumus ir (arba) skirtumus nekategorizuotoje duomenų struktūroje. Modelis galės aptikti bet kokias natūralias duomenų grupes ar klases.

grupavimas

Tipai

Galima naudoti keletą grupavimo formų. Pirmiausia pažvelkime į svarbiausius.

Išskirtinis grupavimas, kartais vadinamas „kietuoju“ klasterizavimu, yra grupavimo tipas, kai vienas duomenų elementas priklauso tik vienam klasteriui.
Sutampantis grupavimas, dažnai žinomas kaip „minkštasis“ grupavimas, leidžia duomenų objektams priklausyti daugiau nei vienai klasteriui skirtingu laipsniu. Be to, tikimybinis klasterizavimas gali būti naudojamas sprendžiant „minkštąsias“ klasterizacijos ar tankio įvertinimo problemas, taip pat norint įvertinti duomenų taškų, priklausančių tam tikriems klasteriams, tikimybę ar tikimybę.
Sugrupuotų duomenų elementų hierarchijos sukūrimas yra hierarchinio grupavimo tikslas, kaip rodo pavadinimas. Duomenų elementai dekonstruojami arba sujungiami remiantis hierarchija, kad būtų sukurtos klasteriai.

Naudojimo atvejai:

Anomalijų aptikimas:

Bet kokio tipo duomenų nukrypimus galima aptikti naudojant grupavimą. Pavyzdžiui, transporto ir logistikos įmonės gali naudoti anomalijų aptikimą, kad nustatytų logistines kliūtis arba atskleistų pažeistas mechanines dalis (numatoma priežiūra).

Finansų įstaigos gali naudoti šią technologiją, kad aptiktų nesąžiningus sandorius ir greitai reaguotų, o tai gali sutaupyti daug pinigų. Sužinokite daugiau apie nukrypimų ir sukčiavimo aptikimą žiūrėdami mūsų vaizdo įrašą.

Klientų ir rinkų segmentavimas:

Klasterizacijos algoritmai gali padėti sugrupuoti žmones, turinčius panašių savybių, ir sukurti vartotojų asmenybes, kad būtų galima veiksmingesnė rinkodara ir tikslinės iniciatyvos.

K reiškia

K-means yra klasterizacijos metodas, dar žinomas kaip skaidymas arba segmentavimas. Jis padalija duomenų taškus į iš anksto nustatytą skaičių grupių, žinomų kaip K.

Taikant K-means metodą, K yra įvestis, nes jūs nurodote kompiuteriui, kiek grupių norite identifikuoti savo duomenyse. Kiekvienas duomenų elementas vėliau priskiriamas artimiausiam klasterio centrui, žinomam kaip centroidas (juodi taškai paveikslėlyje).

K Reiškia

Pastarosios tarnauja kaip duomenų saugojimo vietos. Klasterizacijos techniką galima atlikti daug kartų, kol klasteriai bus aiškiai apibrėžti.

Neaiškios K reikšmės

Fuzzy K-means yra K-means technikos, kuri naudojama sutampančių klasterizavimui, plėtinys. Skirtingai nuo K vidurkių technikos, neryškūs K vidurkiai rodo, kad duomenų taškai gali priklausyti daugeliui grupių, kurių kiekvienas yra skirtingo artumo laipsnis.

Atstumas tarp duomenų taškų ir klasterio centroido naudojamas artumui apskaičiuoti. Dėl to gali pasitaikyti atvejų, kai įvairios klasteriai persidengia.

Gauso mišinio modeliai

Gauso mišinio modeliai (GMM) yra metodas, naudojamas tikimybiniam klasterizavimui. Kadangi vidurkis ir dispersija nežinomi, modeliuose daroma prielaida, kad yra fiksuotas Gauso skirstinių skaičius, kurių kiekvienas reiškia atskirą klasterį.

Norint nustatyti, kuriai klasteriui priklauso konkretus duomenų taškas, iš esmės naudojamas metodas.

Hierarchinis klasterizavimas

Hierarchinė grupavimo strategija gali prasidėti nuo kiekvieno duomenų taško, priskirto kitam klasteriui. Tada du arčiausiai vienas kito esantys klasteriai sujungiami į vieną klasterį. Pakartotinis sujungimas tęsiamas tol, kol viršuje lieka tik vienas klasteris.

Šis metodas žinomas kaip „iš apačios į viršų“ arba „aglomeracinis“. Jei pradedate nuo visų duomenų elementų, susietų su tuo pačiu klasteriu, o tada atliekate skaidymus, kol kiekvienas duomenų elementas priskiriamas kaip atskiras klasteris, metodas vadinamas „iš viršaus į apačią“ arba padalijamąja hierarchine klasterizacija.

Apriori algoritmas

Rinkos krepšelio analizė išpopuliarino apriori algoritmus, todėl buvo sukurti įvairūs rekomendacijų varikliai muzikos platformoms ir internetinėms parduotuvėms.

Jie naudojami operacijų duomenų rinkiniuose norint rasti dažnus prekių rinkinius arba prekių grupes, kad būtų galima numatyti vieno produkto vartojimo tikimybę, remiantis kito produkto vartojimu.

Pavyzdžiui, jei pradėsiu leisti „OneRepublic“ radiją „Spotify“ su „Counting Stars“, viena iš kitų šio kanalo dainų tikrai bus „Imagine Dragon“ daina, tokia kaip „Bad Liar“.

Tai pagrįsta mano ankstesniais klausymosi įpročiais ir kitų klausymosi įpročiais. Apriori metodai skaičiuoja elementų rinkinius naudodami maišos medį, pirmiausia perkeldami duomenų rinkinį.

Matmenų mažinimas

Matmenų mažinimas yra tam tikras neprižiūrimas mokymasis, kai naudojamas strategijų rinkinys, siekiant sumažinti duomenų rinkinio funkcijų (arba dimensijų) skaičių. Leiskite mums paaiškinti.

Gali kilti pagunda kurdami įtraukti kuo daugiau duomenų duomenų rinkinys mašininiam mokymuisi. Nesupraskite mūsų klaidingai: ši strategija veikia gerai, nes daugiau duomenų paprastai pateikia tikslesnes išvadas.

Tarkime, kad duomenys saugomi N matmenų erdvėje, o kiekviena savybė reiškia skirtingą dimensiją. Jei yra daug duomenų, matmenų gali būti šimtai.

Apsvarstykite „Excel“ skaičiuokles, kuriose stulpeliai atspindi charakteristikas, o eilutės – duomenų elementus. Kai yra per daug matmenų, ML algoritmai gali veikti prastai ir duomenų vizualizavimas gali tapti sunku.

Taigi logiška apriboti charakteristikas ar matmenis ir perduoti tik svarbią informaciją. Matmenų mažinimas yra būtent toks. Tai leidžia valdyti duomenų įvesties kiekį nepažeidžiant duomenų rinkinio vientisumo.

Pagrindinių komponentų analizė (PCA)

Pagrindinio komponento analizė yra matmenų mažinimo metodas. Jis naudojamas siekiant sumažinti funkcijų skaičių didžiuliuose duomenų rinkiniuose, todėl duomenys yra paprastesni neprarandant tikslumo.

Duomenų rinkinio glaudinimas atliekamas naudojant metodą, žinomą kaip funkcijų išskyrimas. Tai rodo, kad elementai iš pradinio rinkinio yra sumaišyti į naują, mažesnį. Šios naujos savybės yra žinomos kaip pagrindiniai komponentai.

Žinoma, yra papildomų algoritmų, kuriuos galite naudoti savo neprižiūrimose mokymosi programose. Aukščiau išvardyti yra tik labiausiai paplitę, todėl jie aptariami išsamiau.

Neprižiūrimo mokymosi taikymas

Neprižiūrimi mokymosi metodai naudojami vizualinio suvokimo užduotims, tokioms kaip objektų atpažinimas.
Neprižiūrimas mašininis mokymasis suteikia svarbių aspektų medicininėms vaizdavimo sistemoms, pvz., vaizdų identifikavimui, klasifikavimui ir segmentavimui, kurie naudojami radiologijoje ir patologijoje, siekiant greitai ir patikimai diagnozuoti pacientus.
Neprižiūrimas mokymasis gali padėti nustatyti duomenų tendencijas, kurios gali būti naudojamos kuriant efektyvesnes kryžminio pardavimo strategijas, naudojant ankstesnius vartotojų elgsenos duomenis. Atsiskaitymo proceso metu internetinės įmonės tuo naudojasi, kad pasiūlytų klientams tinkamus priedus.
Neprižiūrimi mokymosi metodai gali persijoti didžiulius duomenų kiekius, kad būtų galima rasti pašalinių dalykų. Dėl šių nukrypimų gali būti pastebėta netinkamai veikianti įranga, žmogaus klaida arba saugumo pažeidimai.

Neprižiūrimo mokymosi problemos

Mokymasis be priežiūros yra patrauklus įvairiais būdais, pradedant galimybe rasti svarbių įžvalgų duomenis, kad būtų išvengta brangaus duomenų ženklinimo operacijos. Tačiau naudojant šią strategiją treniruotėms yra keletas trūkumų mašinų mokymosi modeliai kad turėtumėte žinoti. Štai keletas pavyzdžių.

Kadangi įvesties duomenyse trūksta etikečių, kurios būtų atsakymo raktai, neprižiūrimų mokymosi modelių rezultatai gali būti ne tokie tikslūs.
Neprižiūrimas mokymasis dažnai veikia su didžiuliais duomenų rinkiniais, o tai gali padidinti skaičiavimo sudėtingumą.
Taikant šį metodą, būtinas žmonių, vidaus arba išorės specialistų, patvirtinančių tyrimo objekto rezultatus.
Algoritmai turi ištirti ir apskaičiuoti visus galimus scenarijus per visą mokymo etapą, kuris užtrunka šiek tiek laiko.

Išvada

Efektyvus duomenų panaudojimas yra raktas į konkurencinį pranašumą konkrečioje rinkoje.

Galite segmentuoti duomenis naudodami neprižiūrimą mašininio mokymosi algoritmus, kad išnagrinėtumėte tikslinės auditorijos nuostatas arba nustatytumėte, kaip tam tikra infekcija reaguoja į tam tikrą gydymą.

Yra keletas praktinių pritaikymų ir duomenų mokslininkai, inžinieriai ir architektai gali padėti jums nustatyti tikslus ir sukurti unikalius ML sprendimus jūsų įmonei.

Neprižiūrimi mašininio mokymosi algoritmai

Neprižiūrimi mašininio mokymosi algoritmai

Kas yra neprižiūrimas mašininis mokymasis?