Nepārraudzīti mašīnmācīšanās algoritmi

Saturs[Paslēpt][Rādīt]

Kas ir bez uzraudzības mašīnmācīšanās?
Nepārraudzīti mašīnmācīšanās algoritmi+-
Nepārraudzītas mācīšanās pielietošana
Problēmas ar mācīšanos bez uzraudzības
Secinājumi

Viens no galvenajiem kritērijiem jebkura veida korporatīvai darbībai ir efektīva informācijas izmantošana. Kādā brīdī izveidoto datu apjoms pārsniedz pamata apstrādes jaudu.

Šeit tiek izmantoti mašīnmācīšanās algoritmi. Tomēr, pirms tas var notikt, informācija ir jāizpēta un jāinterpretē. Īsumā, tam tiek izmantota bez uzraudzības mašīnmācīšanās.

Šajā rakstā mēs padziļināti izpētīsim neuzraudzītu mašīnmācīšanos, tostarp tās algoritmus, lietošanas gadījumus un daudz ko citu.

Kas ir bez uzraudzības mašīnmācīšanās?

Nepārraudzīti mašīnmācīšanās algoritmi datu kopā identificē modeļus, kuriem nav zināmu vai iezīmētu seku. Uzraudzīts mašīnmācīšanās algoritmi ir marķēta izvade.

Zinot šo atšķirību, varat saprast, kāpēc bez uzraudzības mašīnmācīšanās metodes nevar izmantot, lai atrisinātu regresijas vai klasifikācijas problēmas, jo jūs nezināt, kāda var būt izejas datu vērtība/atbilde. Jūs nevarat normāli apmācīt algoritmu, ja nezināt vērtību/atbildi.

Turklāt bez uzraudzības var izmantot mācīšanos, lai noteiktu datu pamatstruktūru. Šie algoritmi atklāj slēptos modeļus vai datu grupējumus bez cilvēka mijiedarbības.

Tā spēja noteikt informācijas līdzības un kontrastus padara to par lielisku izvēli datu izpētei, savstarpējās pārdošanas metodēm, patērētāju segmentēšanai un attēlu identificēšanai.

Apsveriet šādu situāciju: jūs atrodaties pārtikas veikalā un redzat neidentificētu augli, ko nekad iepriekš neesat redzējis. Jūs varat viegli atšķirt nezināmos augļus, kas atšķiras no citiem augļiem, pamatojoties uz jūsu novērojumiem par to formu, izmēru vai krāsu.

Nepārraudzīti mašīnmācīšanās algoritmi

Klasterizācijas

Klasterizācija, bez šaubām, ir visplašāk izmantotā nekontrolētās mācīšanās pieeja. Šī pieeja saistītus datu vienumus ievieto nejauši ģenerētās kopās.

ML modelis pats par sevi atklāj jebkādus modeļus, līdzības un/vai atšķirības nekategorizētā datu struktūrā. Modelis varēs atklāt datos jebkuras dabiskās grupas vai klases.

Klasterizācijas

Veidi

Var izmantot vairākas klasterizācijas formas. Vispirms apskatīsim svarīgākos.

Ekskluzīva klasterizācija, ko dažkārt sauc par “cieto” klasterizāciju, ir grupēšanas veids, kurā viens datu gabals pieder tikai vienam klasterim.
Pārklāšanās klasterizācija, ko bieži sauc par “mīksto” klasterizāciju, ļauj datu objektiem dažādās pakāpēs piederēt vairāk nekā vienam klasterim. Turklāt varbūtības klasterizāciju var izmantot, lai risinātu “mīkstās” klasterizācijas vai blīvuma novērtēšanas problēmas, kā arī novērtētu datu punktu iespējamību vai iespējamību, kas pieder noteiktiem klasteriem.
Sagrupētu datu vienumu hierarhijas izveide ir hierarhiskās klasterizācijas mērķis, kā norāda nosaukums. Datu vienumi tiek dekonstruēti vai apvienoti, pamatojoties uz hierarhiju, lai ģenerētu kopas.

Lietošanas gadījumi:

Anomāliju noteikšana:

Izmantojot klasterizāciju, var noteikt jebkāda veida novirzes datos. Piemēram, transporta un loģistikas uzņēmumi var izmantot anomāliju noteikšanu, lai atklātu loģistikas šķēršļus vai atklātu bojātās mehāniskās daļas (prognozējošā apkope).

Finanšu iestādes var izmantot šo tehnoloģiju, lai atklātu krāpnieciskus darījumus un ātri reaģētu, potenciāli ietaupot daudz naudas. Uzziniet vairāk par anomāliju pamanīšanu un krāpšanu, noskatoties mūsu video.

Klientu un tirgu segmentēšana:

Klasterizācijas algoritmi var palīdzēt grupēt cilvēkus, kuriem ir līdzīgas īpašības, un izveidot patērētāju personības efektīvākam mārketingam un mērķtiecīgām iniciatīvām.

K-līdzekļi

K-means ir klasterizācijas metode, kas pazīstama arī kā sadalīšana vai segmentēšana. Tas sadala datu punktus iepriekš noteiktā skaitā klasteru, kas pazīstams kā K.

Izmantojot K-means metodi, K ir ievade, jo jūs norādāt datoram, cik klasteru vēlaties identificēt savos datos. Katrs datu vienums pēc tam tiek piešķirts tuvākajam klastera centram, kas pazīstams kā centroīds (melni punkti attēlā).

K nozīmē

Pēdējie kalpo kā datu uzglabāšanas vietas. Klasterizācijas paņēmienu var veikt vairākas reizes, līdz kopas ir precīzi definētas.

Izplūdis K-nozīmē

Izplūdušais K-means ir K-means tehnikas paplašinājums, ko izmanto, lai veiktu pārklājošu klasterizāciju. Atšķirībā no K-means tehnikas, izplūdušie K-vidēji norāda, ka datu punkti var piederēt daudzām kopām ar dažādu tuvuma pakāpi katram.

Attālums starp datu punktiem un klastera centroīdu tiek izmantots, lai aprēķinātu tuvumu. Tā rezultātā var būt gadījumi, kad dažādas kopas pārklājas.

Gausa maisījumu modeļi

Gausa maisījumu modeļi (GMM) ir metode, ko izmanto varbūtības klasterizācijā. Tā kā vidējais lielums un dispersija nav zināmi, modeļos tiek pieņemts, ka ir noteikts Gausa sadalījumu skaits, no kuriem katrs attēlo atsevišķu kopu.

Lai noteiktu, kuram klasterim pieder konkrēts datu punkts, pamatā tiek izmantota metode.

Hierarhiskā klasterizācija

Hierarhiskā klasterizācijas stratēģija var sākties ar katru datu punktu, kas piešķirts citai klasterim. Pēc tam divi klasteri, kas atrodas vistuvāk viens otram, tiek apvienoti vienā klasterī. Iteratīvā sapludināšana turpinās, līdz augšpusē paliek tikai viens klasteris.

Šo metodi sauc par augšupēju vai aglomeratīvu. Ja sākat ar visiem datu vienumiem, kas ir piesaistīti vienam un tam pašam klasterim, un pēc tam veicat sadalīšanu, līdz katrs datu vienums tiek piešķirts kā atsevišķs klasteris, metodi sauc par lejupejošu vai sadalošu hierarhisku klasterizāciju.

Apriori algoritms

Tirgus grozu analīze popularizēja apriori algoritmus, kā rezultātā tika radīti dažādi ieteikumu dzinēji mūzikas platformām un tiešsaistes veikaliem.

Tos izmanto darījumu datu kopās, lai atrastu biežas vienumu kopas vai preču grupas, lai prognozētu viena produkta patēriņa iespējamību, pamatojoties uz cita produkta patēriņu.

Piemēram, ja es sākšu spēlēt OneRepublic radio pakalpojumā Spotify ar “Counting Stars”, viena no citām dziesmām šajā kanālā noteikti būs Imagine Dragon dziesma, piemēram, “Bad Liar”.

Tas ir balstīts uz maniem iepriekšējiem klausīšanās paradumiem, kā arī citu klausīšanās paradumiem. Apriori metodes uzskaita vienumu kopas, izmantojot jaucējkoku, vispirms šķērsojot datu kopu.

Dimensiju samazināšana

Dimensiju samazināšana ir sava veida neuzraudzīta mācīšanās, kurā tiek izmantota stratēģiju kolekcija, lai datu kopā samazinātu elementu vai dimensiju skaitu. Ļaujiet mums precizēt.

Veidojot savu, var būt vilinoši iekļaut pēc iespējas vairāk datu datu kopa mašīnmācībai. Nepārprotiet mūs: šī stratēģija darbojas labi, jo vairāk datu parasti nodrošina precīzākus secinājumus.

Pieņemsim, ka dati tiek glabāti N-dimensiju telpā, un katrs elements pārstāv citu dimensiju. Ja ir daudz datu, var būt simtiem dimensiju.

Apsveriet iespēju izmantot Excel izklājlapas, kurās kolonnas attēlo raksturlielumus un rindas, kas attēlo datu vienumus. Ja dimensiju ir pārāk daudz, ML algoritmi var darboties slikti un datu vizualizācija var kļūt grūti.

Tāpēc ir loģiski ierobežot raksturlielumus vai izmērus un sniegt tikai atbilstošu informāciju. Dimensiju samazināšana ir tieši tā. Tas nodrošina pārvaldāmu datu ievades daudzumu, neapdraudot datu kopas integritāti.

Galveno komponentu analīze (PCA)

Galvenā komponenta analīze ir dimensiju samazināšanas pieeja. To izmanto, lai samazinātu funkciju skaitu milzīgās datu kopās, tādējādi nodrošinot lielāku datu vienkāršību, nezaudējot precizitāti.

Datu kopas saspiešana tiek veikta, izmantojot metodi, kas pazīstama kā līdzekļu ekstrakcija. Tas norāda, ka elementi no sākotnējās kopas tiek sajaukti jaunā, mazākā. Šīs jaunās īpašības ir pazīstamas kā primārās sastāvdaļas.

Protams, ir arī papildu algoritmi, kurus varat izmantot savās neuzraudzītās mācību lietojumprogrammās. Iepriekš uzskaitītie ir tikai visizplatītākie, tāpēc tie ir apspriesti sīkāk.

Nepārraudzītas mācīšanās pielietošana

Nepārraudzītas mācību metodes tiek izmantotas vizuālās uztveres uzdevumiem, piemēram, objektu atpazīšanai.
Nepārraudzīta mašīnmācīšanās sniedz kritiskus aspektus medicīniskās attēlveidošanas sistēmām, piemēram, attēlu identifikācijai, klasifikācijai un segmentēšanai, ko izmanto radioloģijā un patoloģijā, lai ātri un droši diagnosticētu pacientus.
Neuzraudzīta mācīšanās var palīdzēt noteikt datu tendences, ko var izmantot, lai izveidotu efektīvākas savstarpējās pārdošanas stratēģijas, izmantojot pagātnes datus par patērētāju uzvedību. Izrakstīšanās procesa laikā tiešsaistes uzņēmumi to izmanto, lai ieteiktu klientiem pareizos papildinājumus.
Nepārraudzītas mācību metodes var izsijāt milzīgus datu apjomus, lai atrastu novirzes. Šīs novirzes var likt pamanīt nepareizu iekārtu darbību, cilvēka kļūdu vai drošības pārkāpumus.

Problēmas ar mācīšanos bez uzraudzības

Mācības bez uzraudzības ir pievilcīgas dažādos veidos, sākot ar iespēju gūt svarīgu ieskatu datus, lai izvairītos no dārgas datu marķēšanas operācijas. Tomēr šīs stratēģijas izmantošanai apmācībā ir vairāki trūkumi mašīnmācīšanās modeļi kas jums būtu jāapzinās. Šeit ir daži piemēri.

Tā kā ievades datiem trūkst etiķešu, kas kalpo kā atbildes atslēgas, nepārraudzītu mācību modeļu rezultāti varētu būt mazāk precīzi.
Nepārraudzīta mācīšanās bieži darbojas ar masīvām datu kopām, kas var palielināt skaitļošanas sarežģītību.
Pieejai ir nepieciešams cilvēku, vai nu iekšējiem, vai ārējiem speciālistiem izmeklēšanas priekšmetā, apstiprinājums.
Algoritmiem ir jāpārbauda un jāaprēķina visi iespējamie scenāriji visā apmācības posmā, kas aizņem kādu laiku.

Secinājumi

Efektīva datu izmantošana ir atslēga, lai noteiktā tirgū izveidotu konkurētspēju.

Varat segmentēt datus, izmantojot nepārraudzītus mašīnmācīšanās algoritmus, lai pārbaudītu savas mērķauditorijas preferences vai noteiktu, kā noteikta infekcija reaģē uz konkrētu ārstēšanu.

Ir vairāki praktiski pielietojumi, un datu zinātnieki, inženieri un arhitekti var jums palīdzēt noteikt jūsu mērķus un izstrādāt unikālus ML risinājumus jūsu uzņēmumam.

Nepārraudzīti mašīnmācīšanās algoritmi

Kas ir bez uzraudzības mašīnmācīšanās?