Algoritmet e mësimit të makinerive të pambikëqyrura

Përmbajtje[Fshih][Shfaqje]

Çfarë është Mësimi i Makinerisë i Pambikëqyrur?
Algoritmet e mësimit të makinave të pambikëqyrura+-
Zbatimi i mësimit të pambikëqyrur
Probleme me mësimin e pambikëqyrur
Përfundim

Një nga kriteret kryesore për çdo lloj aktiviteti të korporatës është përdorimi efektiv i informacionit. Në një moment, vëllimi i të dhënave të krijuara tejkalon kapacitetin e përpunimit bazë.

Këtu hyjnë në lojë algoritmet e mësimit të makinerive. Megjithatë, përpara se të ndodhë ndonjë nga këto, informacioni duhet të studiohet dhe interpretohet. Me pak fjalë, është ajo për të cilën përdoret mësimi i pambikëqyrur i makinerive.

Në këtë artikull, ne do të shqyrtojmë në thellësi mësimin e makinerive të pambikëqyrur, duke përfshirë algoritmet e tij, rastet e përdorimit dhe shumë më tepër.

Çfarë është Mësimi i Makinerisë i Pambikëqyrur?

Algoritmet e pambikëqyrur të mësimit të makinerive identifikojnë modele në një grup të dhënash që nuk kanë një pasojë të njohur ose të etiketuar. Mbikëqyrur algoritme të mësimit të makinerisë kanë një dalje të etiketuar.

Njohja e këtij dallimi ju ndihmon të kuptoni pse metodat e mësimit të makinerive të pambikëqyrura nuk mund të përdoren për të zgjidhur çështjet e regresionit ose klasifikimit, pasi nuk e dini se cila mund të jetë vlera/përgjigja për të dhënat dalëse. Ju nuk mund të stërvitni një algoritëm normalisht nëse nuk e dini vlerën/përgjigjen.

Për më tepër, mësimi i pambikëqyrur mund të përdoret për të identifikuar strukturën themelore të të dhënave. Këto algoritme zbulojnë modele të fshehura ose grupime të dhënash pa pasur nevojë për ndërveprim njerëzor.

Kapaciteti i tij për të zbuluar ngjashmëritë dhe kontrastet në informacion e bën atë një zgjedhje të shkëlqyer për analizën e të dhënave eksploruese, teknikat e shitjes së kryqëzuar, segmentimin e konsumatorit dhe identifikimin e figurës.

Merrni parasysh skenarin e mëposhtëm: ju jeni në një dyqan ushqimesh dhe shihni një frut të paidentifikuar që nuk e keni parë kurrë më parë. Ju mund ta dalloni lehtësisht frutin e panjohur të ndryshëm nga frutat e tjerë përreth bazuar në vëzhgimet tuaja për formën, madhësinë ose ngjyrën e tij.

Algoritmet e mësimit të makinave të pambikëqyrura

clustering

Grumbullimi është pa dyshim qasja më e përdorur gjerësisht e të mësuarit të pambikëqyrur. Kjo qasje vendos artikujt e të dhënave të lidhura në grupe të krijuara rastësisht.

Në vetvete, një model ML zbulon çdo model, ngjashmëri dhe/ose dallim në një strukturë të dhënash të pakategorizuara. Një model do të jetë në gjendje të zbulojë çdo grupim ose klasë natyrore në të dhëna.

clustering

Llojet

Ka disa forma grupimi që mund të përdoren. Le të shohim më të rëndësishmet fillimisht.

Grumbullimi ekskluziv, i njohur ndonjëherë si grupimi "i vështirë", është një lloj grupimi në të cilin një pjesë e vetme e të dhënave i përket vetëm një grupimi.
Grumbullimi i mbivendosur, i njohur shpesh si grupimi "i butë", lejon që objektet e të dhënave t'i përkasin më shumë se një grupi në shkallë të ndryshme. Për më tepër, grupimi probabilistik mund të përdoret për të trajtuar problemet e grupimit "të butë" ose vlerësimin e densitetit, si dhe për të vlerësuar probabilitetin ose gjasat e pikave të të dhënave që i përkasin grupimeve të caktuara.
Krijimi i një hierarkie të të dhënave të grupuara është qëllimi i grupimit hierarkik, siç tregon emri. Artikujt e të dhënave dekonstruktohen ose kombinohen në bazë të hierarkisë për të gjeneruar grupime.

Raste te perdorimit:

Zbulimi i anomalive:

Çdo lloj i jashtëm në të dhëna mund të zbulohet duke përdorur grupimin. Kompanitë në transport dhe logjistikë, për shembull, mund të përdorin zbulimin e anomalive për të zbuluar pengesa logjistike ose për të zbuluar pjesë mekanike të dëmtuara (mirëmbajtje parashikuese).

Institucionet financiare mund të përdorin teknologjinë për të zbuluar transaksione mashtruese dhe për të reaguar shpejt, duke kursyer potencialisht shumë para. Mësoni më shumë rreth zbulimit të anomalive dhe mashtrimeve duke shikuar videon tonë.

Segmentimi i klientëve dhe tregjeve:

Algoritmet e grupimit mund të ndihmojnë në grupimin e njerëzve që kanë karakteristika të ngjashme dhe krijimin e personaliteteve të konsumatorëve për marketing më efektiv dhe iniciativa të synuara.

K-Mjetet

K-means është një metodë grupimi që njihet edhe si ndarje ose segmentim. Ai i ndan pikat e të dhënave në një numër të paracaktuar grupesh të njohura si K.

Në metodën K-means, K është hyrja pasi ju i tregoni kompjuterit se sa grupe dëshironi të identifikoni në të dhënat tuaja. Çdo element i të dhënave më pas i caktohet qendrës më të afërt të grupimit, i njohur si një qendër (pika të zeza në figurë).

K do të thotë

Këto të fundit shërbejnë si hapësira për ruajtjen e të dhënave. Teknika e grupimit mund të bëhet shumë herë derisa grupet të jenë të mirëpërcaktuara.

Fuzzy K-do të thotë

Fuzzy K-means është një shtrirje e teknikës K-means, e cila përdoret për të bërë grumbullimin e mbivendosur. Ndryshe nga teknika K-means, fuzzy K-means tregojnë se pikat e të dhënave mund t'i përkasin shumë grupimeve me shkallë të ndryshme afërsie me secilin.

Distanca midis pikave të të dhënave dhe qendrës së grupit përdoret për të llogaritur afërsinë. Si rezultat, mund të ketë raste kur grupime të ndryshme mbivendosen.

Modelet e përzierjes Gaussian

Modelet Gaussian Mixture (GMM) janë një metodë e përdorur në grupimin probabilistik. Për shkak se mesatarja dhe varianca janë të panjohura, modelet supozojnë se ekziston një numër fiks i shpërndarjeve Gaussian, secila përfaqëson një grup të veçantë.

Për të përcaktuar se cilit grupim i përket një pikë specifike të dhënash, në thelb përdoret metoda.

Grumbullimi hierarkik

Strategjia e grupimit hierarkik mund të fillojë me secilën pikë të dhënash të caktuar në një grup tjetër. Dy grupimet që janë më afër njëri-tjetrit, më pas përzihen në një grup të vetëm. Bashkimi i përsëritur vazhdon derisa vetëm një grup të mbetet në krye.

Kjo metodë njihet si nga poshtë-lart ose aglomerative. Nëse filloni me të gjithë elementët e të dhënave të lidhura me të njëjtin grup dhe më pas kryeni ndarje derisa secili element i të dhënave të caktohet si një grup i veçantë, metoda njihet si grupim hierarkik nga lart-poshtë ose ndarës.

Algoritmi Apriori

Analiza e shportës së tregut popullarizoi algoritmet apriori, duke rezultuar në motorë të ndryshëm rekomandimesh për platformat muzikore dhe dyqanet online.

Ato përdoren në grupet e të dhënave transaksionale për të gjetur grupe të shpeshta artikujsh, ose grupime artikujsh, në mënyrë që të parashikojnë gjasat e konsumimit të një produkti bazuar në konsumin e një tjetri.

Për shembull, nëse filloj të luaj radion e OneRepublic në Spotify me "Counting Stars", një nga këngët e tjera në këtë kanal me siguri do të jetë një këngë e Imagine Dragon, si "Bad Liar".

Kjo bazohet në zakonet e mia të mëparshme të dëgjimit, si dhe në modelet e dëgjimit të të tjerëve. Metodat Apriori numërojnë grupet e artikujve duke përdorur një pemë hash, duke përshkuar së pari gjerësinë e të dhënave.

Reduktimi i dimensionit

Reduktimi i dimensioneve është një lloj mësimi i pambikëqyrur që përdor një koleksion strategjish për të minimizuar numrin e veçorive - ose dimensioneve - në një grup të dhënash. Na lejoni të sqarohemi.

Mund të jetë joshëse të inkorporoni sa më shumë të dhëna të jetë e mundur gjatë krijimit tuaj të dhëna për mësimin e makinerive. Mos na keqkuptoni: kjo strategji funksionon mirë pasi më shumë të dhëna zakonisht japin gjetje më të sakta.

Supozoni se të dhënat ruhen në hapësirën N-dimensionale, ku çdo veçori përfaqëson një dimension të ndryshëm. Mund të ketë qindra dimensione nëse ka shumë të dhëna.

Konsideroni spreadsheets Excel, me kolona që përfaqësojnë karakteristikat dhe rreshtat që përfaqësojnë artikujt e të dhënave. Kur ka shumë dimensione, algoritmet ML mund të performojnë dobët dhe vizualizimi i të dhënave mund të bëhet e vështirë.

Pra, është logjike të kufizohen karakteristikat ose dimensionet dhe të transmetohet vetëm informacioni përkatës. Reduktimi i dimensioneve është pikërisht ai. Ai lejon një sasi të menaxhueshme të hyrjeve të të dhënave pa kompromentuar integritetin e të dhënave.

Analiza e Komponentit Kryesor (PCA)

Analiza e komponentit kryesor është një qasje e reduktimit të dimensioneve. Përdoret për të minimizuar numrin e veçorive në grupe të mëdha të dhënash, duke rezultuar në thjeshtësi më të madhe të të dhënave pa sakrifikuar saktësinë.

Kompresimi i grupit të të dhënave realizohet me një metodë të njohur si nxjerrja e veçorive. Tregon që elementët nga grupi origjinal janë përzier në një të ri, më të vogël. Këto tipare të reja njihen si përbërës kryesorë.

Sigurisht, ka algoritme shtesë që mund t'i përdorni në aplikacionet tuaja të mësimit të pambikëqyrur. Ato të listuara më sipër janë vetëm më të përhapurit, prandaj diskutohen më në detaje.

Zbatimi i mësimit të pambikëqyrur

Metodat e të mësuarit të pambikëqyrura përdoren për detyra të perceptimit vizual, siç është njohja e objekteve.
Mësimi i makinerive i pambikëqyrur u jep aspekte kritike sistemeve të imazhit mjekësor, të tilla si identifikimi, klasifikimi dhe segmentimi i imazheve, të cilat përdoren në radiologji dhe patologji për të diagnostikuar pacientët me shpejtësi dhe me besueshmëri.
Mësimi i pambikëqyrur mund të ndihmojë në identifikimin e tendencave të të dhënave që mund të përdoren për të krijuar strategji më efektive të shitjes së kryqëzuar duke përdorur të dhënat e kaluara mbi sjelljen e konsumatorit. Gjatë procesit të arkëtimit, kjo përdoret nga bizneset në internet për t'u sugjeruar klientëve shtesat e duhura.
Metodat e të mësuarit të pambikëqyrura mund të analizojnë vëllime të mëdha të dhënash për të gjetur vlerat e jashtme. Këto anomali mund të ngrenë njoftimin për mosfunksionim të pajisjeve, gabim njerëzor ose shkelje të sigurisë.

Probleme me mësimin e pambikëqyrur

Të mësuarit e pambikëqyrur është tërheqës në mënyra të ndryshme, nga mundësia për të gjetur njohuri të rëndësishme të dhëna për shmangien e etiketimit të kushtueshëm të të dhënave operacionet. Megjithatë, ka disa të meta në përdorimin e kësaj strategjie për trajnim modele të të nxënit të makinës për të cilat duhet të jeni të vetëdijshëm. Ketu jane disa shembuj.

Meqenëse të dhënave hyrëse u mungojnë etiketat që shërbejnë si çelësa përgjigjeje, rezultatet e modeleve të mësimit të pambikëqyrur mund të jenë më pak të sakta.
Mësimi i pambikëqyrur shpesh funksionon me grupe të dhënash masive, të cilat mund të rrisin kompleksitetin llogaritës.
Qasja kërkon konfirmimin e rezultateve nga njerëzit, qoftë specialistë të brendshëm apo të jashtëm në subjektin e hetimit.
Algoritmet duhet të ekzaminojnë dhe llogarisin çdo skenar të mundshëm gjatë gjithë fazës së trajnimit, e cila kërkon pak kohë.

Përfundim

Përdorimi efektiv i të dhënave është çelësi për të krijuar një avantazh konkurrues në një treg të caktuar.

Ju mund t'i segmentoni të dhënat duke përdorur algoritme të pambikëqyrura të mësimit të makinerive për të ekzaminuar preferencat e audiencës tuaj të synuar ose për të përcaktuar se si një infeksion i caktuar reagon ndaj një trajtimi të caktuar.

Ka disa aplikime praktike, dhe shkencëtarët e të dhënave, inxhinierët dhe arkitektët mund t'ju ndihmojnë në përcaktimin e qëllimeve tuaja dhe zhvillimin e zgjidhjeve unike të ML për kompaninë tuaj.

Algoritmet e mësimit të makinave të pambikëqyrura

Algoritmet e mësimit të makinerive të pambikëqyrura

Çfarë është Mësimi i Makinerisë i Pambikëqyrur?