Nekontrolitaj Maŝinlernado-Algoritmoj

Enhavtabelo[Kaŝi][Montri]

Kio estas Nekontrolita Maŝina Lernado?
Nekontrolitaj Maŝinlernado-Algoritmoj+-
Apliko de Nekontrolita lernado
Problemoj kun Nekontrolita lernado
konkludo

Unu el la ĉefaj kriterioj por ajna tipo de kompania agado estas la efika utiligo de informoj. En iu momento, la volumo de datumoj kreitaj superas la kapablon de baza pretigo.

Tio estas kie maŝinlernado algoritmoj en ludo. Tamen, antaŭ ol ĉi tio povas okazi, la informoj devas esti studitaj kaj interpretitaj. En resumo, ĝi estas por kio nekontrolita maŝinlernado estas uzata.

En ĉi tiu artikolo, ni ekzamenos profunde nekontrolitan maŝinlernadon, inkluzive de ĝiaj algoritmoj, uzkazoj kaj multe pli.

Kio estas Nekontrolita Maŝina Lernado?

Nekontrolitaj maŝinlernado-algoritmoj identigas padronojn en datumaro kiuj ne havas konatan aŭ etikeditan sekvon. Kontrolita maŝinlernaj algoritmoj havas etikeditan eliron.

Koni ĉi tiun distingon helpas vin kompreni kial nekontrolitaj maŝinlernadaj metodoj ne povas esti uzataj por solvi regresajn aŭ klasifikajn problemojn, ĉar vi ne scias, kia povas esti la valoro/respondo por la eligo-datumoj. Vi ne povas trejni algoritmon normale se vi ne konas la valoron/respondon.

Krome, Nekontrolita lernado povas esti uzata por identigi la fundamentan strukturon de la datumoj. Ĉi tiuj algoritmoj detektas kaŝitajn ŝablonojn aŭ datumgrupiĝojn sen la bezono de homa interago.

Ĝia kapablo detekti similecojn kaj kontrastojn en informoj igas ĝin bonega elekto por esplorada datuma analizo, kruc-vendaj teknikoj, konsumantsegmentado kaj bildidentigo.

Konsideru la sekvan scenaron: vi estas en nutraĵvendejo kaj vidas neidentigitan frukton, kiun vi neniam antaŭe vidis. Vi povas facile distingi la nekonatan frukton malsaman de aliaj fruktoj ĉirkaŭe surbaze de viaj observoj pri ĝia formo, grandeco aŭ koloro.

Nekontrolitaj Maŝinlernado-Algoritmoj

Agrupamiento

Clustering estas sendube la plej vaste uzata senkontrola lernado. Ĉi tiu aliro metas rilatajn datumaĵojn en hazarde generitajn aretojn.

Per si mem, ML-modelo malkovras iujn ajn ŝablonojn, similecojn kaj/aŭ diferencojn en nekategoriita datumstrukturo. Modelo povos malkovri ajnajn naturajn grupiĝojn aŭ klasojn en datumoj.

Agrupamiento

Tipoj

Estas pluraj formoj de clustering uzeblaj. Ni unue rigardu la plej gravajn.

Ekskluziva grupigo, foje konata kiel "malmola" grupigo, estas speco de grupiĝo en kiu ununura datumo apartenas al nur unu areto.
Interkovra grupigo, ofte konata kiel "mola" clustering, permesas al datumobjektoj aparteni al pli ol unu areto al ŝanĝiĝantaj gradoj. Krome, probabilista grupigo povas esti uzita por trakti "molajn" aretojn aŭ densecajn taksoproblemojn, same kiel por taksi la probablecon aŭ verŝajnecon de datenpunktoj apartenantaj al certaj aretoj.
Krei hierarkion de grupigitaj dateneroj estas la celo de hierarkia grupigo, kiel la nomo indikas. Datenoj estas dekonstruitaj aŭ kombinitaj surbaze de la hierarkio por generi aretojn.

Uzokazoj:

Detekto de anomalioj:

Ajna speco de outlier en datenoj povas esti detektita uzante clustering. Firmaoj en transportado kaj loĝistiko, ekzemple, povas utiligi anomaliodetekton por malkovri loĝistikajn malhelpojn aŭ malkaŝi difektitajn mekanikajn partojn (antaŭvida prizorgado).

Financaj institucioj povas uzi la teknologion por detekti fraŭdajn transakciojn kaj respondi rapide, eble ŝparante multe da mono. Lernu pli pri rimarkado de anomalioj kaj fraŭdo rigardante nian videon.

Segmentado de klientoj kaj merkatoj:

Clustering-algoritmoj povas helpi grupigi homojn, kiuj havas similajn trajtojn, kaj krei konsumantojn por pli efika merkatado kaj celitaj iniciatoj.

K-Rimedo

K-rimedo estas grupiga metodo kiu ankaŭ estas konata kiel dispartigo aŭ segmentigo. Ĝi dividas la datenpunktojn en antaŭfiksitan nombron da aretoj konataj kiel K.

En la K-metodo, K estas la enigo ĉar vi diras al la komputilo kiom da aretoj vi volas identigi en viaj datumoj. Ĉiu dateno estas poste asignita al la plej proksima aretcentro, konata kiel centroido (nigraj punktoj en la bildo).

K Signifas

Ĉi-lastaj funkcias kiel datumstokaj spacoj. La clustering tekniko povas esti farita multajn fojojn ĝis la aretoj estas bone difinitaj.

Fuzzy K-signifo

Fuzzy K-means estas etendaĵo de la K-means-tekniko, kiu kutimas fari imbrikitan grupigon. Male al la K-meztekniko, malklarkontura K-mezo indikas ke datenpunktoj eble apartenos al multaj aretoj kun ŝanĝiĝantaj gradoj da proksimeco al ĉiu.

La distanco inter datenpunktoj kaj la centroido de la areto estas uzata por kalkuli proksimecon. Kiel rezulto, povas esti okazoj kiam diversaj aretoj interkovras.

Gaŭsaj Miksaj Modeloj

Gaŭsaj Miksaĵo-Modeloj (GMMoj) estas metodo uzita en probabilista grupigo. Ĉar la meznombro kaj varianco estas nekonataj, la modeloj supozas ke ekzistas fiksa nombro da gaŭsaj distribuoj, ĉiu reprezentante klaran areton.

Por determini al kiu areto apartenas specifa datenpunkto, la metodo estas esence uzata.

Hierarkia Clustering

La hierarkia grupiga strategio povas komenciĝi kun ĉiu datenpunkto asignita al malsama areto. La du aretoj kiuj estas plej proksimaj unu al la alia tiam estas miksitaj en ununuran areton. Ripetema kunfandiĝo daŭras ĝis nur unu areto restas ĉe la supro.

Ĉi tiu metodo estas konata kiel malsupre aŭ aglomerativa. Se vi komencas kun ĉiuj datumeroj ligitaj al la sama areto kaj tiam kondukas disigojn ĝis ĉiu datumobjekto estas asignita kiel aparta areto, la metodo estas konata kiel desupra aŭ disiga hierarkia grupigo.

Apriori Algoritmo

Merkatkorba analizo popularigis apriori algoritmojn, rezultigante diversajn rekomendmotorojn por muzikplatformoj kaj retaj butikoj.

Ili estas uzitaj en transakciaj datenserioj por trovi oftajn objektorojn, aŭ grupiĝojn de eroj, por antaŭdiri la verŝajnecon de konsumado de unu produkto bazita sur la konsumo de alia.

Ekzemple, se mi komencas ludi la radion de OneRepublic ĉe Spotify kun "Counting Stars", unu el la aliaj kantoj en ĉi tiu kanalo tre certe estos kanto de Imagine Dragon, kiel "Bad Liar".

Ĉi tio baziĝas sur miaj antaŭaj aŭskultaj kutimoj kaj ankaŭ sur la aŭskultadoj de aliaj. Apriori-metodoj nombras eroj uzante haŝarbon, trairante la datumaron larĝe unue.

Redukto de Dimensieco

Dimensiecredukto estas speco de nekontrolita lernado kiu uzas kolekton de strategioj por minimumigi la nombron da funkcioj - aŭ dimensioj - en datumaro. Permesu al ni klarigi.

Povas esti tente korpigi tiom da datumoj kiel eble dum kreado de via datumaro por maŝinlernado. Ne miskomprenu nin: ĉi tiu strategio bone funkcias ĉar pli da datumoj kutime donas pli precizajn rezultojn.

Supozu ke datumoj estas stokitaj en N-dimensia spaco, kie ĉiu trajto reprezentas malsaman dimension. Eble ekzistas centoj da dimensioj se estas multaj datumoj.

Konsideru Excel-kalkultabelojn, kun kolumnoj reprezentantaj trajtojn kaj vicoj reprezentantaj datumajn erojn. Kiam estas tro da dimensioj, ML-algoritmoj povus funkcii malbone kaj bildigo de datumoj povas fariĝi malfacila.

Do ĝi faras logike limigi la karakterizaĵojn aŭ dimensiojn, kaj transdoni nur trafajn informojn. Dimensiecredukto estas nur tio. Ĝi enkalkulas regeblan kvanton da enigaĵoj sen endanĝerigi la integrecon de la datumaro.

Ĉefa Komponenta Analizo (PCA)

La ĉefkomponentanalizo estas dimensieco-reduktaliro. Ĝi estas uzata por minimumigi la nombron da funkcioj en grandegaj datumaroj, rezultigante pli grandan datuman simplecon sen oferi precizecon.

Datumkunpremado estas plenumita per metodo konata kiel trajto-eltiro. Ĝi indikas ke elementoj de la origina aro estas miksitaj en novan, pli malgrandan. Tiuj novaj trajtoj estas konataj kiel primaraj komponentoj.

Kompreneble, estas pliaj algoritmoj, kiujn vi povas uzi en viaj nekontrolitaj lernaj aplikoj. Tiuj supre listigitaj estas nur la plej oftaj, tial ili estas diskutitaj pli detale.

Apliko de Nekontrolita lernado

Nekontrolitaj lernmetodoj estas utiligitaj por vidaj percepttaskoj kiel ekzemple objektorekono.
Nekontrolita maŝinlernado donas kritikajn aspektojn al medicinaj bildigaj sistemoj, kiel ekzemple bilda identigo, klasifiko kaj segmentado, kiuj estas utiligitaj en radiologio kaj patologio por diagnozi pacientojn rapide kaj fidinde.
Nekontrolita lernado povas helpi identigi datumajn tendencojn, kiuj povas esti uzataj por krei pli efikajn kruc-vendajn strategiojn utiligante pasintajn datumojn pri konsumanta konduto. Dum la kasa procezo, ĉi tio estas uzata de interretaj entreprenoj por sugesti la ĝustajn aldonaĵojn al klientoj.
Nekontrolitaj lernmetodoj povas kribri tra grandegaj volumoj de datumoj por trovi eksteraĵojn. Ĉi tiuj anomalioj povus levi la avizon pri misfunkciado de ekipaĵo, homa eraro aŭ sekurecaj breĉoj.

Problemoj kun Nekontrolita lernado

Nekontrolita lernado allogas en diversaj manieroj, de la ebleco trovi gravajn komprenojn pri datumoj por eviti multekostajn datenetikedadon operacioj. Tamen, estas pluraj malavantaĝoj uzi ĉi tiun strategion por trejni modeloj pri maŝinlernado ke vi devus esti konscia. Jen kelkaj ekzemploj.

Ĉar enirdatenoj mankas etikedoj kiuj funkcias kiel respondŝlosiloj, la rezultoj de nekontrolitaj lernadmodeloj povus esti malpli precizaj.
Nekontrolita lernado ofte funkcias kun masivaj datumaroj, kiuj povas pliigi komputilan kompleksecon.
La aliro postulas produktaĵkonfirmon de homoj, aŭ internaj aŭ eksteraj specialistoj en la temo de enketo.
Algoritmoj devas ekzameni kaj komputi ĉiun eblan scenaron dum la trejna fazo, kiu prenas iom da tempo.

konkludo

Efika uzado de datumoj estas la ŝlosilo por starigi konkurencivan avantaĝon en aparta merkato.

Vi povas segmenti la datumojn uzante nekontrolitajn maŝinlernajn algoritmojn por ekzameni la preferojn de via cela publiko aŭ por determini kiel certa infekto respondas al aparta traktado.

Estas pluraj praktikaj aplikoj, kaj datumaj sciencistoj, inĝenieroj kaj arkitektoj povas helpi vin difini viajn celojn kaj disvolvi unikajn ML-solvojn por via kompanio.

Nekontrolitaj Maŝinlernado-Algoritmoj

Kio estas Nekontrolita Maŝina Lernado?