Edukien aurkibidea[Ezkutatu][Erakutsi]
Mundua azkar aldatzen ari da adimen artifizialaren eta ikaskuntza automatikoaren ondorioz, eta horrek gure eguneroko bizitzako alderdi guztietan eragina du.
NLP eta ikaskuntza automatikoa erabiltzen duten ahots-laguntzaileetatik hitzorduak erreserbatu, gure egutegian gertaerak bilatzeko eta musika erreproduzitzeko hain zehatzak diren gailuetara, gure beharrak kontuan hartu baino lehen aurreikus ditzaketelako.
Ordenagailuek xakean jokatu, kirurgia egin eta makina adimentsuago eta giza itxurako makina bilaka ditzakete ikasketa automatikoko algoritmoen laguntzarekin.
Etengabeko aurrerapen teknologikoko garaian gaude, eta denboran zehar ordenagailuak nola garatu diren ikusita, etorkizunean gertatuko denari buruzko iragarpenak egin ditzakegu.
Erreminta eta metodo informatikoen demokratizazioa da nabarmentzen den iraultza honen funtsezko alderdietako bat. Datu zientzialariak azken bost urteotan datu-konputagailu indartsuak sortu dituzte puntako metodologiak inplementatuz. Emaitzak harrigarriak dira.
Post honetan, arretaz aztertuko dugu makina ikaskuntza algoritmoak eta haien aldaera guztiak.
Beraz, zer dira Machine Learning algoritmoak?
AI sistemak bere zeregina burutzeko erabiltzen duen ikuspegia, oro har, emandako sarrerako datuetatik irteera-balioak aurreikustea, ikaskuntza automatikoko algoritmo gisa ezagutzen da.
Ikaskuntza automatikoko algoritmoa datuak erabiltzen dituen prozesu bat da eta ekoizpenerako prest dauden ikasketa automatikoko ereduak sortzeko erabiltzen dena. Ikaskuntza automatikoa lan bat egiten duen trena bada, ikaskuntza automatikoko algoritmoak lana mugitzen duten lokomotorak dira.
Erabili beharreko ikaskuntza automatikoaren ikuspegirik onena konpontzen saiatzen ari zaren negozio-arazoak, erabiltzen ari zaren datu-multzo motak eta eskura dituzun baliabideek zehaztuko dute.
Ikaskuntza automatikoko algoritmoak datu multzo bat eredu bihurtzen dutenak dira. Erantzuten saiatzen ari zaren arazo motaren, erabilgarri dagoen prozesatzeko ahalmenaren eta dituzun datu motaren arabera, gainbegiratuak, gainbegiratu gabeak edo indartzeko ikaskuntza-algoritmoek ondo funtziona dezakete.
Beraz, gainbegiratuta, gainbegiratu gabeko eta errefortzuzko ikaskuntzari buruz hitz egin dugu, baina zer dira? Azter ditzagun.
Ikaskuntza gainbegiratua, gainbegiratu gabea eta indargarria
Ikasketa gainbegiratua
Ikaskuntza gainbegiratuan, AI eredua emandako sarreran eta aurreikusitako emaitza adierazten duen etiketan oinarrituta garatzen da. Sarrera eta irteeretan oinarrituta, ereduak mapping-ekuazio bat garatzen du, eta mapping-ekuazio hori erabiliz, etorkizunean sarreren etiketa aurreikusten du.
Demagun txakurra eta katua bereizten dituen eredu bat sortu behar dugula. Katuen eta txakurren argazki anitz sartzen dira modeloan katuak edo txakurrak diren adierazten duten etiketarekin modeloa trebatzeko.
Ereduak sarrerako argazkietako etiketak irudi horiekin erlazionatzen dituen ekuazio bat ezarri nahi du. Nahiz eta modeloak inoiz irudia ikusi, entrenatu ondoren, katua ala txakurra den identifikatu dezake.
Gainbegiratu gabeko ikaskuntza
Gainbegiratu gabeko ikaskuntzak AI eredu bat inputetan soilik entrenatzen du, etiketatu gabe. Ereduak sarrerako datuak erlazionatutako ezaugarriak dituzten taldeetan banatzen ditu.
Ondoren, sarreraren etorkizuneko etiketa aurreikusten da bere atributuak sailkapenetako batekin zenbateraino bat datozenaren arabera. Demagun bola gorri eta urdinen talde bat bi kategoriatan banatu behar dugun egoera.
Demagun bolen beste ezaugarriak berdinak direla, kolorea izan ezik. Pilotak bi klasetan bana ditzakeen oinarrian, ereduak baloien artean desberdinak diren ezaugarriak bilatzen ditu.
Bi bola-multzo —bat urdina eta bestea gorria— sortzen dira bolak bi taldetan banatzen direnean beren tonuaren arabera.
Sendotze-ikaskuntza
Indartze-ikaskuntzan, AI ereduak etekin orokorra maximizatu nahi du egoera jakin batean ahal duen ondoen jokatuz. Aurreko emaitzei buruzko iritziak ereduari ikasten laguntzen dio.
Pentsa ezazu zein den robot bati A eta B puntuen artean ibilbide bat hautatzeko agintzen zaionean. Robotak lehenengo ikastaroetako bat aukeratzen du aldez aurretiko esperientziarik ez duelako.
Robotak egiten duen ibilbidean sarrera jasotzen du eta hortik ezagutza lortzen du. Robotak sarrera erabil dezake arazoa konpontzeko, antzeko egoera bat aurkitzen duen hurrengoan.
Adibidez, robotak B aukera aukeratzen badu eta sari bat jasotzen badu, hala nola feedback positiboa, oraingoan ulertzen du B bidea hautatu behar duela bere saria handitzeko.
Azkenean, denok itxaroten zaretena algoritmoak dira.
Machine Learning Algoritmo nagusiak
1. Erregresio lineala
Ikaskuntza gainbegiratutik aldentzen den makina-ikaskuntzarako hurbilketa errazena erregresio lineala da. Aldagai independenteen ezagutzarekin, erregresio arazoak konpontzeko eta etengabeko aldagai menpekoen iragarpenak sortzeko erabiltzen da gehienbat.
Egokitzen den lerroa aurkitzea, menpeko aldagai jarraituen emaitza iragartzen lagun dezakeena, erregresio linealaren helburua da. Etxebizitzen prezioak, adina eta soldatak balio jarraituen adibide batzuk dira.
Erregresio lineal sinple gisa ezagutzen den eredu batek zuzen bat erabiltzen du aldagai independente baten eta menpeko aldagai baten arteko lotura kalkulatzeko. Erregresio lineal anitzetan bi aldagai independente baino gehiago daude.
Erregresio lineal eredu batek lau hipotesi ditu:
- Linealtasuna: X eta Y-ren batez bestekoaren artean lotura lineal bat dago.
- Homoszedastizitatea: X-ren balio bakoitzeko, hondar bariantza berdina da.
- Independentzia: Behaketak elkarrengandik independenteak dira independentziari dagokionez.
- Normaltasuna: X finkoa denean, Y normalean banatzen da.
Erregresio linealak bikain funtzionatzen du lerroen bidez bereiz daitezkeen datuetarako. Gehiegizko egokitzea kontrola dezake erregularizazio, baliozkotze gurutzatua eta dimentsio-murrizketa teknikak erabiliz. Hala ere, badaude ezaugarrien ingeniaritza zabala behar den kasuak, eta horrek noizean behin gehiegizko egokitzea eta zarata eragin dezake.
2. Erregresio logistikoa
Erregresio logistikoa ikaskuntza gainbegiratutik aldentzen den ikaskuntza automatikoaren beste teknika bat da. Bere erabilera nagusia sailkapena da, eta erregresio arazoetarako ere erabil daiteke.
Erregresio logistikoa menpeko aldagai kategorikoa aurreikusteko erabiltzen da faktore independenteen informazioa erabiliz. Helburua irteerak sailkatzea da, 0 eta 1 artean bakarrik egon daitezkeenak.
Sarreren guztizko haztatua sigmoide funtzioak prozesatzen du, 0 eta 1 arteko balioak bihurtzen dituen aktibazio funtzioak.
Erregresio logistikoaren oinarria probabilitate maximoaren estimazioa da, behatutako datu zehatzak emandako ustezko probabilitate-banaketa baten parametroak kalkulatzeko metodoa.
3. Erabakien Zuhaitza
Ikaskuntza gainbegiratutik zatitzen den beste ikaskuntza automatikoko metodo bat erabakien zuhaitza da. Sailkapen eta erregresio arazoetarako, erabaki-zuhaitzaren ikuspegia erabil daiteke.
Erabakiak hartzeko tresna honek, zuhaitz baten antza duena, irudikapen bisualak erabiltzen ditu ekintzen etorkizuneko emaitzak, kostuak eta ondorioak erakusteko. Datuak zati bereizietan banatuz, ideia giza adimenaren antzekoa da.
Datuak zati ezberdinetan banatu ditugu, pikortu ahal izan ditugun neurrian. Erabakien Zuhaitz baten helburu nagusia xede-aldagaiaren klasea aurreikusteko erabil daitekeen prestakuntza-eredu bat eraikitzea da. Falta diren balioak automatikoki kudea daitezke Erabakien Zuhaitza erabiliz.
Ez dago eskakizun bakarreko kodeketarik, aldagai fikziorik edo datuak tratatzeko beste urrats batzuk egiteko. Zurruna da horri datu freskoak gehitzea zaila den zentzuan. Etiketatutako datu gehigarriak lortu badituzu, zuhaitza berriro trebatu beharko zenuke datu multzo osoan.
Ondorioz, erabaki-zuhaitzak aukera txarrak dira eredu aldaketa dinamikoa behar duen edozein aplikaziorako.
Helburu-aldagai motaren arabera, erabaki-zuhaitzak bi motatan sailkatzen dira:
- Aldagai kategorikoa: Helburu-aldagaia Kategorikoa den erabakien zuhaitza.
- Aldagai jarraitua: Helburuaren aldagaia Etengabea den erabakien zuhaitza.
4. Ausazko Basoa
Random Forest Metodoa ikaskuntza automatikoko hurrengo teknika da eta sailkapen eta erregresio gaietan asko erabiltzen den gainbegiratutako ikaskuntza-algoritmo bat da. Zuhaitzetan oinarritutako metodoa ere bada, erabakien zuhaitzaren antzekoa.
Zuhaitz baso bat, edo erabaki zuhaitz asko, ausazko baso metodoaren bidez epaiak egiteko erabiltzen da. Sailkapen-zereginak maneiatzen zituenean, ausazko baso-metodoak aldagai kategorikoak erabiltzen zituen erregresio-zereginak aldagai jarraituak dituzten datu-multzoak kudeatzen zituen bitartean.
Multzo bat edo eredu asko nahastea da ausazko baso-metodoak egiten duena, hau da, iragarpenak eredu talde bat erabiliz egiten dira bakarra baino.
Makina ikasteko sistema modernoen gehiengoa osatzen duten sailkapen eta erregresio arazoetarako erabiltzeko gaitasuna da ausazko basoaren funtsezko onura.
Bi estrategia ezberdin erabiltzen ditu Ensemble-k:
- Poltsaketa: hau eginez, datu gehiago sortzen dira prestakuntza-datu multzorako. Aurreikuspenen aldakuntza murrizteko, hau egiten da.
- Bultzatzea ikasle ahulak eta ikasle indartsuak konbinatzeko prozesua da, ondoz ondoko ereduak eraikiz, azken eredua zehaztasun handienarekin lortuz.
5. Bayes inozoa
Sailkapen bitar (bi klase) eta klase anitzeko arazoa Naive Bayes teknika erabiliz ebatzi daiteke. Metodoa bitar edo kategoriako sarrerako balioak erabiliz azaltzen denean, errazena da ulertzea. Naive Bayes sailkatzaile batek egindako hipotesi bat da klase batean ezaugarri bat egoteak ez duela zerikusirik beste ezaugarrien presentziarekin.
Goiko formulak adierazten du:
- P(H): H hipotesia zuzena izateko probabilitatea. Aurretiazko probabilitatea honela deritzo.
- P(E): Frogaren probabilitatea
- P(E|H): Hipotesia frogak onartzen duen probabilitatea.
- P(H|E): Hipotesia egia izateko probabilitatea, frogak ikusita.
Naive Bayes sailkatzaile batek ezaugarri horietako bakoitza banan-banan hartuko luke kontuan emaitza jakin baten probabilitatea zehazterakoan, atributu horiek elkarren artean lotuta egon arren. Bayesiako eredu inozoa eraikitzeko erraza eta eraginkorra da datu multzo handietarako.
Oinarrizkoa den bitartean kategorizazio-teknika konplexuenak baino hobeto funtzionatzen duela ezaguna da. Metodo bakar batean baino gehiago Bayesen Teoreman oinarritutako algoritmoen bilduma bat da.
6. K-Hurbilen dauden bizilagunak
K-nearest neighbors (kNN) teknika gainbegiraturiko ikaskuntza automatikoaren azpimultzo bat da, sailkapen eta erregresio arazoak konpontzeko erabil daitekeena. KNN algoritmoak hurbileko objektu konparagarriak aurki daitezkeela suposatzen du.
Gogoan daukat pentsamolde bereko pertsonen bilgune gisa. kNN-k beste datu-puntuen arteko antzekotasunaren ideia aprobetxatzen du hurbiltasuna, hurbiltasuna edo distantzia erabiliz. Ikusten ez diren datuak etiketatutako datu behagarri hurbilenetan oinarrituta etiketatzeko, metodo matematiko bat erabiltzen da grafiko bateko puntuen arteko bereizketa zehazteko.
Datu-puntuen arteko distantzia zehaztu behar duzu hurbilen dauden leku konparagarriak identifikatzeko. Distantzia-neurketak, hala nola, Euklidear distantzia, Hamming distantzia, Manhattan distantzia eta Minkowski distantzia erabil daitezke horretarako. K-a hurbilen dagoen zenbakia bezala ezagutzen da, eta askotan zenbaki bakoitia da.
KNN sailkapen- eta erregresio-problemetan aplika daiteke. KNN erregresio-gaietarako erabiltzen denean egiten den aurreikuspena K-ko agerraldi antzekoenen batez bestekoan edo medianean oinarritzen da.
KNNn oinarritutako sailkapen-algoritmo baten emaitza antzeko K agerraldien artean maiztasun handiena duen klase gisa zehaztu daiteke. Instantzia bakoitzak bere klaserako botoa ematen du funtsean, eta iragarpena boto gehien jasotzen dituen klaseari dagokio.
7. K-bitartekoak
Gainbegiratu gabeko ikaskuntzarako teknika bat da, clustering gaiak lantzen dituena. Datu-multzoak kluster kopuru jakin batean banatzen dira —dei gaitezen K—, kluster bakoitzaren datu-puntuak homogeneoak eta beste multzoetakoetatik bereiziak izan daitezen.
K-means clustering metodologia:
- Kluster bakoitzeko, K-means algoritmoak k zentroideak edo puntuak hautatzen ditu.
- Zentroide edo K multzo hurbilenekin, datu-puntu bakoitzak kluster bat osatzen du.
- Orain, zentroide berriak sortzen dira dagoeneko dauden kluster kideen arabera.
- Zentroide eguneratu hauek erabiliz kalkulatzen da datu-puntu bakoitzeko distantziarik hurbilena. Zentroideak aldatzen ez diren arte, prozesu hau errepikatzen da.
Azkarragoa, fidagarriagoa eta errazagoa da ulertzeko. Arazoak badaude, k-means-en moldagarritasunak errazten ditu doikuntzak. Datu multzoak elkarrengandik bereizten direnean edo ondo isolatuta daudenean, emaitzak onenak dira. Ezin ditu kudeatu datu irregularrak edo outliers.
8. Laguntza Bektorial Makinak
Datuak sailkatzeko SVM teknika erabiltzean, datu gordinak puntu gisa erakusten dira n dimentsioko espazio batean (non n dituzun ezaugarri kopurua den). Datuak erraz sailka daitezke orduan ezaugarri bakoitzaren balioa koordenatu zehatz bati lotuta baitago.
Datuak bereizteko eta grafiko batean jartzeko, erabili sailkatzaile gisa ezagutzen diren lerroak. Planteamendu honek datu-puntu bakoitza n dimentsioko espazio bateko puntu gisa marrazten du, non n dituzun ezaugarri kopurua den eta ezaugarri bakoitzaren balioa koordenatu-balio zehatz bat den.
Datuak modu ezberdinean sailkatu diren bi datu multzotan banatzen dituen lerro bat kokatuko dugu orain. Bi taldeetako puntu hurbilenetatik distantzia lerro honetan urrunen daudenak izango dira.
Gertuen dauden bi puntuak goiko adibideko lerrotik urrunen daudenak direnez, datuak desberdin sailkatu ziren bi taldetan banatzen dituen lerroa erdiko lerroa da. Gure sailkatzailea lerro hau da.
9. Dimentsio-murrizketa
Dimentsio-murrizketaren ikuspegia erabiliz, prestakuntza-datuek sarrera-aldagai gutxiago izan ditzakete. Termino sinpleetan, zure funtzio multzoaren tamaina txikitzeko prozesuari egiten dio erreferentzia. Imajina dezagun zure datu multzoak 100 zutabe dituela; dimentsio-murrizketak 20 zutabetara murriztuko du kopuru hori.
Eredua automatikoki sofistikatuago hazten da eta gehiegi egokitzeko arriskua handiagoa du funtzio kopuruak gora egin ahala. Dimentsio handiagoko datuekin lan egitean arazo handiena "dimentsioaren madarikazioa" deritzona da, hau da, zure datuek gehiegizko ezaugarriak dituztenean gertatzen dena.
Elementu hauek erabil daitezke dimentsio-murrizketa lortzeko:
- Ezaugarri egokiak aurkitzeko eta aukeratzeko, ezaugarrien aukeraketa erabiltzen da.
- Lehendik dauden funtzioak erabiliz, eginbideen ingeniaritza eskuz funtzio berriak sortzen ditu.
Ondorioa
Gainbegiratu gabeko edo gainbegiraturiko ikaskuntza automatikoa posible da. Aukeratu ikaskuntza gainbegiratua zure datuak ez badira hain ugariak eta trebakuntzarako ondo etiketatuta.
Datu-multzo handiek sarritan errendimendu eta emaitza hobeak emango lituzke gainbegiratu gabeko ikaskuntza erabiliz. Ikaskuntza sakona metodoak egokienak dira datu-bilduma handi bat baduzu, erraz eskuragarri dagoena.
Errefortzuaren ikaskuntza eta indartze sakoneko ikaskuntza dira aztertu dituzun gai batzuk. Sare neuronalen ezaugarriak, erabilerak eta mugak argi dituzu orain. Azkenik, programazio-lengoaia, IDE eta plataforma ezberdinen aukerak kontuan hartu dituzu zurea sortzeko orduan. ikasteko makina ereduak.
Egin behar duzun hurrengo gauza bakoitza ikasten eta erabiltzen hastea da makina ikaskuntza hurbildu. Gaia zabala bada ere, edozein gai uler daiteke ordu gutxitan bere sakontasunean arreta jarriz gero. Gai bakoitza besteengandik bereizten da.
Gai bat aldi berean pentsatu behar duzu, aztertu, praktikan jarri eta zuk aukeratutako hizkuntza erabili algoritmoa(k) bertan inplementatzeko.
Utzi erantzun bat