40+ Machine Learning Elkarrizketa Galdera (2024)

Edukien aurkibidea[Ezkutatu][Erakutsi]

1. Azaldu ikaskuntza automatikoaren, adimen artifizialaren eta ikaskuntza sakonaren arteko desberdintasunak.
2. Mesedez, deskribatu ikaskuntza automatiko mota desberdinak.
3. Zein da alborapena eta bariantzaren arteko trukaketa?
4. Ikaskuntza automatikoko algoritmoek eboluzio nabarmena izan dute denboran zehar. Nola aukeratzen da datu multzo bat emanda erabiltzeko algoritmo egokia?
5. Nola desberdintzen dira kobariantza eta korrelazioa?
6. Ikaskuntza automatikoan, zer esan nahi du clustering-ak?
7. Zein da zure ikaskuntza automatikoko algoritmorik gogokoena?
8. Erregresio lineala ikaskuntza automatikoan: zer da?
9. Deskribatu KNN eta k-means clustering-en arteko desberdintasunak.
10. Zer esan nahi du zuretzat "hautaketa-alborapena"?
11. Zer da zehazki Bayesen teorema?
12. Machine Learning Eredu batean, zer dira 'entrenamendu multzoa' eta 'proba multzoa'?
13. Zer da hipotesi bat ikaskuntza automatikoan?
14. Zer esan nahi du ikaskuntza automatikoaren gehiegizko egokitzea, eta nola ekidin daiteke?
15. Zer dira zehazki Naive Bayes sailkatzaileak?
16. Zer esan nahi dute Kostu Funtzioek eta Galera Funtzioek?
17. Zerk bereizten du eredu sortzaile bat eredu diskriminatzaile batetik?
18. Deskribatu I motako eta II motako erroreen arteko aldaerak.
19. Ikaskuntza automatikoan, zer da Ensemble ikasteko teknika?
20. Zer dira zehazki eredu parametrikoak? Eman adibide bat.
21. Elkarlaneko iragazketa deskribatzea. Baita edukietan oinarritutako iragazketa ere?
22. Zer esan nahi duzu zehazki Time seriearekin?
23. Deskribatu Gradient Boosting eta Random Forest algoritmoen arteko aldaerak.
24. Zergatik behar duzu nahaste matrizea? Zer da hori?
25. Zer da zehazki osagai printzipioen analisia?
26. Zergatik da hain erabakigarria osagaien biraketa PCArako (osagai nagusien analisia)?
27. Nola aldatzen dira erregularizazioa eta normalizazioa bata bestearengandik?
28. Zertan bereizten dira normalizazioa eta normalizazioa elkarrengandik?
29. Zer esan nahi du zehazki "bariantza inflazio-faktorea"?
30. Entrenamendu-multzoaren tamainaren arabera, nola hautatzen duzu sailkatzailea?
31. Zer algoritmo deitzen zaio ikaskuntza automatikoan "ikasle alferra" eta zergatik?
32. Zer dira ROC Kurba eta AUC?
33. Zer dira hiperparametroak? Zerk bereizten ditu ereduaren parametroetatik?
34. Zer esan nahi dute F1 Score, recall eta zehaztasuna?
35. Zer da zehazki balioztatze gurutzatua?
36. Demagun zure ereduak bariantza nabarmena duela aurkitu duzula. Zein algoritmo da, zure ustez, egokiena egoera hori kudeatzeko?
37. Zerk bereizten ditu Ridgeren erregresioa eta Lassoaren erregresioa?
38. Zein da garrantzitsuena: ereduaren errendimendua edo ereduaren zehaztasuna? Zein eta zergatik egingo diozu alde?
39. Nola kudeatuko zenuke desberdintasunekin datu multzo bat?
40. Nola bereiz ditzakezu boosting eta bagging artean?
41. Azaldu ikaskuntza induktiboa eta deduktiboaren arteko desberdintasunak.
Ondorioa

Enpresak puntako teknologia erabiltzen ari dira, hala nola, adimen artifiziala (AI) eta ikaskuntza automatikoa, informazio eta zerbitzuen eskuragarritasuna areagotzeko.

Teknologia hauek hainbat industriak hartzen ari dira, besteak beste, bankuak, finantzak, txikizkako merkataritzak, manufakturak eta osasunak.

AI erabiltzen duten antolakuntza-eginkizunik eskatuenetako bat datu-zientzialarientzat, adimen artifizialeko ingeniarientzat, ikaskuntza automatikoko ingeniarientzat eta datu-analistarentzat da.

Argitalpen honek hainbat gauzatara eramango zaitu makina ikaskuntza elkarrizketa-galderak, oinarrizkoetatik konplexuetara, zure lan ideala bilatzerakoan egin diezazkiokezu galderak prestatzen laguntzeko.

1. Azaldu ikaskuntza automatikoaren, adimen artifizialaren eta ikaskuntza sakonaren arteko desberdintasunak.

Adimen artifizialak ikaskuntza automatikoko eta ikaskuntza sakoneko hainbat ikuspegi erabiltzen ditu, sistema informatikoek gizakiaren antzeko adimena erabiliz zereginak egiteko aukera ematen dietenak logika eta arauekin.

Ikaskuntza automatikoa hainbat estatistika eta Deep Learning ikuspegi erabiltzen ditu makinek aurreko errendimendutik ikas dezaten eta gizakien gainbegiratu gabe zeregin jakin batzuk beren kabuz egiten trebeagoak izan daitezen.

Deep Learning algoritmo-bilduma bat da, softwareari berez ikasteko eta hainbat funtzio komertzial burutzeko aukera ematen diona, hala nola, ahotsa eta irudiak hautematea.

Beraien geruza anitzeko azalera erakusten duten sistemak neural sareak ikasteko datu kopuru handietara ikaskuntza sakona egiteko gai dira.

2. Mesedez, deskribatu ikaskuntza automatiko mota desberdinak.

Ikaskuntza automatikoa hiru mota desberdinetan dago, oro har:

Ikaskuntza gainbegiratua: eredu batek iragarpenak edo epaiak sortzen ditu etiketatutako edo datu historikoak erabiliz gainbegiratutako ikaskuntza automatikoan. Esanahia areagotzeko etiketatu edo etiketatu diren datu multzoei etiketatutako datuak deritze.
Gainbegiratu gabeko ikaskuntza: ez dugu gainbegiratu gabeko ikaskuntzarako daturik etiketaturik. Jasotako datuetan, eredu batek ereduak, bitxikeriak eta korrelazioak aurki ditzake.
Indartze Ikaskuntza: Eredua daiteke errefortzua erabiliz ikasi ikaskuntza eta aurreko portaeragatik lortutako sariak.

3. Zein da alborapena eta bariantzaren arteko trukaketa?

Gehiegizko egokitzea alborapenaren ondorioa da, hau da, eredu batek datuetara egokitzen den maila. Alborapena zure ustez oker edo sinpleegiek eragiten dute ikaskuntza automatikoko algoritmoa.

Bariantza zure ML algoritmoaren konplexutasunak eragindako akatsei egiten die erreferentzia, eta horrek entrenamendu-datuen eta gehiegizko egokitzeen aldakuntza-maila handiekiko sentikortasuna sortzen du.

Bariantza eredu bat sarreraren arabera zenbat aldatzen den da.

Beste era batera esanda, oinarrizko ereduak oso alboratuak dira, baina egonkorrak (bariantza txikia). Gehiegizko egokitzea eredu konplexuen arazoa da, nahiz eta ereduaren errealitatea jasotzen duten (alborapen baxua).

Bariazio handia eta alborapen handia saihesteko, alborapenaren eta bariantzaren arteko trukaketa beharrezkoa da erroreak murrizteko.

4. Ikaskuntza automatikoko algoritmoek eboluzio nabarmena izan dute denboran zehar. Nola aukeratzen da datu multzo bat emanda erabiltzeko algoritmo egokia?

Erabili behar den ikaskuntza automatikoko teknika datu multzo zehatz bateko datu motaren araberakoa da soilik.

Datuak linealak direnean, erregresio lineala erabiltzen da. Poltsa egiteko metodoak hobeto funtzionatuko luke datuek ez-linealtasuna adieraziko balute. Erabakien zuhaitzak edo SVM erabil ditzakegu datuak helburu komertzialetarako ebaluatu edo interpretatu behar badira.

Sare neuronalak baliagarriak izan daitezke erantzun zehatza lortzeko datu multzoak argazkiak, bideoak eta audioak baditu.

Egoera edo datu-bilketa zehatz baterako algoritmoa aukeratzea ezin da neurri bakarrean egin.

Egokipen onenaren metodoa garatzeko, lehenik eta behin datuak esplorazio-datuen analisia (EDA) erabiliz aztertu eta datu-multzoa erabiltzeko helburua ulertu behar dugu.

5. Nola desberdintzen dira kobariantza eta korrelazioa?

Kobariantza bi aldagai elkarren artean nola lotzen diren eta bata bestearen aldaketen aurrean nola alda daitekeen ebaluatzen du.

Emaitza positiboa bada, aldagaien artean lotura zuzena dagoela adierazten du eta oinarrizko aldagaia handitu edo txikiagotuz gero, beste baldintza guztiak konstante mantentzen direla suposatuz.

Korrelazioak ausazko bi aldagairen arteko lotura neurtzen du eta hiru balio desberdin baino ez ditu: 1, 0 eta -1.

6. Ikaskuntza automatikoan, zer esan nahi du clustering-ak?

Datu-puntuak bateratzen dituzten gainbegiratu gabeko ikaskuntza-metodoei clustering deitzen zaie. Datu-puntuen bilketarekin, clustering teknika aplika daiteke.

Datu-puntu guztiak beren funtzioen arabera taldeka ditzakezu estrategia hau erabiliz.

Kategoria berean sartzen diren datu-puntuen ezaugarriak eta kalitateak antzekoak dira, eta taldekatze bereizietan sartzen diren datu-puntuenak desberdinak dira.

Ikuspegi hau datu estatistikoak aztertzeko erabil daiteke.

7. Zein da zure ikaskuntza automatikoko algoritmorik gogokoena?

Galdera honetan zure lehentasunak eta talentu bereziak erakusteko aukera duzu, baita ikaskuntza automatikoko teknika ugariren ezagutza osoa ere.

Hona hemen pentsatzeko makina ikasteko algoritmo tipiko batzuk:

Erregresio lineala
Erregresio logistikoa
Inozo Bayes
Erabaki zuhaitzak
K esan nahi du
Ausazko baso algoritmoa
K-hurbilen dagoen bizilaguna (KNN)

8. Erregresio lineala ikaskuntza automatikoan: zer da?

Gainbegiraturiko ikaskuntza automatikoko algoritmo bat erregresio lineala da.

Analisi iragarlean erabiltzen da aldagai menpeko eta independenteen arteko lotura lineala zehazteko.

Erregresio linealaren ekuazioa honako hau da:

Y = A + BX

non:

Sarrera edo aldagai independenteari X deitzen zaio.
Menpeko edo irteerako aldagaia Y da.
X-ren koefizientea b da, eta bere ebakidura a.

9. Deskribatu KNN eta k-means clustering-en arteko desberdintasunak.

Bereizketa nagusia da KNNk (sailkapen metodo bat, ikaskuntza gainbegiratua) puntu etiketatuak behar dituela, eta k-means-ek ez (clustering algoritmoa, gainbegiratu gabeko ikaskuntza).

Etiketatutako datuak etiketarik gabeko puntu batean sailka ditzakezu K-Nearest Neighbors erabiliz. K-means clustering-ek puntuen arteko batez besteko distantzia erabiltzen du etiketarik gabeko puntuak nola taldekatzen ikasteko.

10. Zer esan nahi du zuretzat "hautaketa-alborapena"?

Esperimentu baten laginketa fasearen alborapena zehaztasun ez estatistikoari dagokio.

Lagin-talde bat esperimentuko beste taldeak baino maizago aukeratzen da zehaztasunik ezaren ondorioz.

Hautaketa-alborapena onartzen ez bada, ondorio okerra atera daiteke.

11. Zer da zehazki Bayesen teorema?

Beste probabilitate batzuen berri dugunean, Bayesen teorema erabiliz probabilitate bat zehaztu dezakegu. Aurretiazko informazioan oinarritutako gertaera baten ondorengo probabilitatea eskaintzen du, hau da.

Teorema honek baldintzazko probabilitateak estimatzeko metodo ona eskaintzen du.

Sailkapen-predikzio-modelizazio-arazoak garatzen direnean eta eredu bat prestakuntza bati egokitzean datu-multzoa ikaskuntza automatikoan, Bayesen teorema aplikatzen da (hau da, Naive Bayes, Bayes Optimal Sailer).

12. Machine Learning Eredu batean, zer dira 'entrenamendu multzoa' eta 'proba multzoa'?

Entrenamendu multzoa:

Prestakuntza-multzoa eredura bidaltzen diren instantziaz osatuta dago, aztertzeko eta ikasteko.
Hau da eredua trebatzeko erabiliko diren etiketatutako datuak.
Normalean, datu guztien % 70 erabiltzen da prestakuntza-datu multzo gisa.

Proba multzoa:

Test multzoa ereduaren hipotesiak sortzeko zehaztasuna ebaluatzeko erabiltzen da.
Etiketatutako daturik gabe probatzen dugu eta, ondoren, etiketak erabiltzen ditugu emaitzak berresteko.
Gainerako % 30 proba datu multzo gisa erabiltzen da.

13. Zer da hipotesi bat ikaskuntza automatikoan?

Machine Learning-ek lehendik dauden datu multzoak erabiltzea ahalbidetzen du, sarrera eta irteera lotzen dituen funtzio jakin bat hobeto ulertzeko. Funtzio hurbilketa bezala ezagutzen da.

Kasu honetan, hurbilketa erabili behar da helburu-funtzio ezezagunarentzat, emandako egoeran oinarritutako behaketa pentsagarri guztiak ahalik eta modurik onenean transferitzeko.

Ikaskuntza automatikoan, hipotesi bat xede-funtzioa estimatzen eta sarrera-irteera mapea egokiak osatzen laguntzen duen eredua da.

Algoritmoen hautaketa eta diseinuak eredu baten bidez irudika daitezkeen hipotesi posibleen espazioa definitzeko aukera ematen du.

Hipotesi bakar baterako, h (h) minuskula erabiltzen da, baina h (H) larria erabiltzen da bilatzen ari den hipotesi-espazio osorako. Notazio hauek laburki berrikusiko ditugu:

Hipotesi bat (h) sarrera-irteeraren mapaketa errazten duen eredu jakin bat da, gero ebaluaziorako eta iragarpenerako erabil daitekeena.
Hipotesi-multzoa (H) hipotesien espazio bilaketa bat da, sarrera eta irteerak mapatzeko erabil daitekeena. Arazoen markoa, eredua eta ereduaren konfigurazioa muga generikoen adibide batzuk dira.

14. Zer esan nahi du ikaskuntza automatikoaren gehiegizko egokitzea, eta nola ekidin daiteke?

Makina bat datu multzo eskas batetik ikasten saiatzen denean, gehiegizko egokitzapena gertatzen da.

Ondorioz, gehiegizko egokitzea datu-bolumenarekin alderantziz erlazionatuta dago. Baliozkotze gurutzatuaren ikuspegiari esker, datu multzo txikietan gehiegizko egokitzea saihestu daiteke. Metodo honetan datu multzo bat bi zatitan banatzen da.

Proba eta prestakuntzarako datu multzoak bi zati hauek izango ditu. Prestakuntza-datu-multzoa eredu bat sortzeko erabiltzen da, proba-datu-multzoa, berriz, eredua balioesteko sarrera desberdinak erabiliz.

Hau da gehiegizko egokitzea saihesteko.

15. Zer dira zehazki Naive Bayes sailkatzaileak?

Hainbat sailkapen metodok osatzen dute Naive Bayes sailkatzaileak. Sailkatzaile hauek izenez ezagutzen diren algoritmo multzo batek oinarrizko ideia bera lantzen du.

Bayesen sailkatzaile inozoek egiten duten hipotesiaren arabera, ezaugarri baten presentziak edo ezak ez du inolako eraginik beste ezaugarri baten presentziarekin edo ezarekin.

Beste era batera esanda, hori da "inozoa" deitzen dioguna, datu-multzoaren atributu bakoitza berdin esanguratsua eta independentea dela suposatzen baitu.

Sailkapena Bayes sailkatzaile inozoak erabiliz egiten da. Erabiltzeko errazak dira eta iragarle konplexuagoak baino emaitza hobeak ematen dituzte independentziaren premisa egia denean.

Testu-analisian, spam-iragaztean eta gomendio sistemetan erabiltzen dira.

16. Zer esan nahi dute Kostu Funtzioek eta Galera Funtzioek?

"Gale-funtzioa" esaldiek galeraren konputazio prozesuari egiten dio erreferentzia, datu bakarra kontuan hartzen denean.

Aitzitik, kostu-funtzioa erabiltzen dugu datu askoren akatsen kopuru osoa zehazteko. Ez dago bereizketa esanguratsurik.

Beste era batera esanda, kostu-funtzioek prestakuntza-datu-multzo osoaren aldea gehitzen duten bitartean, galera-funtzioak erregistro bakarrerako benetako eta aurreikusitako balioen arteko aldea harrapatzeko diseinatuta daude.

17. Zerk bereizten du eredu sortzaile bat eredu diskriminatzaile batetik?

Eredu diskriminatzaile batek hainbat datu-kategorien arteko desberdintasunak ikasten ditu. Sorkuntza-eredu batek datu mota desberdinak jasotzen ditu.

Sailkapen-arazoetan, diskriminazio-ereduek beste eredu batzuk gainditzen dituzte askotan.

18. Deskribatu I motako eta II motako erroreen arteko aldaerak.

Positibo faltsuak I motako erroreen kategorian sartzen dira, eta negatibo faltsuak II motako erroreen menpe daude (benetan gertatu denean ezer gertatu ez dela aldarrikatuz).

19. Ikaskuntza automatikoan, zer da Ensemble ikasteko teknika?

Ensemble learning izeneko teknika batek ikaskuntza automatikoko eredu asko nahasten ditu eredu indartsuagoak sortzeko.

Eredu bat hainbat arrazoirengatik alda daiteke. Hainbat arrazoi hauek dira:

Hainbat Populazio
Hainbat Hipotesi
Hainbat modelaketa metodo

Arazo bat aurkituko dugu ereduaren prestakuntza- eta proba-datuak erabiltzean. Alborapena, bariantza eta errore murriztezina dira akats honen mota posibleak.

Orain, ereduko alborapenaren eta bariantza arteko oreka honi alborapenaren eta bariantzaren arteko truke deitzen diogu, eta beti egon beharko luke. Konpromiso hori taldekako ikaskuntzaren bidez lortzen da.

Hainbat planteamendu multzo eskuragarri dauden arren, eredu asko konbinatzeko bi estrategia komun daude:

Bagging izeneko jatorrizko ikuspegi batek prestakuntza-multzoa erabiltzen du prestakuntza-multzo osagarriak sortzeko.
Boosting, teknika sofistikatuagoa: poltsak egitearen antzera, boosting entrenamendu-multzo baterako ponderazio-formula aproposa aurkitzeko erabiltzen da.

20. Zer dira zehazki eredu parametrikoak? Eman adibide bat.

Eredu parametrikoetan parametro kopuru mugatua dago. Datuak aurreikusteko, modeloaren parametroak besterik ez dira jakin behar.

Hauek dira adibide tipikoak: erregresio logistikoa, erregresio lineala eta SVM linealak. Eredu ez-parametrikoak malguak dira, parametro kopuru mugagabea izan dezaketelako.

Datuen iragarpenetarako ereduaren parametroak eta behatutako datuen egoera beharrezkoak dira. Hona hemen adibide tipiko batzuk: gai-ereduak, erabaki zuhaitzak eta k-hurbilen dauden bizilagunak.

21. Elkarlaneko iragazketa deskribatzea. Baita edukietan oinarritutako iragazketa ere?

Egokitutako edukien iradokizunak sortzeko probatutako metodo bat lankidetza-iragazkia da.

Iragazki kolaboratiboa deritzon gomendio-sistema mota batek material berria iragartzen du, erabiltzaileen hobespenak eta partekatutako interesekin orekatuz.

Erabiltzaileen hobespenak dira edukietan oinarritutako gomendio sistemek kontuan hartzen duten gauza bakarra. Erabiltzaileak aurretik egindako hautapenen arabera, gomendio berriak ematen dira erlazionatutako materialetatik.

22. Zer esan nahi duzu zehazki Time seriearekin?

Denbora seriea goranzko ordenan dauden zenbakien bilduma da. Aurrez zehaztutako denbora-tarte batean, hautatutako datu-puntuen mugimendua kontrolatzen du eta aldian-aldian datu-puntuak harrapatzen ditu.

Ez dago denbora-serieetarako gutxieneko edo gehienezko denbora-sarrerarik.

Denbora-serieak maiz erabiltzen dituzte analistek datuak beren eskakizun berezien arabera aztertzeko.

23. Deskribatu Gradient Boosting eta Random Forest algoritmoen arteko aldaerak.

Ausazko basoa:

Erabaki-zuhaitz ugari batu egiten dira amaieran eta ausazko baso gisa ezagutzen dira.
Gradientea areagotzeak zuhaitz bakoitza besteetatik independentean sortzen duen bitartean, ausazko basoak zuhaitz bakoitza banan-banan eraikitzen du.
Klase anitzekoa objektuak hautematea ausazko basoekin ondo funtzionatzen du.

Gradientea areagotzea:

Ausazko basoak prozesuaren amaieran erabaki-zuhaitzekin bat egiten duten bitartean, Gradient Boosting Machines-ek hasieratik konbinatzen ditu.
Parametroak behar bezala doitzen badira, gradientearen sustapenak ausazko basoei gainditzen die emaitzei dagokienez, baina ez da aukera adimenduna datu-multzoak outliers, anomaliak edo zarata asko baditu, eredua gehiegi egokitzea eragin dezakeelako.
Datu desorekatuak daudenean, denbora errealeko arriskuen ebaluazioan dagoen bezala, gradientearen sustapena ondo funtzionatzen du.

24. Zergatik behar duzu nahaste matrizea? Zer da hori?

Nahasmen-matrizea izenez ezagutzen den taula, batzuetan errore-matrizea bezala ezagutzen dena, oso erabilia da sailkapen-eredu edo sailkatzaile batek balio errealak ezagutzen dituen proba-datu multzo batean nola funtzionatzen duen erakusteko.

Eredu edo algoritmo batek nola funtzionatzen duen ikusteko aukera ematen digu. Erraza egiten zaigu hainbat ikastaroren artean gaizki-ulertuak antzematea.

Eredu edo algoritmo bat nola egiten den ebaluatzeko modua da.

Sailkapen-eredu baten iragarpenak nahasmen-matrize batean biltzen dira. Klaseko etiketa bakoitzaren zenbaketa-balioak iragarpen zuzenen eta okerren kopuru osoa apurtzeko erabili ziren.

Sailkatzaileak egindako akatsei buruzko xehetasunak ematen ditu eta baita sailkatzaileek eragindako akats mota ezberdinei buruz ere.

25. Zer da zehazki osagai printzipioen analisia?

Elkarrekin erlazionatuta dauden aldagaien kopurua gutxituz, helburua datu-bilketaren dimentsioa minimizatzea da. Baina garrantzitsua da aniztasuna ahalik eta gehien mantentzea.

Aldagaiak osagai nagusi izeneko aldagai multzo guztiz berri batean aldatzen dira.

PC hauek ortogonalak dira, kobariantza-matrize baten bektore propioak baitira.

26. Zergatik da hain erabakigarria osagaien biraketa PCArako (osagai nagusien analisia)?

Errotazioa funtsezkoa da PCAn, osagai bakoitzak lortutako bariantzen arteko bereizketa optimizatzen duelako, osagaien interpretazioa erraztuz.

Osagai hedatuak eskatzen ditugu osagaien aldakuntza adierazteko osagaiak biratzen ez badira.

27. Nola aldatzen dira erregularizazioa eta normalizazioa bata bestearengandik?

Normalizazioa:

Normalizazioan datuak aldatzen dira. Datuak normalizatu behar dituzu, oso desberdinak diren eskalak baditu, batez ere baxutik altuera. Doitu zutabe bakoitza oinarrizko estatistika guztiak bateragarriak izan daitezen.

Zehaztasun galerarik ez dagoela ziurtatzeko, hau erabilgarria izan daiteke. Seinalea detektatzea zaratari jaramonik egin gabe da ereduen prestakuntzaren helburuetako bat.

Gehiegi egokitzeko aukera dago ereduari kontrol osoa ematen bazaio errorea murrizteko.

Erregularizazioa:

Erregularizazioan, iragarpen funtzioa aldatzen da. Hori nolabaiteko kontrol baten menpe dago erregularizazioaren bidez, eta horrek egokitze-funtzio sinpleagoak hobesten ditu konplikatuen aldean.

28. Zertan bereizten dira normalizazioa eta normalizazioa elkarrengandik?

Ezaugarriak eskalatzeko gehien erabiltzen diren bi teknikak normalizazioa eta estandarizazioa dira.

Normalizazioa:

Datuak [0,1] barruti batera egokitzeko eskalatzea normalizazioa deritzo.
Parametro guztiek eskala positibo berdina izan behar dutenean, normalizazioa lagungarria da, baina datu-multzoaren aberetasunak galtzen dira.

Erregularizazioa:

Datuak berriro eskalatzen dira 0ko batezbestekoa eta 1eko desbideratze estandarra izateko estandarizazio-prozesuaren zati gisa (unitatearen bariantza)

29. Zer esan nahi du zehazki "bariantza inflazio-faktorea"?

Aldagai independente bakarra duen ereduaren bariantza eta ereduaren bariantza proportzioari aldagaiaren inflazio faktorea (VIF) deritzo.

VIF-ek erregresio-aldagai batzuen multzo batean dagoen multikolinealtasun-kopurua estimatzen du.

Ereduaren bariantza (VIF) Aldagai independente bakarreko eredua

30. Entrenamendu-multzoaren tamainaren arabera, nola hautatzen duzu sailkatzailea?

Alborapen handiko eta bariantza baxuko ereduak hobeto funtzionatzen du prestakuntza-multzo labur baterako, gehiegizko egokitzea litekeena delako. Naive Bayes adibide bat da.

Entrenamendu-multzo handi baterako interakzio konplikatuagoak irudikatzeko, alborapen txikia eta bariantza handiko eredua hobe da. Erregresio logistikoa adibide ona da.

31. Zer algoritmo deitzen zaio ikaskuntza automatikoan "ikasle alferra" eta zergatik?

Ikasle geldoa, KNN ikaskuntza automatikoko algoritmoa da. K-NN-k distantzia dinamikoki kalkulatzen duelako entrenamendu-datuetatik makinaz ikasitako balio edo aldagaiak ikasi beharrean sailkatu nahi duen bakoitzean, entrenamendu-datu multzoa memorizatzen du.

Horrek K-NN ikasle alferra bihurtzen du.

32. Zer dira ROC Kurba eta AUC?

Sailkapen-eredu baten errendimendua atalase guztietan grafikoki irudikatzen da ROC kurbak. Benetako tasa positiboa eta faltsu tasa tasa irizpideak ditu.

Besterik gabe, ROC kurbaren azpian dagoen eremua AUC (Area Under the Curve) bezala ezagutzen da. ROC kurbaren bi dimentsioko azalera (0,0)tik AUCra neurtzen da (1,1). Sailkapen eredu bitarrak ebaluatzeko, errendimendu estatistiko gisa erabiltzen da.

33. Zer dira hiperparametroak? Zerk bereizten ditu ereduaren parametroetatik?

Ereduaren barne aldagai bat ereduaren parametro gisa ezagutzen da. Prestakuntza-datuak erabiliz, parametro baten balioa gutxi gorabehera.

Ereduarentzat ezezaguna, hiperparametro bat aldagai bat da. Balioa ezin da datuetatik zehaztu, beraz, maiz erabiltzen dira ereduaren parametroak kalkulatzeko.

34. Zer esan nahi dute F1 Score, recall eta zehaztasuna?

Nahaste-neurria sailkapen-ereduaren eraginkortasuna neurtzeko erabiltzen den metrika da. Esaldi hauek erabil daitezke nahasmen-metria hobeto azaltzeko:

TP: Egiazko Positiboak - Behar bezala aurreikusi ziren balio positiboak dira. Proiektatutako klasearen eta benetako klasearen balioak biak positiboak direla iradokitzen du.

TN: Egia negatiboak- Zehaztasunez aurreikusitako balio kaltegarriak dira. Benetako klasearen eta aurreikusitako klasearen balioa negatiboak direla iradokitzen du.

Balio hauek —positibo faltsuak eta negatibo faltsuak— zure benetako klasea aurreikusitako klasetik desberdina denean gertatzen dira.

Orain,

Benetako tasa positiboaren (TP) benetako klasean egindako behaketa guztien arteko erlazioari gogoratzea deitzen zaio, sentikortasuna ere deitzen zaio.

Memoria TP/(TP+FN) da.

Zehaztasuna balio iragarpen positiboaren neurria da, ereduak benetan aurreikusten duen positibo kopurua eta zehaztasunez aurreikusten dituen zenbat positibo zuzenekin alderatzen duena.

Zehaztasuna TP/(TP + FP) da

Ulertzen den errendimendu-neurririk errazena zehaztasuna da, hau da, behar bezala aurreikusitako behaketen proportzioa behaketa guztiekiko.

Zehaztasuna (TP+TN)/(TP+FP+FN+TN) berdina da.

Doitasuna eta Recall haztatu eta batez bestekoa egiten dira F1 puntuazioa emateko. Ondorioz, puntuazio honek positibo faltsuak zein negatibo faltsuak hartzen ditu kontuan.

F1 maiz baliotsuagoa da zehaztasuna baino, batez ere klase banaketa desberdina baduzu, nahiz eta intuitiboki zehaztasuna bezain erraza ez den ulertzea.

Zehaztasun onena positibo faltsuen eta negatibo faltsuen kostua parekatzen denean lortzen da. Hobe da Zehaztasuna eta Oroimena sartzea positibo faltsuekin eta negatibo faltsuekin lotutako kostuak nabarmen desberdinak badira.

35. Zer da zehazki balioztatze gurutzatua?

Ikaskuntza automatikoan baliozkotze gurutzatua izeneko birlaginketa estatistikoaren ikuspegi batek hainbat datu-multzo azpimultzo erabiltzen ditu ikaskuntza automatikoko algoritmo bat hainbat txandatan entrenatzeko eta ebaluatzeko.

Eredua entrenatzeko erabili ez den datu sorta berri bat baliozkotze gurutzatua erabiliz probatzen da, ereduak zein ondo aurreikusten duen ikusteko. Datuen gehiegizko egokitzea saihesten da baliozkotze gurutzatuaren bidez.

K-Fold Gehien erabiltzen den birlaginketa metodoak datu-multzo osoa tamaina berdineko K multzotan banatzen du. Balio gurutzatua deritzo.

36. Demagun zure ereduak bariantza nabarmena duela aurkitu duzula. Zein algoritmo da, zure ustez, egokiena egoera hori kudeatzeko?

Aldakortasun handia kudeatzea

Aldaera handiak dituzten arazoetarako poltsa-teknika erabili beharko genuke.

Ausazko datuen laginketa errepikatua poltsa-algoritmoak erabiliko luke datuak azpitaldetan banatzeko. Datuak banatu ondoren, ausazko datuak eta prestakuntza prozedura zehatz bat erabil ditzakegu arauak sortzeko.

Horren ostean, inkestak erabil litezke ereduaren iragarpenak konbinatzeko.

37. Zerk bereizten ditu Ridgeren erregresioa eta Lassoaren erregresioa?

Oso erabiliak diren bi erregularizazio metodo Lasso (L1 ere deitzen zaio) eta Ridge (batzuetan L2 deitzen zaio) erregresioa dira. Datuak gehiegi egokitzea saihesteko erabiltzen dira.

Soluzio onena aurkitzeko eta konplexutasuna gutxitzeko, teknika hauek koefizienteak zigortzeko erabiltzen dira. Koefizienteen balio absolutuen totala zigortuz, Lasso-erregresioak funtzionatzen du.

Ridge edo L2 erregresioan zigor-funtzioa koefizienteen karratuen baturatik ateratzen da.

38. Zein da garrantzitsuena: ereduaren errendimendua edo ereduaren zehaztasuna? Zein eta zergatik egingo diozu alde?

Galdera engainagarria da, beraz, lehenik eta behin ulertu beharko litzateke zer den Model Performance. Errendimendua abiadura gisa definitzen bada, orduan aplikazio motan oinarritzen da; Denbora errealeko egoera bat dakarren edozein aplikazio abiadura handia beharko luke osagai erabakigarri gisa.

Esate baterako, Bilaketa-emaitza onenak balio gutxiago izango dute Kontsulten emaitzak iristeko denbora gehiegi behar badute.

Errendimendua zehaztasunaren gainetik zehaztasunari eta gogoratzeari lehentasuna eman behar zaion justifikatzeko erabiltzen bada, orduan F1 puntuazioa zehaztasuna baino baliagarriagoa izango da desorekatua den edozein datu multzoren negozio kasua erakusteko.

39. Nola kudeatuko zenuke desberdintasunekin datu multzo bat?

Datu-multzo desorekatu batek laginketa-teknikez onura dezake. Laginketa laginketa azpian edo gehiegitan egin daiteke.

Under Sampling-ek gehiengoaren klasearen tamaina txikitzeko aukera ematen digu klase minoritarioarekin bat etortzeko, eta horrek biltegiratze eta exekuzio denboran abiadura handitzen laguntzen du, baina datu baliotsuak galtzea ere eragin dezake.

Gehiegizko laginketak eragindako informazio galeraren arazoa konpontzeko, Minority klasearen laginketa egiten dugu; hala ere, horrek gehiegizko egokitze-arazoekin topo egiten digu.

Estrategia gehigarriak hauek dira:

Cluster-en oinarritutako laginketa baino gehiago- Klase gutxiengo eta gehiengoko instantzia banaka K-means clustering teknikaren mende jartzen dira egoera honetan. Datu multzoen multzoak aurkitzeko egiten da. Ondoren, kluster bakoitza gain-laginketa egiten da, klase guztiek tamaina bera izan dezaten eta klase bateko kluster guztiek instantzia kopuru berdina izan dezaten.
SMOTE: Gutxiengo Sintetikoa Gain-Laginketa Teknika- Gutxiengoen klaseko datu zati bat erabiltzen da adibide gisa, eta horren ondoren, berarekin konparagarriak diren instantzia artifizial gehigarriak sortzen dira eta jatorrizko datu multzora gehitzen dira. Metodo honek ondo funtzionatzen du zenbakizko datu-puntuekin.

40. Nola bereiz ditzakezu boosting eta bagging artean?

Ensemble Techniques bagging eta boosting izenez ezagutzen diren bertsioak dituzte.

poltsa-

Aldakuntza handia duten algoritmoetarako, bagging bariantza jaisteko erabiltzen den teknika da. Alborapenerako joera duen sailkatzaileen familia horietako bat erabakien zuhaitzaren familia da.

Erabaki-zuhaitzak trebatzen dituen datu motak eragin handia du haien errendimenduan. Horregatik, nahiz eta doikuntza oso altua izan, batzuetan emaitzen orokortzea askoz zailagoa da horietan lortzea.

Erabaki-zuhaitzen prestakuntza-datuak aldatzen badira, emaitzak nabarmen aldatzen dira.

Ondorioz, bagging-a erabiltzen da, eta bertan erabaki-zuhaitz asko sortzen dira, eta horietako bakoitza jatorrizko datuen lagin bat erabiliz trebatzen da, eta azken emaitza eredu ezberdin horien guztien batez bestekoa da.

Sustapena:

Boosting n sailkatzaile ahulen sistema batekin iragarpenak egiteko teknika da, non sailkatzaile ahul bakoitzak bere sailkatzaile indartsuenen gabeziak konpontzen dituena. Datu-multzo jakin batean gaizki funtzionatzen duen sailkatzaileari "sailkatzaile ahula" esaten diogu.

Boosting algoritmo bat baino prozesu bat da, jakina. Erregresio logistikoa eta azaleko erabakien zuhaitzak sailkatzaile ahulen adibide arruntak dira.

Adaboost, Gradient Boosting eta XGBoost dira indartzeko bi algoritmo ezagunenak, hala ere, askoz gehiago daude.

41. Azaldu ikaskuntza induktiboa eta deduktiboaren arteko desberdintasunak.

Behatutako adibide multzo batetik adibidez ikasten denean, eredu batek ikaskuntza induktiboa erabiltzen du ondorio orokor batera iristeko. Bestalde, ikaskuntza deduktiboarekin, ereduak emaitza erabiltzen du berea osatu aurretik.

Ikaskuntza induktiboa behaketetatik ondorioak ateratzeko prozesua da.

Ikaskuntza deduktiboa inferentzian oinarritutako behaketak sortzeko prozesua da.

Ondorioa

Zorionak! Hauek dira orain erantzunak ezagutzen dituzun ikaskuntza automatikorako 40 elkarrizketa-galdera nagusiak. Datuen zientzia eta adimen artifizialeko lanbideek eskaera izaten jarraituko dute teknologiak aurrera egin ahala.

Punta-puntako teknologia hauei buruzko ezagutzak eguneratzen eta trebetasun-multzoa hobetzen duten hautagaiek lan-aukera ugari aurki ditzakete soldata lehiakorrekin.

Elkarrizketei erantzuten jarrai dezakezu orain, ikaskuntza automatikoko elkarrizketa-galdera batzuei nola erantzun ondo ulertuta.

Zure helburuen arabera, eman hurrengo urratsa. Prestatu elkarrizketak Hashdork-en bisitatuz Elkarrizketa Seriea.

40+ Machine Learning elkarrizketa-galdera nagusiak