40+ parimat masinõppe intervjuuküsimust (2024)

Sisukord[Peida][Näita]

1. Selgitage masinõppe, tehisintellekti ja süvaõppe erinevusi.
2. Palun kirjeldage masinõppe erinevaid tüüpe.
3. Mis on kallutatuse ja dispersiooni kompromiss?
4. Masinõppe algoritmid on aja jooksul oluliselt arenenud. Kuidas valida antud andmekogumi jaoks õige algoritm?
5. Kuidas erinevad kovariatsioon ja korrelatsioon?
6. Mida tähendab masinõppes klasterdamine?
7. Mis on teie eelistatud masinõppe algoritm?
8. Lineaarne regressioon masinõppes: mis see on?
9. Kirjeldage erinevusi KNN ja k-keskmiste klasterdamise vahel.
10. Mida tähendab teie jaoks "valiku eelarvamus"?
11. Mis täpselt on Bayesi teoreem?
12. Mis on masinõppemudelis „koolituskomplekt” ja „testikomplekt”?
13. Mis on masinõppe hüpotees?
14. Mida tähendab masinõppe liigne sobivus ja kuidas seda vältida?
15. Mis täpselt on Naive Bayesi klassifikaatorid?
16. Mida tähendavad kulu- ja kahjufunktsioonid?
17. Mis eristab generatiivset mudelit diskrimineerivast mudelist?
18. Kirjeldage I ja II tüüpi vigade erinevusi.
19. Mis on masinõppes Ensemble learning tehnika?
20. Mis täpselt on parameetrilised mudelid? Tooge näide.
21. Kirjeldage koostööpõhist filtreerimist. Nagu ka sisupõhine filtreerimine?
22. Mida sa täpsemalt ajaseeria all silmas pead?
23. Kirjeldage erinevusi Gradient Boosting ja Random Forest algoritmide vahel.
24. Miks on vaja segadusmaatriksit? Mis see on?
25. Mis täpselt on põhikomponentanalüüs?
26. Miks on komponentide pööramine PCA (põhikomponentide analüüsi) jaoks ülioluline?
27. Kuidas reguleerimine ja normaliseerimine erinevad üksteisest?
28. Mille poolest erinevad normaliseerimine ja standardimine üksteisest?
29. Mida täpselt tähendab “variatsiooniinflatsioonitegur”?
30. Kuidas valida klassifikaatorit treeningkomplekti suuruse põhjal?
31. Millist masinõppe algoritmi nimetatakse laisaks õppijaks ja miks?
32. Mis on ROC kõver ja AUC?
33. Mis on hüperparameetrid? Mis teeb need mudeli parameetritest ainulaadseks?
34. Mida F1 skoor, tagasikutsumine ja täpsus tähendavad?
35. Mis täpselt on ristvalideerimine?
36. Oletame, et avastasite, et teie mudelil on märkimisväärne dispersioon. Milline algoritm on teie arvates selle olukorra lahendamiseks kõige sobivam?
37. Mis eristab Ridge'i regressiooni Lasso regressioonist?
38. Kumb on olulisem: mudeli jõudlus või mudeli täpsus? Millist ja miks eelistate?
39. Kuidas haldaksite ebavõrdsustega andmekogumit?
40. Kuidas teha vahet tõstmisel ja kottimisel?
41. Selgitage induktiivse ja deduktiivse õppimise erinevusi.
Järeldus

Ettevõtted kasutavad tipptehnoloogiat, nagu tehisintellekt (AI) ja masinõpe, et parandada teabe ja teenuste kättesaadavust üksikisikutele.

Neid tehnoloogiaid võtavad kasutusele mitmed tööstusharud, sealhulgas pangandus, rahandus, jaekaubandus, tootmine ja tervishoid.

Üks ihaldatumaid tehisintellekti kasutavaid organisatsioonilisi rolle on andmeteadlastel, tehisintellekti inseneridel, masinõppeinseneridel ja andmeanalüütikutel.

See postitus juhatab teid läbi erinevate masinõpe intervjuuküsimused põhilistest kuni keerukateni, et aidata teil valmistuda kõikideks küsimusteks, mida võidakse esitada oma ideaalset tööd otsides.

1. Selgitage masinõppe, tehisintellekti ja süvaõppe erinevusi.

Tehisintellekt kasutab mitmesuguseid masinõppe ja süvaõppe lähenemisviise, mis võimaldavad arvutisüsteemidel täita ülesandeid, kasutades loogika ja reeglitega inimesesarnast intelligentsust.

Masinõpe kasutab mitmesugust statistikat ja süvaõppe lähenemisviise, et võimaldada masinatel õppida oma varasematest töötulemustest ja saada osavamaks teatud ülesandeid iseseisvalt ilma inimese järelevalveta teha.

Deep Learning on algoritmide kogum, mis võimaldab tarkvaral endalt õppida ja täita mitmesuguseid ärilisi funktsioone, nagu näiteks hääle- ja pildituvastus.

Süsteemid, mis paljastavad oma mitmekihilisuse närvivõrgud tohutul hulgal õppimiseks vajalikke andmemahtusid, on võimelised tegema sügavat õppimist.

2. Palun kirjeldage masinõppe erinevaid tüüpe.

Masinõpet on üldiselt kolme erinevat tüüpi:

Juhendatud õpe: mudel loob ennustusi või hinnanguid, kasutades jälgitavas masinõppes märgistatud või ajaloolisi andmeid. Andmekogumeid, mis on nende tähenduse suurendamiseks sildistatud või sildistatud, nimetatakse märgistatud andmeteks.
Järelevalveta õppimine: meil pole järelevalveta õppimise jaoks märgistatud andmeid. Sissetulevates andmetes võib mudel leida mustreid, veidrusi ja korrelatsioone.
Tugevdusõpe: mudel suudab õppige tugevdamist kasutades õppimist ja selle eelneva käitumise eest saadud tasusid.

3. Mis on kallutatuse ja dispersiooni kompromiss?

Ülesobitamine on eelarvamuse tulemus, mis näitab, mil määral mudel andmetega sobib. Eelarvamused on põhjustatud teie valedest või liiga lihtsatest eeldustest masinõppe algoritm.

Dispersioon viitab vigadele, mis on põhjustatud teie ML-algoritmi keerukusest, mis tekitab tundlikkust treeningandmete suurte variatsioonide ja ülepaigutamise suhtes.

Dispersioon on see, kui palju mudel varieerub sõltuvalt sisenditest.

Teisisõnu, põhimudelid on äärmiselt kallutatud, kuid stabiilsed (väike dispersioon). Keeruliste mudelite puhul on probleemiks liigne paigaldamine, kuigi need kajastavad sellegipoolest mudeli tegelikkust (madal kallutatus).

Nii suure variatsiooni kui ka suure kallutatuse vältimiseks on parima vea vähendamiseks vajalik kompromiss nihke ja dispersiooni vahel.

4. Masinõppe algoritmid on aja jooksul oluliselt arenenud. Kuidas valida antud andmekogumi jaoks õige algoritm?

Masinaõppe tehnika, mida tuleks kasutada, sõltub ainult konkreetse andmestiku andmete tüübist.

Kui andmed on lineaarsed, kasutatakse lineaarset regressiooni. Kottimismeetod toimiks paremini, kui andmed näitaksid mittelineaarsust. Kui andmeid tuleb ärilistel eesmärkidel hinnata või tõlgendada, saame kasutada otsustuspuid või SVM-i.

Närvivõrgud võivad olla kasulikud täpse vastuse saamiseks, kui andmestik sisaldab fotosid, videoid ja heli.

Algoritmi valikut konkreetse olukorra või andmete kogumise jaoks ei saa teha ainult ühe meetme põhjal.

Parima sobivuse meetodi väljatöötamiseks peame esmalt uurima andmeid uurimusliku andmeanalüüsi (EDA) abil ja mõistma andmestiku kasutamise eesmärki.

5. Kuidas erinevad kovariatsioon ja korrelatsioon?

Kovariatsioon hindab, kuidas kaks muutujat on omavahel seotud ja kuidas üks võib muutuda vastusena teise muutumisele.

Kui tulemus on positiivne, näitab see, et muutujate vahel on otsene seos ja et põhimuutuja suurenemine või vähenemine tõuseks või väheneks, eeldades, et kõik muud tingimused jäävad konstantseks.

Korrelatsioon mõõdab seost kahe juhusliku muutuja vahel ja sellel on ainult kolm erinevat väärtust: 1, 0 ja -1.

6. Mida tähendab masinõppes klasterdamine?

Andmepunkte kokku rühmitavaid juhendamata õppemeetodeid nimetatakse klastriteks. Andmepunktide kogumi abil saab rakendada klastrite moodustamise tehnikat.

Seda strateegiat kasutades saate rühmitada kõik andmepunktid nende funktsioonide järgi.

Samasse kategooriasse kuuluvate andmepunktide omadused ja omadused on sarnased, samas kui eraldi rühmadesse kuuluvate andmepunktide omadused ja omadused on erinevad.

Seda lähenemisviisi saab kasutada statistiliste andmete analüüsimiseks.

7. Mis on teie eelistatud masinõppe algoritm?

Teil on selles küsimuses võimalus näidata oma eelistusi ja unikaalseid andeid ning oma põhjalikke teadmisi paljude masinõppetehnikate kohta.

Siin on mõned tüüpilised masinõppe algoritmid, mille üle mõelda.

Lineaarne regressioon
Logistiline regressioon
Naiivne Bayes
Otsustuspuud
K tähendab
Juhuslik metsa algoritm
K-lähim naaber (KNN)

8. Lineaarne regressioon masinõppes: mis see on?

Järelevalvega masinõppe algoritm on lineaarne regressioon.

Seda kasutatakse ennustavas analüüsis sõltuvate ja sõltumatute muutujate vahelise lineaarse seose määramiseks.

Lineaarse regressiooni võrrand on järgmine:

Y = A + BX

kus:

Sisend või sõltumatut muutujat nimetatakse X-ks.
Sõltuv või väljundmuutuja on Y.
X koefitsient on b ja selle lõikepunkt on a.

9. Kirjeldage erinevusi KNN ja k-keskmiste klasterdamise vahel.

Peamine erinevus seisneb selles, et KNN (klassifikatsioonimeetod, juhendatud õpe) vajab märgistatud punkte, samas kui k-keskmised mitte (klastrimisalgoritm, juhendamata õpe).

Saate liigitada märgistatud andmed märgistamata punktideks, kasutades K-Lähimad naabrid. K-keskmiste rühmitamine kasutab punktide vahelist keskmist kaugust, et õppida, kuidas märgistamata punkte rühmitada.

10. Mida tähendab teie jaoks "valiku eelarvamus"?

Katse proovivõtufaasi nihe on tingitud statistilisest ebatäpsusest.

Üks proovirühm valitakse ebatäpsuse tõttu sagedamini kui teised katserühmad.

Kui valiku kallutatust ei tunnistata, võib see põhjustada vale järelduse.

11. Mis täpselt on Bayesi teoreem?

Kui oleme teadlikud muudest tõenäosustest, saame tõenäosuse määrata Bayesi teoreemi abil. Teiste sõnadega, see pakub eelnevale teabele tugineva esinemise posterioorset tõenäosust.

See teoreem pakub usaldusväärse meetodi tingimuslike tõenäosuste hindamiseks.

Klassifikatsiooni ennustava modelleerimise probleemide väljatöötamisel ja mudeli sobitamisel koolitusele andmestik masinõppes, rakendatakse Bayesi teoreemi (st Naiivne Bayes, Bayesi optimaalne klassifikaator).

12. Mis on masinõppemudelis „koolituskomplekt” ja „testikomplekt”?

Treeningu komplekt:

Koolituskomplekt koosneb eksemplaridest, mis saadetakse mudelile analüüsiks ja õppimiseks.
Need on märgistatud andmed, mida kasutatakse mudeli koolitamiseks.
Tavaliselt kasutatakse treeningandmete kogumina 70% koguandmetest.

Testikomplekt:

Testikomplekti kasutatakse mudeli hüpoteesi genereerimise täpsuse hindamiseks.
Testime ilma märgistatud andmeteta ja seejärel kasutame tulemuste kinnitamiseks silte.
Ülejäänud 30% kasutatakse testandmestikuna.

13. Mis on masinõppe hüpotees?

Masinõpe võimaldab kasutada olemasolevaid andmekogumeid, et paremini mõista antud funktsiooni, mis seob sisendi väljundiga. Seda nimetatakse funktsiooni lähendamiseks.

Sel juhul tuleb tundmatu sihtfunktsiooni jaoks kasutada lähendamist, et parimal võimalikul viisil edastada kõik mõeldavad vaatlused antud olukorrast.

Masinõppes on hüpotees mudel, mis aitab hinnata sihtfunktsiooni ja viia lõpule vastavad sisend-väljund vastendused.

Algoritmide valik ja kavandamine võimaldavad määratleda võimalike hüpoteeside ruumi, mida saab mudeliga esitada.

Ühe hüpoteesi puhul kasutatakse väiketähti h (h), kuid suurt h (H) kasutatakse kogu otsitava hüpoteesiruumi jaoks. Vaatame lühidalt üle need tähistused:

Hüpotees (h) on konkreetne mudel, mis hõlbustab sisendi ja väljundi vastendamist, mida saab hiljem kasutada hindamiseks ja prognoosimiseks.
Hüpoteesikomplekt (H) on otsitav hüpoteeside ruum, mida saab kasutada sisendite ja väljundite vastendamiseks. Probleemi raamimine, mudel ja mudeli konfiguratsioon on mõned näited üldistest piirangutest.

14. Mida tähendab masinõppe liigne sobivus ja kuidas seda vältida?

Kui masin proovib õppida ebapiisavast andmekogumist, toimub ülepaigutamine.

Selle tulemusena on ülepaigutamine pöördvõrdelises korrelatsioonis andmemahuga. Ristvalideerimise lähenemisviis võimaldab vältida väikeste andmekogumite ülepaigutamist. Selle meetodi puhul jagatakse andmestik kaheks osaks.

Testimise ja koolituse andmekogum koosneb nendest kahest osast. Koolitusandmestikku kasutatakse mudeli loomiseks, testimise andmekogumit aga mudeli hindamiseks erinevate sisendite abil.

Nii välditakse ülepaigutamist.

15. Mis täpselt on Naive Bayesi klassifikaatorid?

Naive Bayesi klassifikaatorid moodustavad erinevad klassifitseerimismeetodid. Nende klassifikaatoritena tuntud algoritmide komplekt töötab sama põhiidee kallal.

Naiivsete Bayesi klassifikaatorite oletus on, et ühe tunnuse olemasolu või puudumine ei mõjuta teise tunnuse olemasolu või puudumist.

Teisisõnu nimetame seda "naiivseks", kuna see eeldab, et iga andmestiku atribuut on võrdselt oluline ja sõltumatu.

Klassifitseerimine toimub naiivsete Bayesi klassifikaatorite abil. Neid on lihtne kasutada ja need annavad paremaid tulemusi kui keerulisemad ennustajad, kui sõltumatuse eeldus on tõsi.

Neid kasutatakse tekstianalüüsis, rämpsposti filtreerimises ja soovitussüsteemides.

16. Mida tähendavad kulu- ja kahjufunktsioonid?

Väljend "kaofunktsioon" viitab arvutuskao arvutamise protsessile, kui arvesse võetakse ainult ühte andmeosa.

Seevastu kasutame kulufunktsiooni, et määrata paljude andmete vigade kogusumma. Olulist vahet ei ole.

Teisisõnu, kui kulufunktsioonid agregeerivad kogu koolitusandmestiku erinevuse, siis kahjufunktsioonid on loodud ühe kirje tegelike ja prognoositud väärtuste erinevuse jäädvustamiseks.

17. Mis eristab generatiivset mudelit diskrimineerivast mudelist?

Diskriminatiivne mudel õpib tundma erinevusi mitme andmekategooria vahel. Generatiivne mudel kasutab erinevaid andmetüüpe.

Klassifitseerimisprobleemide osas ületavad diskrimineerivad mudelid sageli teisi mudeleid.

18. Kirjeldage I ja II tüüpi vigade erinevusi.

Valenegatiivsed kuuluvad I tüüpi vigade kategooriasse, samas kui valenegatiivsed II tüüpi vigade kategooriasse (väidetakse, et midagi pole juhtunud, kui tegelikult on).

19. Mis on masinõppes Ensemble learning tehnika?

Tehnika, mida nimetatakse ansambliõppeks, segab palju masinõppemudeleid, et luua tõhusamaid mudeleid.

Mudelit võib erinevatel põhjustel muuta. Põhjused on mitmed:

Erinevad populatsioonid
Erinevad hüpoteesid
Erinevad modelleerimismeetodid

Mudeli koolitus- ja testimisandmete kasutamisel ilmneb probleem. Eelarvamus, dispersioon ja taandamatu viga on selle vea võimalikud tüübid.

Nüüd nimetame seda tasakaalu nihke ja dispersiooni vahel mudelis nihke-variatsiooni kompromissiks ja see peaks alati eksisteerima. See kompromiss saavutatakse ansambliõppe abil.

Kuigi saadaval on erinevad ansamblipõhised lähenemisviisid, on paljude mudelite kombineerimiseks kaks ühist strateegiat:

Natiivne lähenemisviis, mida nimetatakse kottimiseks, kasutab treeningkomplekti täiendavate treeningkomplektide loomiseks.
Tugevdamine, keerukam tehnika: sarnaselt kottidesse panemisega kasutatakse võimendamist treeningkomplekti jaoks ideaalse kaaluvalemi leidmiseks.

20. Mis täpselt on parameetrilised mudelid? Tooge näide.

Parameetrilistes mudelites on piiratud arv parameetreid. Andmete prognoosimiseks peate teadma ainult mudeli parameetreid.

Tüüpilised näited on järgmised: logistiline regressioon, lineaarne regressioon ja lineaarsed SVM-id. Mitteparameetrilised mudelid on paindlikud, kuna võivad sisaldada piiramatul arvul parameetreid.

Andmete prognoosimiseks on vaja mudeli parameetreid ja vaadeldavate andmete olekut. Siin on mõned tüüpilised näited: teemamudelid, otsustuspuud ja k-lähimad naabrid.

21. Kirjeldage koostööpõhist filtreerimist. Nagu ka sisupõhine filtreerimine?

Läbiproovitud meetod kohandatud sisusoovituste loomiseks on koostööpõhine filtreerimine.

Soovitussüsteemi vorm, mida nimetatakse koostööks filtreerimiseks, ennustab värsket materjali, tasakaalustades kasutaja eelistusi ühiste huvidega.

Kasutaja eelistused on ainus asi, mida sisupõhised soovitussüsteemid arvestavad. Kasutaja varasemaid valikuid silmas pidades pakutakse seotud materjalist uusi soovitusi.

22. Mida sa täpsemalt ajaseeria all silmas pead?

Aegrida on arvude kogum kasvavas järjekorras. Etteantud ajavahemiku jooksul jälgib see valitud andmepunktide liikumist ja jäädvustab perioodiliselt andmepunkte.

Aegridade jaoks ei ole minimaalset ega maksimaalset ajasisendit.

Analüütikud kasutavad aegridu sageli andmete analüüsimiseks vastavalt oma ainulaadsetele nõuetele.

23. Kirjeldage erinevusi Gradient Boosting ja Random Forest algoritmide vahel.

Juhuslik mets:

Suur hulk otsustuspuid koondatakse lõpus ja neid nimetatakse juhuslikeks metsadeks.
Kui gradiendi suurendamine toodab iga puu teistest sõltumatult, siis juhuslik mets ehitab iga puu ükshaaval.
Multiklass objektide tuvastamine sobib hästi juhuslike metsadega.

Gradiendi suurendamine:

Kui juhuslikud metsad ühinevad otsustuspuudega protsessi lõpus, siis Gradient Boosting Machines ühendavad need algusest peale.
Kui parameetreid on õigesti kohandatud, ületab gradiendi võimendamine tulemuste poolest juhuslikke metsi, kuid see ei ole tark valik, kui andmekogumil on palju kõrvalekaldeid, kõrvalekaldeid või müra, kuna see võib põhjustada mudeli liigne sobivust.
Kui andmed on tasakaalustamata, nagu reaalajas riskihindamise puhul, toimib gradiendi võimendamine hästi.

24. Miks on vaja segadusmaatriksit? Mis see on?

Tabelit, mida nimetatakse segadusmaatriksiks, mida mõnikord nimetatakse ka veamaatriksiks, kasutatakse laialdaselt selleks, et näidata, kui hästi toimib klassifitseerimismudel või klassifikaator testandmete kogumi puhul, mille tegelikud väärtused on teada.

See võimaldab meil näha, kuidas mudel või algoritm toimib. Tänu sellele on meil erinevatel kursustel lihtne märgata arusaamatusi.

See on viis mudeli või algoritmi toimimise hindamiseks.

Klassifitseerimismudeli ennustused koostatakse segadusmaatriksiks. Iga klassi sildi loendusväärtusi kasutati õigete ja valede ennustuste koguarvu jaotamiseks.

See sisaldab üksikasju nii klassifikaatori tehtud vigade kui ka erinevate klassifikaatorite põhjustatud vigade kohta.

25. Mis täpselt on põhikomponentanalüüs?

Üksteisega korrelatsioonis olevate muutujate arvu minimeerimisega on eesmärk minimeerida andmete kogumise dimensioonilisust. Kuid on oluline säilitada mitmekesisus nii palju kui võimalik.

Muutujad muudetakse täiesti uueks muutujate komplektiks, mida nimetatakse põhikomponentideks.

Need arvutid on ortogonaalsed, kuna need on kovariatsioonimaatriksi omavektorid.

26. Miks on komponentide pööramine PCA (põhikomponentide analüüsi) jaoks ülioluline?

Pööramine on PCA-s ülioluline, kuna see optimeerib iga komponendi saadud dispersioonide eraldamist, muutes komponentide tõlgendamise lihtsamaks.

Kui komponente ei pöörata, vajame komponentide varieerumise väljendamiseks laiendatud komponente.

27. Kuidas reguleerimine ja normaliseerimine erinevad üksteisest?

Normaliseerimine:

Andmeid muudetakse normaliseerimise ajal. Peaksite andmed normaliseerima, kui nende skaala on drastiliselt erinev, eriti madalast kõrgeni. Kohandage iga veergu nii, et põhistatistika ühilduks.

See võib olla kasulik täpsuse kadumise vältimiseks. Signaali tuvastamine müra eirates on üks mudelitreeningu eesmärke.

Kui mudelile antakse vigade vähendamiseks täielik kontroll, on ülepaigutamise võimalus.

Reguleerimine:

Regulariseerimisel muudetakse ennustusfunktsiooni. Seda reguleeritakse teatud määral reguleerimise teel, mis eelistab lihtsamaid sobitusfunktsioone keerukatele.

28. Mille poolest erinevad normaliseerimine ja standardimine üksteisest?

Kaks kõige laialdasemalt kasutatavat funktsioonide skaleerimise tehnikat on normaliseerimine ja standardimine.

Normaliseerimine:

Andmete skaleerimist, et see sobiks vahemikuga [0,1], nimetatakse normaliseerimiseks.
Kui kõigil parameetritel peab olema sama positiivne skaala, on normaliseerimine abiks, kuid andmekogumi kõrvalekalded lähevad kaotsi.

Reguleerimine:

Andmed muudetakse standardimisprotsessi käigus nii, et nende keskmine oleks 0 ja standardhälve 1 (ühiku dispersioon)

29. Mida täpselt tähendab “variatsiooniinflatsioonitegur”?

Mudeli dispersiooni ja ainult ühe sõltumatu muutujaga mudeli dispersiooni suhet nimetatakse variatsiooniinflatsiooniteguriks (VIF).

VIF hindab mitme regressioonimuutuja komplektis esineva multikollineaarsuse suurust.

Mudeli variatsioon (VIF) Mudel ühe sõltumatu muutuja dispersiooniga

30. Kuidas valida klassifikaatorit treeningkomplekti suuruse põhjal?

Suure kallutatusega ja väikese dispersiooniga mudel toimib lühikese treeningkomplekti puhul paremini, kuna ülepaigutamine on vähem tõenäoline. Naiivne Bayes on üks näide.

Suure treeningkomplekti keerukamate interaktsioonide esitamiseks eelistatakse väikese kalde ja suure dispersiooniga mudelit. Logistiline regressioon on hea näide.

31. Millist masinõppe algoritmi nimetatakse laisaks õppijaks ja miks?

Aeglane õppija KNN on masinõppe algoritm. Kuna K-NN arvutab dünaamiliselt distantsi iga kord, kui ta soovib klassifitseerida, selle asemel, et õppida treeningandmetest masinõpitud väärtusi või muutujaid, jätab see treeningandmete komplekti meelde.

See teeb K-NN-st laiska õppija.

32. Mis on ROC kõver ja AUC?

Klassifitseerimismudeli toimivus kõigil lävedel on graafiliselt kujutatud ROC kõveraga. Sellel on tõelise positiivse määra ja valepositiivse määra kriteeriumid.

Lihtsamalt öeldes on ROC kõvera alune ala tuntud kui AUC (ala ROC kõvera all). Mõõdetakse ROC kõvera kahemõõtmeline pindala (0,0) kuni AUC (1,1). Binaarsete klassifikatsioonimudelite hindamiseks kasutatakse seda toimivusstatistikana.

33. Mis on hüperparameetrid? Mis teeb need mudeli parameetritest ainulaadseks?

Mudeli sisemist muutujat tuntakse mudeli parameetrina. Kasutades treeningandmeid, on parameetri väärtus ligikaudne.

Mudelile teadmata on hüperparameeter muutuja. Väärtust ei saa andmete põhjal määrata, seetõttu kasutatakse neid sageli mudeli parameetrite arvutamiseks.

34. Mida F1 skoor, tagasikutsumine ja täpsus tähendavad?

Segaduse mõõt on klassifitseerimismudeli tõhususe mõõtmiseks kasutatav mõõdik. Segaduse mõõdiku paremaks selgitamiseks saab kasutada järgmisi fraase.

TP: tõelised positiivsed – need on positiivsed väärtused, mida oli õigesti ette nähtud. See viitab sellele, et prognoositava klassi ja tegeliku klassi väärtused on mõlemad positiivsed.

TN: tõelised negatiivsed – need on ebasoodsad väärtused, mis olid täpselt prognoositud. See viitab sellele, et nii tegeliku klassi väärtus kui ka eeldatav klass on negatiivsed.

Need väärtused – valepositiivsed ja valenegatiivsed – ilmnevad siis, kui teie tegelik klass erineb eeldatavast klassist.

Nüüd,

Tõelise positiivse määra (TP) suhet kõikidesse tegelikus klassis tehtud vaatlustesse nimetatakse tagasikutsumiseks, tuntud ka kui tundlikkus.

Tagasikutsumine on TP/(TP+FN).

Täpsus on positiivse ennustava väärtuse mõõt, mis võrdleb mudeli tegelikult ennustatud positiivsete arvuga, kui palju õigeid positiivseid see täpselt ennustab.

Täpsus on TP/(TP + FP)

Kõige hõlpsamini mõistetav jõudlusmõõdik on täpsus, mis on lihtsalt õigesti prognoositud vaatluste osakaal kõigist vaatlustest.

Täpsus on võrdne (TP+TN)/(TP+FP+FN+TN).

Täpsus ja tagasikutsumine on F1 skoori saamiseks kaalutud ja keskmistatud. Sellest tulenevalt arvestab see skoor nii valepositiivseid kui ka valenegatiivseid tulemusi.

F1 on sageli väärtuslikum kui täpsus, eriti kui teil on ebavõrdne klassijaotus, isegi kui intuitiivselt pole seda nii lihtne mõista kui täpsust.

Parim täpsus saavutatakse siis, kui valepositiivsete ja valenegatiivsete tulemuste hind on võrreldav. Kui valepositiivsete ja valenegatiivsete tulemustega seotud kulud erinevad oluliselt, on eelistatav lisada nii täpsus kui ka tagasivõtmine.

35. Mis täpselt on ristvalideerimine?

Masinõppes ristvalideerimiseks nimetatav statistiline kordusvalimimise lähenemisviis kasutab masinõppe algoritmi koolitamiseks ja hindamiseks mitmes voorus mitut andmestiku alamhulka.

Uut andmehulka, mida mudeli koolitamiseks ei kasutatud, testitakse ristvalideerimise abil, et näha, kui hästi mudel seda ennustab. Andmete ülepaigutamist välditakse ristvalideerimisega.

K-Fold Kõige sagedamini kasutatav resampling meetod jagab kogu andmestiku K võrdse suurusega komplektiks. Seda nimetatakse ristvalideerimiseks.

36. Oletame, et avastasite, et teie mudelil on märkimisväärne dispersioon. Milline algoritm on teie arvates selle olukorra lahendamiseks kõige sobivam?

Suure varieeruvuse juhtimine

Suurte variatsioonidega probleemide korral peaksime kasutama kottimistehnikat.

Pakkimisalgoritm kasutaks juhuslike andmete korduvat valimit, et jagada andmed alarühmadesse. Kui andmed on jagatud, saame reeglite loomiseks kasutada juhuslikke andmeid ja konkreetset treeningprotseduuri.

Pärast seda saab mudeli ennustuste kombineerimiseks kasutada küsitlust.

37. Mis eristab Ridge'i regressiooni Lasso regressioonist?

Kaks laialdaselt kasutatavat reguleerimismeetodit on Lasso (nimetatakse ka L1) ja Ridge (mõnikord L2) regressioon. Neid kasutatakse andmete ülepaigutamise vältimiseks.

Parima lahenduse leidmiseks ja keerukuse minimeerimiseks kasutatakse neid tehnikaid koefitsientide karistamiseks. Karistades koefitsientide absoluutväärtuste summat, toimib Lasso regressioon.

Ridge'i või L2 regressiooni karistusfunktsioon tuletatakse koefitsientide ruutude summast.

38. Kumb on olulisem: mudeli jõudlus või mudeli täpsus? Millist ja miks eelistate?

See on petlik küsimus, seega tuleks kõigepealt aru saada, mis on Model Performance. Kui jõudlus on määratletud kiirusena, sõltub see rakenduse tüübist; mis tahes rakendus, mis hõlmab reaalajas olukorda, nõuaks üliolulise komponendina suurt kiirust.

Näiteks muutuvad parimad otsingutulemused vähem väärtuslikuks, kui päringutulemuste saabumine võtab liiga kaua aega.

Kui jõudlust kasutatakse põhjenduseks, miks täpsust ja tagasikutsumist tuleks eelistada täpsusest kõrgemale, on F1 skoor kasulikum kui täpsus, et näidata ärilist olukorda mis tahes tasakaalustamata andmekogumi puhul.

39. Kuidas haldaksite ebavõrdsustega andmekogumit?

Tasakaalustamata andmekogum võib kasu saada valimivõtutehnikatest. Proovide võtmist saab teha kas ala- või ülevalimiga.

Under Sampling võimaldab meil vähendada enamusklassi suurust, et see vastaks vähemusklassile, mis aitab kiirendada salvestamist ja käitusaegset täitmist, kuid võib põhjustada ka väärtuslike andmete kadumise.

Ülevalimisest põhjustatud teabekao probleemi lahendamiseks teeme vähemusklassi valimi üles; sellegipoolest põhjustab see meil liigse sobitamise probleeme.

Täiendavad strateegiad hõlmavad järgmist:

Klastripõhine üleproovimine – vähemus- ja enamusklassi eksemplarid allutatakse selles olukorras individuaalselt K-keskmiste klastritehnikale. Seda tehakse andmekogumite klastrite leidmiseks. Seejärel valitakse üle iga klastri, nii et kõigil klassidel on sama suurus ja kõigil klassi kuuluvatel klastritel on võrdne arv esinemisjuhte.
SMOTE: Synthetic Minority Over-sampling Technique- Näitena kasutatakse vähemusklassi andmete lõiku, mille järel toodetakse täiendavad tehislikud eksemplarid, mis on sellega võrreldavad ja lisatakse algsesse andmekogumisse. See meetod töötab hästi numbriliste andmepunktidega.

40. Kuidas teha vahet tõstmisel ja kottimisel?

Ensemble Techniques'il on versioonid, mida nimetatakse kottimiseks ja võimendamiseks.

kotti pakkimine-

Suure variatsiooniga algoritmide puhul on kottimine meetod, mida kasutatakse dispersiooni vähendamiseks. Üks selline kallutatud klassifikaatorite perekond on otsustuspuu perekond.

Andmetüüp, mille kohta otsustuspuid koolitatakse, mõjutab oluliselt nende toimivust. Seetõttu on isegi väga kõrge peenhäälestusega tulemuste üldistamine nendes mõnikord palju raskem.

Kui otsustuspuude koolitusandmeid muudetakse, on tulemused oluliselt erinevad.

Selle tulemusena kasutatakse kottimist, mille käigus luuakse palju otsustuspuid, millest igaüks treenitakse algandmete valimi abil ja lõpptulemuseks on kõigi nende erinevate mudelite keskmine.

Tugevdamine:

Tugevdamine on n-nõrkade klassifikaatorite süsteemiga prognooside tegemise tehnika, milles iga nõrk klassifikaator korvab oma tugevamate klassifikaatorite puudused. Klassifikaatorit, mis antud andmekogumi puhul halvasti toimib, nimetame "nõrgaks klassifikaatoriks".

Tõustamine on ilmselgelt pigem protsess kui algoritm. Logistiline regressioon ja madalad otsustuspuud on nõrkade klassifikaatorite tavalised näited.

Adaboost, Gradient Boosting ja XGBoost on kaks kõige populaarsemat võimendusalgoritmi, kuid neid on palju rohkem.

41. Selgitage induktiivse ja deduktiivse õppimise erinevusi.

Vaadeldud näidete kogumi põhjal õppides kasutab mudel üldistatud järelduseni jõudmiseks induktiivset õppimist. Teisest küljest kasutab mudel deduktiivse õppimise korral tulemust enne oma moodustamist.

Induktiivne õppimine on vaatluste põhjal järelduste tegemise protsess.

Deduktiivne õppimine on järelduste põhjal vaatluste loomise protsess.

Järeldus

Õnnitlused! Need on 40 ja enam masinõppe intervjuuküsimust, millele teate nüüd vastuseid. Andmeteadus ja tehisintellekti ametid on tehnoloogia arenedes jätkuvalt nõutud.

Kandidaadid, kes värskendavad oma teadmisi nendest tipptehnoloogiatest ja täiustavad oma oskusi, võivad leida mitmesuguseid konkurentsivõimelise tasuga töövõimalusi.

Saate jätkata intervjuudele vastamist nüüd, kui teil on kindel arusaam, kuidas vastata mõnele laialdaselt esitatud masinõppeintervjuu küsimusele.

Sõltuvalt teie eesmärkidest tehke järgmine samm. Valmistuge intervjuudeks, külastades Hashdorki Intervjuude sari.

40+ parimat masinõppe intervjuuküsimust