40+ najbolj priljubljenih vprašanj za intervju o strojnem učenju (2024)

Kazalo[Skrij][Pokaži]

1. Pojasnite razlike med strojnim učenjem, umetno inteligenco in globokim učenjem.
2. Opišite različne vrste strojnega učenja.
3. Kakšen je kompromis med pristranskostjo in varianco?
4. Algoritmi strojnega učenja so se sčasoma znatno razvili. Kako izbrati pravi algoritem za uporabo danega nabora podatkov?
5. Kako se razlikujeta kovarianca in korelacija?
6. Kaj pomeni združevanje v gruče v strojnem učenju?
7. Kateri algoritem strojnega učenja imate najraje?
8. Linearna regresija v strojnem učenju: kaj je to?
9. Opišite razlike med KNN in k-means združevanjem v gruče.
10. Kaj za vas pomeni "pristranskost izbire"?
11. Kaj točno je Bayesov izrek?
12. Kaj sta 'nabor za usposabljanje' in 'testni nabor' v modelu strojnega učenja?
13. Kaj je hipoteza v strojnem učenju?
14. Kaj pomeni prekomerno opremljanje strojnega učenja in kako ga je mogoče preprečiti?
15. Kaj pravzaprav so Naivni Bayesovi klasifikatorji?
16. Kaj pomenita funkciji stroškov in funkciji izgube?
17. Kaj razlikuje generativni model od diskriminativnega modela?
18. Opišite razlike med napakami tipa I in tipa II.
19. Kaj je tehnika ansambelskega učenja pri strojnem učenju?
20. Kaj pravzaprav so parametrični modeli? Povej primer.
21. Opišite sodelovalno filtriranje. Pa tudi filtriranje na podlagi vsebine?
22. Kaj točno mislite s časovno vrsto?
23. Opišite razlike med algoritmom Gradient Boosting in Random Forest.
24. Zakaj potrebujete matriko zmede? Kaj je to?
25. Kaj pravzaprav je analiza glavnih komponent?
26. Zakaj je rotacija komponent tako ključna za PCA (analiza glavnih komponent)?
27. Kako se regularizacija in normalizacija razlikujeta med seboj?
28. V čem se normalizacija in standardizacija razlikujeta?
29. Kaj natančno pomeni "faktor inflacije variance"?
30. Kako na podlagi velikosti nabora za usposabljanje izberete klasifikatorja?
31. Kateri algoritem v strojnem učenju se imenuje "leni učenec" in zakaj?
32. Kaj sta krivulja ROC in AUC?
33. Kaj so hiperparametri? Kaj jih naredi edinstvene glede na parametre modela?
34. Kaj pomeni F1 rezultat, odpoklic in natančnost?
35. Kaj pravzaprav je navzkrižno preverjanje?
36. Recimo, da ste odkrili, da ima vaš model pomembno odstopanje. Kateri algoritem je po vašem mnenju najbolj primeren za obravnavo te situacije?
37. Kaj razlikuje regresijo Ridge od regresije Lasso?
38. Kaj je bolj pomembno: zmogljivost modela ali točnost modela? Kateremu in zakaj mu boste dali prednost?
39. Kako bi upravljal nabor podatkov z neenakostmi?
40. Kako lahko ločite med pospeševanjem in pakiranjem?
41. Pojasnite razlike med induktivnim in deduktivnim učenjem.
zaključek

Podjetja uporabljajo najsodobnejšo tehnologijo, kot sta umetna inteligenca (AI) in strojno učenje, da povečajo dostopnost informacij in storitev posameznikom.

Te tehnologije sprejemajo različne industrije, vključno z bančništvom, financami, maloprodajo, proizvodnjo in zdravstvenim varstvom.

Ena najbolj iskanih organizacijskih vlog, ki uporabljajo AI, je za podatkovne znanstvenike, inženirje umetne inteligence, inženirje strojnega učenja in analitike podatkov.

Ta objava vas bo vodila skozi različne strojno učenje vprašanja za razgovor, od osnovnih do zapletenih, da se boste lažje pripravili na kakršna koli vprašanja, ki vam jih lahko zastavijo, ko iščete idealno službo.

1. Pojasnite razlike med strojnim učenjem, umetno inteligenco in globokim učenjem.

Umetna inteligenca uporablja različne pristope strojnega in globokega učenja, ki računalniškim sistemom omogočajo izvajanje nalog z uporabo človeške inteligence z logiko in pravili.

Strojno učenje uporablja različne statistične podatke in pristope globokega učenja, da omogoči strojem, da se učijo iz njihove prejšnje uspešnosti in postanejo bolj spretni pri samostojnem opravljanju določenih nalog brez človeškega nadzora.

Globoko učenje je zbirka algoritmov, ki omogoča programski opremi, da se uči sama od sebe in izvaja različne komercialne funkcije, kot sta prepoznavanje glasu in slike.

Sistemi, ki izpostavljajo svojo večplastnost nevronske mreže do ogromnih količin podatkov za učenje so sposobni izvajati globoko učenje.

2. Opišite različne vrste strojnega učenja.

Strojno učenje na splošno obstaja v treh različnih vrstah:

Nadzorovano učenje: model ustvarja napovedi ali presoje z uporabo označenih ali zgodovinskih podatkov v nadzorovanem strojnem učenju. Nizi podatkov, ki so bili označeni ali označeni, da bi povečali njihov pomen, se imenujejo označeni podatki.
Nenadzorovano učenje: Nimamo označenih podatkov za nenadzorovano učenje. V vhodnih podatkih lahko model najde vzorce, nenavadnosti in korelacije.
Učenje s krepitvijo: Model lahko naučite se z uporabo okrepitve učenja in nagrad, ki jih je prejel za svoje prejšnje vedenje.

3. Kakšen je kompromis med pristranskostjo in varianco?

Prekomerno opremljanje je posledica pristranskosti, ki je stopnja, do katere model ustreza podatkom. Pristranskost povzročajo napačne ali preveč preproste predpostavke v vašem algoritem strojnega učenja.

Varianca se nanaša na napake, ki jih povzroči zapletenost vašega algoritma ML, ki povzroči občutljivost na velike stopnje variance v podatkih o usposabljanju in prekomerno opremljanje.

Varianca je, koliko se model spreminja glede na vložke.

Z drugimi besedami, osnovni modeli so izjemno pristranski, a stabilni (nizka varianca). Prekomerno opremljanje je težava pri zapletenih modelih, čeprav kljub temu zajamejo realnost modela (nizka pristranskost).

Da bi preprečili visoko variacijo in veliko pristranskost, je za najboljše zmanjšanje napak potreben kompromis med pristranskostjo in varianco.

4. Algoritmi strojnega učenja so se sčasoma znatno razvili. Kako izbrati pravi algoritem za uporabo danega nabora podatkov?

Tehnika strojnega učenja, ki jo je treba uporabiti, je odvisna le od vrste podatkov v določenem naboru podatkov.

Če so podatki linearni, se uporabi linearna regresija. Metoda pakiranja v vrečke bi bila uspešnejša, če bi podatki kazali na nelinearnost. Če je treba podatke ovrednotiti ali interpretirati v komercialne namene, lahko uporabimo drevesa odločanja ali SVM.

Nevronske mreže so lahko koristne za pridobitev natančnega odgovora, če nabor podatkov vključuje fotografije, videoposnetke in zvok.

Izbira algoritma za določeno okoliščino ali zbiranje podatkov ni možna le na podlagi enega samega ukrepa.

Da bi razvili najboljšo metodo, moramo podatke najprej preučiti z raziskovalno analizo podatkov (EDA) in razumeti cilj uporabe nabora podatkov.

5. Kako se razlikujeta kovarianca in korelacija?

Kovarianca ocenjuje, kako sta dve spremenljivki povezani med seboj in kako se lahko ena spremeni kot odgovor na spremembe druge.

Če je rezultat pozitiven, to pomeni, da obstaja neposredna povezava med spremenljivkama in da bi se ena povečala ali zmanjšala s povečanjem ali zmanjšanjem osnovne spremenljivke, ob predpostavki, da vsi drugi pogoji ostanejo nespremenjeni.

Korelacija meri povezavo med dvema naključnima spremenljivkama in ima samo tri različne vrednosti: 1, 0 in -1.

6. Kaj pomeni združevanje v gruče v strojnem učenju?

Metode nenadzorovanega učenja, ki združujejo podatkovne točke, se imenujejo združevanje v gruče. Z zbirko podatkovnih točk je mogoče uporabiti tehniko združevanja v gruče.

S to strategijo lahko združite vse podatkovne točke glede na njihove funkcije.

Značilnosti in kakovosti podatkovnih točk, ki spadajo v isto kategorijo, so podobne, medtem ko so lastnosti podatkovnih točk, ki spadajo v ločene skupine, različne.

Ta pristop se lahko uporablja za analizo statističnih podatkov.

7. Kateri algoritem strojnega učenja imate najraje?

Pri tem vprašanju imate priložnost dokazati svoje želje in edinstvene talente ter svoje celovito znanje o številnih tehnikah strojnega učenja.

Tukaj je nekaj tipičnih algoritmov strojnega učenja, o katerih lahko razmislite:

Linearna regresija
Logistična regresija
Naiven Bayes
Odločitvena drevesa
K pomeni
Algoritem naključnega gozda
K-najbližji sosed (KNN)

8. Linearna regresija v strojnem učenju: kaj je to?

Algoritem nadzorovanega strojnega učenja je linearna regresija.

Uporablja se v napovedni analizi za določitev linearne povezave med odvisnimi in neodvisnimi spremenljivkami.

Enačba linearne regresije je naslednja:

Y = A + BX

kjer je:

Vhodna ali neodvisna spremenljivka se imenuje X.
Odvisna ali izhodna spremenljivka je Y.
X-ov koeficient je b, njegov presek pa a.

9. Opišite razlike med KNN in k-means združevanjem v gruče.

Glavna razlika je v tem, da KNN (klasifikacijska metoda, nadzorovano učenje) potrebuje označene točke, medtem ko k-means ne potrebuje (algoritem združevanja v gruče, nenadzorovano učenje).

Označene podatke lahko razvrstite v neoznačeno točko z uporabo K-najbližjih sosedov. Združevanje v skupine K-means uporablja povprečno razdaljo med točkami, da se nauči združevati neoznačene točke.

10. Kaj za vas pomeni "pristranskost izbire"?

Pristranskost v fazi vzorčenja poskusa je posledica statistične netočnosti.

Ena vzorčna skupina je izbrana pogosteje kot druge skupine v poskusu zaradi netočnosti.

Če pristranskosti izbire ne priznamo, lahko pride do napačnega zaključka.

11. Kaj točno je Bayesov izrek?

Ko poznamo druge verjetnosti, lahko določimo verjetnost z uporabo Bayesovega izreka. Z drugimi besedami, ponuja posteriorno verjetnost dogodka na podlagi predhodnih informacij.

Ta izrek nudi zanesljivo metodo za ocenjevanje pogojnih verjetnosti.

Pri razvoju problemov klasifikacijskega napovednega modeliranja in prilagajanju modela usposabljanju nabor podatkov v strojnem učenju, uporabljen je Bayesov izrek (tj. Naivni Bayes, Bayesov optimalni klasifikator).

12. Kaj sta 'nabor za usposabljanje' in 'testni nabor' v modelu strojnega učenja?

Komplet za trening:

Učni niz je sestavljen iz primerkov, ki so poslani modelu v analizo in učenje.
To so označeni podatki, ki bodo uporabljeni za usposabljanje modela.
Običajno se 70 % vseh podatkov uporabi kot nabor podatkov za usposabljanje.

Testni niz:

Testni niz se uporablja za oceno točnosti generiranja hipotez modela.
Testiramo brez označenih podatkov in nato uporabimo oznake za potrditev rezultatov.
Preostalih 30 % se uporablja kot testni nabor podatkov.

13. Kaj je hipoteza v strojnem učenju?

Strojno učenje omogoča uporabo obstoječih naborov podatkov za boljše razumevanje dane funkcije, ki povezuje vhod z izhodom. To je znano kot aproksimacija funkcije.

V tem primeru je treba uporabiti aproksimacijo za neznano ciljno funkcijo, da na najboljši možni način prenese vsa možna opažanja, ki temeljijo na dani situaciji.

V strojnem učenju je hipoteza model, ki pomaga pri ocenjevanju ciljne funkcije in dokončanju ustreznih preslikav vnosa v izhod.

Izbira in oblikovanje algoritmov omogočata definiranje prostora možnih hipotez, ki jih je mogoče predstaviti z modelom.

Za posamezno hipotezo se uporabijo male črke h (h), velika črka h (H) pa se uporabi za celoten prostor hipotez, ki se išče. Na kratko bomo pregledali te zapise:

Hipoteza (h) je poseben model, ki olajša preslikavo vnosa v izhod, ki se lahko kasneje uporabi za vrednotenje in napovedovanje.
Nabor hipotez (H) je iskalni prostor hipotez, ki ga je mogoče uporabiti za preslikavo vhodov v izhode. Oblikovanje, model in konfiguracija modela je nekaj primerov splošnih omejitev.

14. Kaj pomeni prekomerno opremljanje strojnega učenja in kako ga je mogoče preprečiti?

Ko se stroj poskuša učiti iz nezadostnega nabora podatkov, pride do prekomernega opremljanja.

Posledično je prekomerno opremljanje v obratni korelaciji s količino podatkov. Pristop navzkrižne validacije omogoča, da se izognete prekomernemu opremljanju za majhne nize podatkov. Nabor podatkov je pri tej metodi razdeljen na dva dela.

Nabor podatkov za testiranje in usposabljanje bo sestavljen iz teh dveh delov. Nabor podatkov za usposabljanje se uporablja za ustvarjanje modela, medtem ko se nabor podatkov za testiranje uporablja za ovrednotenje modela z uporabo različnih vnosov.

Tako preprečite prekomerno opremljanje.

15. Kaj pravzaprav so Naivni Bayesovi klasifikatorji?

Naivne Bayesove klasifikatorje sestavljajo različne metode razvrščanja. Skupina algoritmov, znanih kot ti klasifikatorji, vsi delujejo na isti temeljni ideji.

Predpostavka naivnih Bayesovih klasifikatorjev je, da prisotnost ali odsotnost ene značilnosti nima nobenega vpliva na prisotnost ali odsotnost druge značilnosti.

Z drugimi besedami, to je tisto, kar imenujemo "naivno", saj predpostavlja, da je vsak atribut nabora podatkov enako pomemben in neodvisen.

Klasifikacija poteka z uporabo naivnih Bayesovih klasifikatorjev. So preprosti za uporabo in dajejo boljše rezultate kot bolj zapleteni napovedovalci, če je premisa o neodvisnosti resnična.

Uporabljajo se pri analizi besedil, filtriranju neželene pošte in sistemih priporočil.

16. Kaj pomenita funkciji stroškov in funkciji izgube?

Besedna zveza "funkcija izgube" se nanaša na postopek izračuna izgube, ko se upošteva samo en podatek.

Nasprotno pa uporabljamo stroškovno funkcijo za določitev skupne količine napak za številne podatke. Nobenega bistvenega razlikovanja ni.

Z drugimi besedami, medtem ko stroškovne funkcije združijo razliko za celoten nabor podatkov o usposabljanju, so funkcije izgube oblikovane tako, da zajamejo razliko med dejanskimi in predvidenimi vrednostmi za en zapis.

17. Kaj razlikuje generativni model od diskriminativnega modela?

Diskriminativni model se nauči razlik med več kategorijami podatkov. Generativni model zajema različne vrste podatkov.

Pri težavah s klasifikacijo diskriminativni modeli pogosto prekašajo druge modele.

18. Opišite razlike med napakami tipa I in tipa II.

Lažno pozitivni rezultati spadajo v kategorijo napak tipa I, lažni negativi pa spadajo v kategorijo napak tipa II (trdijo, da se ni nič zgodilo, čeprav se je dejansko zgodilo).

19. Kaj je tehnika ansambelskega učenja pri strojnem učenju?

Tehnika, imenovana ansambelsko učenje, združuje številne modele strojnega učenja, da ustvari močnejše modele.

Model se lahko spreminja iz različnih razlogov. Več vzrokov je:

Različne populacije
Različne hipoteze
Različne metode modeliranja

Pri uporabi podatkov o usposabljanju in testiranju modela bomo naleteli na težavo. Pristranskost, varianca in nezmanjšana napaka so možne vrste te napake.

To ravnovesje med pristranskostjo in varianco v modelu imenujemo kompromis pristranskosti in variance in mora vedno obstajati. Ta kompromis je dosežen z uporabo ansambelskega učenja.

Čeprav so na voljo različni pristopi ansambla, obstajata dve skupni strategiji za kombiniranje številnih modelov:

Izvorni pristop, imenovan bagging, uporablja vadbeni niz za izdelavo dodatnih vadbenih nizov.
Boosting, bolj sofisticirana tehnika: Podobno kot vreče se tudi boosting uporablja za iskanje idealne formule za uteževanje za vadbeni niz.

20. Kaj pravzaprav so parametrični modeli? Povej primer.

V parametričnih modelih je število parametrov omejeno. Za napovedovanje podatkov morate vedeti le parametre modela.

Sledijo tipični primeri: logistična regresija, linearna regresija in linearni SVM. Neparametrični modeli so prilagodljivi, saj lahko vsebujejo neomejeno število parametrov.

Za napovedi podatkov so potrebni parametri modela in status opazovanih podatkov. Tu je nekaj tipičnih primerov: tematski modeli, odločitvena drevesa in k-najbližji sosedi.

21. Opišite sodelovalno filtriranje. Pa tudi filtriranje na podlagi vsebine?

Preizkušena metoda za ustvarjanje prilagojenih predlogov vsebine je sodelovalno filtriranje.

Oblika sistema priporočil, imenovana sodelovalno filtriranje, napoveduje svež material z uravnoteženjem uporabniških preferenc s skupnimi interesi.

Uporabniške nastavitve so edina stvar, ki jo upoštevajo vsebinski sistemi priporočil. Glede na predhodne izbire uporabnika so na voljo nova priporočila iz povezanega gradiva.

22. Kaj točno mislite s časovno vrsto?

Časovna vrsta je zbirka števil v naraščajočem vrstnem redu. V vnaprej določenem časovnem obdobju spremlja gibanje izbranih podatkovnih točk in občasno zajema podatkovne točke.

Za časovno vrsto ni minimalnega ali največjega vnosa časa.

Analitiki pogosto uporabljajo časovne vrste za analizo podatkov v skladu s svojimi edinstvenimi zahtevami.

23. Opišite razlike med algoritmom Gradient Boosting in Random Forest.

Naključni gozd:

Veliko število odločitvenih dreves je na koncu združenih skupaj in so znani kot naključni gozdovi.
Medtem ko gradientno povečanje ustvari vsako drevo neodvisno od drugih, naključni gozd zgradi vsako drevo eno za drugim.
Večrazredni odkrivanje predmetov dobro deluje z naključnimi gozdovi.

Povečanje gradienta:

Medtem ko se naključni gozdovi odločitvenim drevesom pridružijo na koncu procesa, jih Gradient Boosting Machines združi od začetka.
Če so parametri ustrezno prilagojeni, gradientno povečevanje prekaša naključne gozdove v smislu rezultatov, vendar ni pametna izbira, če ima nabor podatkov veliko izstopajočih vrednosti, anomalij ali šuma, saj bi lahko povzročilo, da bi model postal preveč primeren.
Kadar obstajajo neuravnoteženi podatki, kot je to pri oceni tveganja v realnem času, se povečanje gradienta dobro obnese.

24. Zakaj potrebujete matriko zmede? Kaj je to?

Tabela, znana kot matrika zmede, včasih znana tudi kot matrika napak, se pogosto uporablja za prikaz, kako dobro se klasifikacijski model ali klasifikator obnese na nizu testnih podatkov, za katere so znane dejanske vrednosti.

Omogoča nam, da vidimo, kako deluje model ali algoritem. Poenostavlja nam odkrivanje nesporazumov med različnimi tečaji.

Služi kot način za oceno, kako dobro se izvaja model ali algoritem.

Napovedi klasifikacijskega modela so sestavljene v matriko zmede. Vrednosti štetja vsake oznake razreda so bile uporabljene za razčlenitev skupnega števila pravilnih in nepravilnih napovedi.

Zagotavlja podrobnosti o napakah, ki jih povzroči klasifikator, ter o različnih vrstah napak, ki jih povzročajo klasifikatorji.

25. Kaj pravzaprav je analiza glavnih komponent?

Z zmanjševanjem števila spremenljivk, ki so med seboj povezane, je cilj zmanjšati dimenzionalnost zbiranja podatkov. Vendar je pomembno ohraniti čim večjo raznolikost.

Spremenljivke se spremenijo v popolnoma nov nabor spremenljivk, imenovanih glavne komponente.

Ti PC-ji so ortogonalni, ker so lastni vektorji kovariančne matrike.

26. Zakaj je rotacija komponent tako ključna za PCA (analiza glavnih komponent)?

Rotacija je pri PCA ključnega pomena, ker optimizira ločevanje med variancami, ki jih pridobi vsaka komponenta, zaradi česar je interpretacija komponent enostavnejša.

Zahtevamo razširjene komponente za izražanje variacije komponent, če komponente niso zasukane.

27. Kako se regularizacija in normalizacija razlikujeta med seboj?

Normalizacija:

Med normalizacijo se podatki spremenijo. Podatke bi morali normalizirati, če imajo lestvice, ki se drastično razlikujejo, zlasti od nizke do visoke. Prilagodite vsak stolpec tako, da so vse osnovne statistike združljive.

Za zagotovitev, da ne pride do izgube natančnosti, je to lahko koristno. Zaznavanje signala ob ignoriranju šuma je eden od ciljev usposabljanja modela.

Obstaja možnost prekomernega opremljanja, če se modelu omogoči popoln nadzor za zmanjšanje napake.

Regulacija:

Pri regularizaciji se funkcija napovedi spremeni. To je predmet določenega nadzora z regularizacijo, ki daje prednost enostavnejšim funkcijam prileganja pred zapletenimi.

28. V čem se normalizacija in standardizacija razlikujeta?

Dve najpogosteje uporabljeni tehniki za skaliranje funkcij sta normalizacija in standardizacija.

Normalizacija:

Spreminjanje velikosti podatkov, da ustrezajo razponu [0,1], je znano kot normalizacija.
Kadar morajo imeti vsi parametri enako pozitivno lestvico, je normalizacija koristna, vendar se izstopajoči podatki nabora podatkov izgubijo.

Regulacija:

Podatki so preračunani tako, da imajo povprečje 0 in standardni odklon 1 kot del standardizacijskega procesa (varianca enote)

29. Kaj natančno pomeni "faktor inflacije variance"?

Razmerje med varianco modela in varianco modela s samo eno neodvisno spremenljivko je znano kot faktor inflacije variacije (VIF).

VIF oceni količino multikolinearnosti, ki je prisotna v nizu več regresijskih spremenljivk.

Varianca modela (VIF) Model z eno neodvisno spremenljivko Varianca

30. Kako na podlagi velikosti nabora za usposabljanje izberete klasifikatorja?

Model z visoko pristranskostjo in nizko varianco deluje bolje pri kratkem nizu vadbe, saj je verjetnost prekomernega opremljanja manjša. Naivni Bayes je en primer.

Da bi predstavili bolj zapletene interakcije za velik niz usposabljanja, je prednostni model z nizko pristranskostjo in visoko varianco. Logistična regresija je dober primer.

31. Kateri algoritem v strojnem učenju se imenuje "leni učenec" in zakaj?

Počasen učenec, KNN je algoritem strojnega učenja. Ker K-NN dinamično izračuna razdaljo vsakič, ko želi razvrstiti, namesto da bi se učil kakršnih koli strojno naučenih vrednosti ali spremenljivk iz podatkov o vadbi, si zapomni nabor podatkov o vadbi.

Zaradi tega je K-NN len učenec.

32. Kaj sta krivulja ROC in AUC?

Delovanje klasifikacijskega modela pri vseh pragovih je grafično predstavljeno s krivuljo ROC. Ima merila prave pozitivne stopnje in lažno pozitivne stopnje.

Preprosto povedano, območje pod krivuljo ROC je znano kot AUC (Area Under the ROC Curve). Izmeri se dvodimenzionalno območje krivulje ROC od (0,0) do AUC (1,1). Za ocenjevanje binarnih klasifikacijskih modelov se uporablja kot statistika uspešnosti.

33. Kaj so hiperparametri? Kaj jih naredi edinstvene glede na parametre modela?

Notranja spremenljivka modela je znana kot parameter modela. Z uporabo podatkov o usposabljanju je vrednost parametra približna.

Modelu ni znano, da je hiperparameter spremenljivka. Vrednosti ni mogoče določiti iz podatkov, zato se pogosto uporabljajo za izračun parametrov modela.

34. Kaj pomeni F1 rezultat, odpoklic in natančnost?

Mera zmede je metrika, ki se uporablja za merjenje učinkovitosti klasifikacijskega modela. Za boljšo razlago metrike zmede lahko uporabite naslednje fraze:

TP: Resnične pozitivne vrednosti – To so pozitivne vrednosti, ki so bile pravilno pričakovane. Predlaga, da sta vrednosti predvidenega in dejanskega razreda pozitivni.

TN: Resnično negativni – To so neugodne vrednosti, ki so bile natančno napovedane. Nakazuje, da sta vrednost dejanskega in pričakovanega razreda negativni.

Te vrednosti – lažno pozitivne in lažno negativne – se pojavijo, ko se vaš dejanski razred razlikuje od pričakovanega.

zdaj,

Razmerje med resnično pozitivno stopnjo (TP) in vsemi opazovanji v dejanskem razredu se imenuje odpoklic, znan tudi kot občutljivost.

Odpoklic je TP/(TP+FN).

Natančnost je merilo pozitivne napovedne vrednosti, ki primerja število pozitivnih rezultatov, ki jih model resnično napove, s številom pravilnih pozitivnih rezultatov, ki jih natančno napove.

Natančnost je TP/(TP + FP)

Meritev uspešnosti, ki jo je najlažje razumeti, je natančnost, ki je samo razmerje med pravilno predvidenimi opazovanji in vsemi opazovanji.

Natančnost je enaka (TP+TN)/(TP+FP+FN+TN).

Natančnost in priklic sta ponderirana in povprečna, da se zagotovi rezultat F1. Posledično ta ocena upošteva lažno pozitivne in lažno negativne rezultate.

F1 je pogosto bolj dragocen kot natančnost, še posebej, če imate neenakomerno razredno porazdelitev, tudi če intuitivno ni tako preprosta za razumevanje kot natančnost.

Najboljša natančnost je dosežena, če so stroški lažno pozitivnih in lažno negativnih rezultatov primerljivi. Če se stroški, povezani z lažno pozitivnimi in lažno negativnimi rezultati, bistveno razlikujejo, je bolje vključiti natančnost in odpoklic.

35. Kaj pravzaprav je navzkrižno preverjanje?

Pristop statističnega ponovnega vzorčenja, imenovan navzkrižna validacija v strojnem učenju, uporablja več podnaborov podatkov za usposabljanje in vrednotenje algoritma strojnega učenja v številnih krogih.

Nov paket podatkov, ki ni bil uporabljen za usposabljanje modela, se testira z navzkrižnim preverjanjem, da se ugotovi, kako dobro ga model predvideva. Prekomerno opremljanje podatkov je preprečeno z navzkrižno validacijo.

K-zgib Najpogosteje uporabljena metoda ponovnega vzorčenja razdeli celoten nabor podatkov na K nizov enakih velikosti. Imenuje se navzkrižna validacija.

36. Recimo, da ste odkrili, da ima vaš model pomembno odstopanje. Kateri algoritem je po vašem mnenju najbolj primeren za obravnavo te situacije?

Obvladovanje velike variabilnosti

Pri težavah z velikimi variacijami bi morali uporabiti tehniko vreče.

Ponavljajoče se vzorčenje naključnih podatkov bi uporabil algoritem za pakiranje v vrečke za razdelitev podatkov v podskupine. Ko so podatki razdeljeni, lahko uporabimo naključne podatke in poseben postopek usposabljanja za ustvarjanje pravil.

Po tem bi lahko anketiranje uporabili za združevanje napovedi modela.

37. Kaj razlikuje regresijo Ridge od regresije Lasso?

Dve pogosto uporabljeni metodi regulacije sta Lasso (imenovana tudi L1) in Ridge (včasih imenovana L2) regresija. Uporabljajo se za preprečevanje prekomernega opremljanja podatkov.

Da bi odkrili najboljšo rešitev in zmanjšali kompleksnost, se te tehnike uporabljajo za kaznovanje koeficientov. S kaznovanjem vsote absolutnih vrednosti koeficientov deluje lasova regresija.

Kazenska funkcija v regresiji Ridge ali L2 je izpeljana iz vsote kvadratov koeficientov.

38. Kaj je bolj pomembno: zmogljivost modela ali točnost modela? Kateremu in zakaj mu boste dali prednost?

To je zavajajoče vprašanje, zato je treba najprej razumeti, kaj je zmogljivost modela. Če je zmogljivost opredeljena kot hitrost, potem je odvisna od vrste aplikacije; vsaka aplikacija, ki vključuje situacijo v realnem času, bi zahtevala visoko hitrost kot ključno komponento.

Na primer, najboljši rezultati iskanja bodo postali manj vredni, če bodo rezultati poizvedbe prispeli predolgo.

Če se uspešnost uporablja kot utemeljitev, zakaj je treba natančnosti in priklicu dati prednost pred natančnostjo, potem bo ocena F1 bolj uporabna kot natančnost pri dokazovanju poslovnega primera za kateri koli nabor podatkov, ki je neuravnotežen.

39. Kako bi upravljal nabor podatkov z neenakostmi?

Tehnike vzorčenja lahko koristijo neuravnoteženemu naboru podatkov. Vzorčenje se lahko izvede na način premajhnega ali prevelikega vzorčenja.

Under Sampling nam omogoča, da zmanjšamo velikost večinskega razreda, da se ujema z manjšinskim razredom, kar pomaga povečati hitrost glede shranjevanja in izvajanja med izvajanjem, lahko pa povzroči tudi izgubo dragocenih podatkov.

Da bi odpravili težavo izgube informacij zaradi prevelikega vzorčenja, nadvzorčimo manjšinski razred; kljub temu pa zaradi tega naletimo na težave s prekomernim opremljanjem.

Dodatne strategije vključujejo:

Prekomerno vzorčenje na podlagi gruče – primerki manjšinskega in večinskega razreda so v tej situaciji posamično podvrženi tehniki združevanja v gruče K-sredstev. To se naredi za iskanje gruč nabora podatkov. Nato je vsaka gruča prevzorčena, tako da imajo vsi razredi enako velikost in imajo vse gruče znotraj razreda enako število primerkov.
SMOTE: Tehnika sintetičnega previsokega vzorčenja manjšin – Rezina podatkov iz manjšinskega razreda se uporabi kot primer, nato pa se ustvarijo dodatni umetni primerki, ki so z njim primerljivi, in dodajo izvirnemu naboru podatkov. Ta metoda dobro deluje s številskimi podatkovnimi točkami.

40. Kako lahko ločite med pospeševanjem in pakiranjem?

Ensemble Techniques imajo različici, znani kot bagging in boosting.

Vrečkanje-

Pri algoritmih z visoko variacijo je vreča tehnika, ki se uporablja za znižanje variance. Ena taka družina klasifikatorjev, ki je nagnjena k pristranskosti, je družina dreves odločitev.

Vrsta podatkov, na katerih se usposabljajo odločitvena drevesa, pomembno vpliva na njihovo delovanje. Zaradi tega je posploševanje rezultatov v njih včasih veliko težje doseči, tudi pri zelo visoki fini nastavitvi.

Če se podatki o usposabljanju dreves odločanja spremenijo, se rezultati bistveno razlikujejo.

Posledično se uporablja zbiranje v vrečke, pri katerem se ustvari veliko dreves odločitev, od katerih se vsako usposobi z uporabo vzorca izvirnih podatkov, končni rezultat pa je povprečje vseh teh različnih modelov.

Pospeševanje:

Povečevanje je tehnika napovedovanja s sistemom n-šibkih klasifikatorjev, v katerem vsak šibek klasifikator nadomesti pomanjkljivosti svojih močnejših klasifikatorjev. Klasifikator, ki slabo deluje na danem nizu podatkov, imenujemo "šibek klasifikator".

Pospeševanje je očitno proces in ne algoritem. Logistična regresija in plitva odločitvena drevesa so pogosti primeri šibkih klasifikatorjev.

Adaboost, Gradient Boosting in XGBoost sta dva najbolj priljubljena algoritma za povečanje, vendar jih je še veliko več.

41. Pojasnite razlike med induktivnim in deduktivnim učenjem.

Pri učenju z zgledom iz nabora opazovanih primerov model uporablja induktivno učenje, da pride do splošnega zaključka. Po drugi strani pa pri deduktivnem učenju model uporabi rezultat, preden oblikuje svojega.

Induktivno učenje je proces sklepanja iz opazovanj.

Deduktivno učenje je proces ustvarjanja opazovanj na podlagi sklepanja.

zaključek

Čestitke! To je 40 in več najboljših vprašanj za intervjuje za strojno učenje, na katera zdaj poznate odgovore. Znanost o podatkih in Umetna inteligenca poklici bodo z napredkom tehnologije še naprej povpraševani.

Kandidati, ki nadgradijo svoje znanje o teh vrhunskih tehnologijah in izboljšajo svoj nabor spretnosti, lahko najdejo široko paleto zaposlitvenih možnosti s konkurenčnim plačilom.

Zdaj lahko nadaljujete z odgovarjanjem na intervjuje, ko že dobro razumete, kako odgovoriti na nekatera pogosto zastavljena vprašanja intervjuja o strojnem učenju.

Glede na vaše cilje naredite naslednji korak. Pripravite se na razgovore tako, da obiščete Hashdork's Serija intervjujev.

40+ najbolj priljubljenih vprašanj za intervju o strojnem učenju