40+ najboljih pitanja za intervju za mašinsko učenje (2024)

Sadržaj[Sakrij][Prikaži]

1. Objasnite razlike između mašinskog učenja, veštačke inteligencije i dubokog učenja.
2. Molimo opišite različite vrste mašinskog učenja.
3. Šta je kompromis između pristrasnosti i varijanse?
4. Algoritmi mašinskog učenja značajno su evoluirali tokom vremena. Kako odabrati pravi algoritam za korištenje datog skupa podataka?
5. Kako se razlikuju kovarijansa i korelacija?
6. U mašinskom učenju, šta znači grupisanje?
7. Koji je vaš preferirani algoritam mašinskog učenja?
8. Linearna regresija u mašinskom učenju: šta je to?
9. Opišite razlike između KNN i k-means grupiranja.
10. Šta za vas znači “pristrasnost izbora”?
11. Šta je tačno Bayesova teorema?
12. U modelu mašinskog učenja, šta su 'set za obuku' i 'test set'?
13. Šta je hipoteza u mašinskom učenju?
14. Šta znači preopterećenje mašinskim učenjem i kako se može spriječiti?
15. Šta su zapravo naivni Bayesovi klasifikatori?
16. Šta znače funkcije troškova i funkcije gubitka?
17. Šta razlikuje generativni model od diskriminativnog modela?
18. Opišite varijacije između grešaka tipa I i tipa II.
19. U mašinskom učenju, šta je tehnika Ensemble učenja?
20. Šta su zapravo parametarski modeli? Dajte primjer.
21. Opišite kolaborativno filtriranje. Kao i filtriranje zasnovano na sadržaju?
22. Šta tačno mislite pod Time serijom?
23. Opišite varijacije između algoritama za povećanje gradijenta i algoritama Random Forest.
24. Zašto vam je potrebna matrica zabune? Šta je?
25. Šta je zapravo analiza principa komponente?
26. Zašto je rotacija komponenti tako ključna za PCA (analizu glavnih komponenti)?
27. Kako se regularizacija i normalizacija razlikuju jedna od druge?
28. Kako se normalizacija i standardizacija razlikuju jedna od druge?
29. Šta tačno znači “faktor inflacije varijanse”?
30. Na osnovu veličine kompleta za obuku, kako birate klasifikator?
31. Koji se algoritam u mašinskom učenju naziva “lijenji učenik” i zašto?
32. Šta su ROC kriva i AUC?
33. Šta su hiperparametri? Šta ih čini jedinstvenim od parametara modela?
34. Šta znače F1 rezultat, opoziv i preciznost?
35. Šta je zapravo unakrsna validacija?
36. Recimo da ste otkrili da vaš model ima značajnu varijaciju. Koji je algoritam, po vašem mišljenju, najpogodniji za rješavanje ove situacije?
37. Šta razlikuje Ridge regresiju od Lasso regresije?
38. Šta je važnije: performanse modela ili tačnost modela? Koji i zašto ćete ga favorizirati?
39. Kako biste upravljali skupom podataka sa nejednakostima?
40. Kako možete razlikovati pojačavanje i stavljanje u vreću?
41. Objasnite razlike između induktivnog i deduktivnog učenja.
zaključak

Kompanije koriste najsavremeniju tehnologiju, kao što su veštačka inteligencija (AI) i mašinsko učenje, da povećaju dostupnost informacija i usluga pojedincima.

Ove tehnologije usvajaju različite industrije, uključujući bankarstvo, finansije, maloprodaju, proizvodnju i zdravstvo.

Jedna od najtraženijih organizacijskih uloga koja koristi AI je za naučnike podataka, inženjere umjetne inteligencije, inženjere za strojno učenje i analitičare podataka.

Ovaj post će vas voditi kroz razne mašinsko učenje pitanja za intervju, od osnovnih do složenih, koja će vam pomoći da se pripremite za sva pitanja koja vam se mogu postaviti kada tražite svoj idealan posao.

1. Objasnite razlike između mašinskog učenja, veštačke inteligencije i dubokog učenja.

Umjetna inteligencija koristi različite pristupe mašinskog učenja i dubokog učenja koji omogućavaju kompjuterskim sistemima da izvršavaju zadatke koristeći inteligenciju nalik ljudskoj, uz logiku i pravila.

Mašinsko učenje koristi različite statistike i pristupe dubokog učenja kako bi omogućilo mašinama da uče iz svojih prethodnih performansi i da postanu vještije u samostalnom obavljanju određenih zadataka bez ljudskog nadzora.

Duboko učenje je kolekcija algoritama koji omogućavaju softveru da uči od samog sebe i izvršava niz komercijalnih funkcija, kao što je prepoznavanje glasa i slike.

Sistemi koji izlažu svoju višeslojnost neuronske mreže da ogromne količine podataka za učenje su u stanju da urade duboko učenje.

2. Molimo opišite različite vrste mašinskog učenja.

Mašinsko učenje općenito postoji u tri različita tipa:

Nadzirano učenje: model stvara predviđanja ili prosudbe koristeći označene ili historijske podatke u nadgledanom mašinskom učenju. Skupovi podataka koji su označeni ili označeni kako bi se povećalo njihovo značenje nazivaju se označenim podacima.
Učenje bez nadzora: Nemamo označene podatke za učenje bez nadzora. U dolaznim podacima, model može pronaći obrasce, neobičnosti i korelacije.
Učenje s pojačanjem: model može učiti koristeći potkrepljenje učenje i nagrade koje je dobio za svoje prethodno ponašanje.

3. Šta je kompromis između pristrasnosti i varijanse?

Prekomjerno prilagođavanje je rezultat pristranosti, što je stepen do kojeg model odgovara podacima. Pristrasnost je uzrokovana pogrešnim ili previše jednostavnim pretpostavkama u vašem Algoritam mašinskog učenja.

Varijanca se odnosi na greške uzrokovane složenošću vašeg ML algoritma, koji proizvodi osjetljivost na velike stupnjeve varijanse u podacima o obuci i prekomjernom prilagođavanju.

Varijanca je koliko model varira u zavisnosti od inputa.

Drugim riječima, osnovni modeli su izuzetno pristrasni, ali stabilni (niska varijansa). Preopterećenje je problem sa složenim modelima, iako oni ipak hvataju stvarnost modela (niska pristranost).

Kako bi se spriječile i velike varijacije i velike pristranosti, potreban je kompromis između pristranosti i varijanse za najbolje smanjenje greške.

4. Algoritmi mašinskog učenja značajno su evoluirali tokom vremena. Kako odabrati pravi algoritam za korištenje datog skupa podataka?

Tehnika mašinskog učenja koju treba koristiti zavisi samo od vrste podataka u određenom skupu podataka.

Kada su podaci linearni, koristi se linearna regresija. Metoda pakovanja bi imala bolji učinak kada bi podaci ukazivali na nelinearnost. Možemo koristiti stabla odlučivanja ili SVM ako se podaci moraju evaluirati ili interpretirati u komercijalne svrhe.

Neuronske mreže mogu biti korisne za dobijanje tačnog odgovora ako skup podataka uključuje fotografije, video zapise i audio zapise.

Izbor algoritma za određenu okolnost ili prikupljanje podataka ne može se izvršiti samo na jednoj mjeri.

Da bismo razvili najbolju metodu, moramo prvo ispitati podatke koristeći istraživačku analizu podataka (EDA) i shvatiti cilj korištenja skupa podataka.

5. Kako se razlikuju kovarijansa i korelacija?

Kovarijansa procjenjuje kako su dvije varijable povezane jedna s drugom i kako se jedna može promijeniti kao odgovor na promjene u drugoj.

Ako je rezultat pozitivan, to ukazuje na to da postoji direktna veza između varijabli i da bi se ona povećavala ili smanjivala s povećanjem ili smanjenjem osnovne varijable, pod pretpostavkom da svi ostali uvjeti ostaju konstantni.

Korelacija mjeri vezu između dvije slučajne varijable i ima samo tri različite vrijednosti: 1, 0 i -1.

6. U mašinskom učenju, šta znači grupisanje?

Metode učenja bez nadzora koje grupišu tačke podataka zajedno se nazivaju grupiranje. Uz kolekciju tačaka podataka, tehnika grupisanja može se primijeniti.

Pomoću ove strategije možete grupirati sve točke podataka prema njihovim funkcijama.

Karakteristike i kvalitete tačaka podataka koje spadaju u istu kategoriju su slične, dok su one tačaka podataka koje spadaju u odvojene grupe različite.

Ovaj pristup se može koristiti za analizu statističkih podataka.

7. Koji je vaš preferirani algoritam mašinskog učenja?

Imate priliku da pokažete svoje preferencije i jedinstvene talente u ovom pitanju, kao i svoje sveobuhvatno znanje o brojnim tehnikama mašinskog učenja.

Evo nekoliko tipičnih algoritama mašinskog učenja o kojima treba razmišljati:

Linearna regresija
Logistička regresija
Naivni Bayes
Stablo odluke
K znači
Algoritam slučajne šume
K-najbliži susjed (KNN)

8. Linearna regresija u mašinskom učenju: šta je to?

Nadzirani algoritam mašinskog učenja je linearna regresija.

Koristi se u prediktivnoj analizi za određivanje linearne veze između zavisnih i nezavisnih varijabli.

Jednadžba linearne regresije je sljedeća:

Y = A + BX

gde:

Ulazna ili nezavisna varijabla naziva se X.
Zavisna ili izlazna varijabla je Y.
X-ov koeficijent je b, a njegov presek je a.

9. Opišite razlike između KNN i k-means grupiranja.

Primarna razlika je u tome što KNN (metoda klasifikacije, nadgledano učenje) treba označene tačke dok k-means ne (algoritam grupisanja, učenje bez nadzora).

Možete klasifikovati označene podatke u neoznačenu tačku koristeći K-nearest Neighbors. Grupiranje K-sredstava koristi prosječnu udaljenost između tačaka da nauči kako grupirati neoznačene tačke.

10. Šta za vas znači “pristrasnost izbora”?

Pristrasnost u fazi uzorkovanja eksperimenta je zbog statističke nepreciznosti.

Jedna grupa uzoraka se bira češće od ostalih grupa u eksperimentu kao rezultat nepreciznosti.

Ako se pristrasnost izbora ne prizna, to bi moglo dovesti do pogrešnog zaključka.

11. Šta je tačno Bayesova teorema?

Kada smo svjesni drugih vjerovatnoća, možemo odrediti vjerovatnoću koristeći Bayesovu teoremu. Drugim riječima, nudi posteriornu vjerovatnoću pojave na osnovu prethodnih informacija.

Ova teorema daje dobar metod za procjenu uslovnih vjerovatnoća.

Prilikom razvoja klasifikacijskih problema prediktivnog modeliranja i uklapanja modela u obuku skup podataka u mašinskom učenju, primjenjuje se Bayesova teorema (tj. Naivni Bayes, Bayesov optimalni klasifikator).

12. U modelu mašinskog učenja, šta su 'set za obuku' i 'test set'?

Set za obuku:

Skup za obuku se sastoji od instanci koje se šalju modelu na analizu i učenje.
Ovo su označeni podaci koji će se koristiti za obuku modela.
Obično se 70% ukupnih podataka koristi kao skup podataka za obuku.

Test set:

Skup testova se koristi za procjenu tačnosti generiranja hipoteze modela.
Testiramo bez označenih podataka, a zatim koristimo oznake da potvrdimo rezultate.
Preostalih 30% se koristi kao skup podataka za testiranje.

13. Šta je hipoteza u mašinskom učenju?

Strojno učenje omogućava korištenje postojećih skupova podataka za bolje razumijevanje date funkcije koja povezuje ulaz i izlaz. Ovo je poznato kao aproksimacija funkcije.

U ovom slučaju, aproksimacija se mora koristiti za nepoznatu ciljnu funkciju kako bi se na najbolji mogući način prenijela sva zamisliva zapažanja zasnovana na datoj situaciji.

U mašinskom učenju, hipoteza je model koji pomaže u procjeni ciljne funkcije i dovršavanju odgovarajućih ulazno-izlaznih mapiranja.

Izbor i dizajn algoritama omogućavaju definisanje prostora mogućih hipoteza koje se mogu predstaviti modelom.

Za jednu hipotezu koristi se mala slova h (h), ali veliko h (H) se koristi za cijeli prostor hipoteze koji se traži. Ukratko ćemo pregledati ove oznake:

Hipoteza (h) je poseban model koji olakšava mapiranje inputa u izlaz, koji se kasnije može koristiti za evaluaciju i predviđanje.
Skup hipoteza (H) je prostor hipoteza koji se može pretraživati i koji se može koristiti za mapiranje ulaza i izlaza. Uokvirivanje problema, model i konfiguracija modela su nekoliko primjera generičkih ograničenja.

14. Šta znači preopterećenje mašinskim učenjem i kako se može spriječiti?

Kada mašina pokuša da uči iz nedovoljnog skupa podataka, dolazi do preopterećenja.

Kao rezultat toga, prekomjerno prilagođavanje je u obrnutoj korelaciji s volumenom podataka. Pristup unakrsne validacije omogućava izbjegavanje prekomjernog prilagođavanja za male skupove podataka. Skup podataka je podijeljen na dva dijela u ovoj metodi.

Skup podataka za testiranje i obuku sastojat će se od ova dva dijela. Skup podataka za obuku koristi se za kreiranje modela, dok se skup podataka za testiranje koristi za procjenu modela koristeći različite ulazne podatke.

Ovo je način da spriječite prekomjernu opremu.

15. Šta su zapravo naivni Bayesovi klasifikatori?

Različite metode klasifikacije čine naivne Bayesove klasifikatore. Skup algoritama poznatih kao ovi klasifikatori svi rade na istoj osnovnoj ideji.

Pretpostavka koju čine naivni Bayesovi klasifikatori je da prisustvo ili odsustvo jedne karakteristike nema uticaja na prisustvo ili odsustvo druge karakteristike.

Drugim riječima, to je ono što nazivamo “naivnim” jer pretpostavlja da je svaki atribut skupa podataka jednako značajan i nezavisan.

Klasifikacija se vrši korištenjem naivnih Bayesovih klasifikatora. Jednostavni su za upotrebu i daju bolje rezultate od složenijih prediktora kada je premisa nezavisnosti tačna.

Oni se koriste u analizi teksta, filtriranju neželjene pošte i sistemima preporuka.

16. Šta znače funkcije troškova i funkcije gubitka?

Izraz “funkcija gubitka” odnosi se na proces izračunavanja gubitka kada se uzme u obzir samo jedan podatak.

Suprotno tome, koristimo funkciju troškova da odredimo ukupan iznos grešaka za brojne podatke. Ne postoji značajna razlika.

Drugim riječima, dok funkcije troškova agregiraju razliku za cijeli skup podataka za obuku, funkcije gubitka su dizajnirane da zabilježe razliku između stvarnih i predviđenih vrijednosti za jedan zapis.

17. Šta razlikuje generativni model od diskriminativnog modela?

Diskriminativni model uči razlike između nekoliko kategorija podataka. Generativni model prihvata različite tipove podataka.

U problemima klasifikacije, diskriminativni modeli često nadmašuju druge modele.

18. Opišite varijacije između grešaka tipa I i tipa II.

Lažno pozitivni potpadaju u kategoriju grešaka tipa I, dok lažno negativni spadaju u greške tipa II (tvrdeći da se ništa nije dogodilo a zapravo jeste).

19. U mašinskom učenju, šta je tehnika Ensemble učenja?

Tehnika koja se zove učenje ansambla miješa mnoge modele strojnog učenja kako bi proizvela moćnije modele.

Model se može mijenjati iz raznih razloga. Nekoliko uzroka je:

Various Populations
Razne hipoteze
Različite metode modeliranja

Naići ćemo na problem dok koristimo podatke o obuci i testiranju modela. Pristrasnost, varijansa i nesmanjiva greška su mogući tipovi ove greške.

Sada, ovu ravnotežu između pristrasnosti i varijanse u modelu nazivamo kompromisom pristrasnosti i varijanse, i ona bi uvijek trebala postojati. Ovaj kompromis se postiže upotrebom ansambl učenja.

Iako su dostupni različiti pristupi ansambla, postoje dvije zajedničke strategije za kombinovanje mnogih modela:

Izvorni pristup koji se zove bagging koristi set za obuku za proizvodnju dodatnih setova za obuku.
Boosting, sofisticiranija tehnika: Slično kao i bagging, boosting se koristi za pronalaženje idealne formule utega za set za trening.

20. Šta su zapravo parametarski modeli? Dajte primjer.

U parametarskim modelima postoji ograničena količina parametara. Da biste prognozirali podatke, sve što trebate znati su parametri modela.

Slijede tipični primjeri: logistička regresija, linearna regresija i linearni SVM. Neparametarski modeli su fleksibilni jer mogu sadržavati neograničen broj parametara.

Za predviđanje podataka potrebni su parametri modela i status posmatranih podataka. Evo nekoliko tipičnih primjera: tematski modeli, stabla odluka i k-najbliži susjedi.

21. Opišite kolaborativno filtriranje. Kao i filtriranje zasnovano na sadržaju?

Isprobana metoda za kreiranje prilagođenih prijedloga sadržaja je kolaborativno filtriranje.

Oblik sistema preporuka koji se zove kolaborativno filtriranje predviđa svježi materijal balansirajući preferencije korisnika sa zajedničkim interesima.

Korisničke postavke su jedina stvar koju sistemi preporuke zasnovani na sadržaju uzimaju u obzir. U svjetlu prethodnog odabira korisnika, nove preporuke su date iz povezanog materijala.

22. Šta tačno mislite pod Time serijom?

Vremenska serija je zbirka brojeva u rastućem redoslijedu. Tokom unapred određenog vremenskog perioda, on prati kretanje odabranih tačaka podataka i periodično hvata podatke.

Ne postoji minimalni ili maksimalni unos vremena za vremenske serije.

Analitičari često koriste vremenske serije za analizu podataka u skladu sa svojim jedinstvenim zahtjevima.

23. Opišite varijacije između algoritama za povećanje gradijenta i algoritama Random Forest.

Slučajna šuma:

Veliki broj stabala odlučivanja na kraju se objedinjuje i poznata je kao nasumične šume.
Dok povećanje gradijenta proizvodi svako stablo nezavisno od ostalih, nasumična šuma gradi svako drvo jedno po jedno.
Multiclass otkrivanje objekta dobro radi sa slučajnim šumama.

Pojačavanje gradijenta:

Dok se nasumične šume pridružuju stablima odlučivanja na kraju procesa, mašine za povećanje gradijenta ih kombinuju od početka.
Ako su parametri na odgovarajući način prilagođeni, povećanje gradijenta nadmašuje slučajne šume u smislu rezultata, ali nije pametan izbor ako skup podataka ima mnogo odstupanja, anomalija ili šuma jer bi to moglo uzrokovati da model postane preopterećen.
Kada postoje neuravnoteženi podaci, kao što je to u procjeni rizika u realnom vremenu, povećanje gradijenta ima dobre rezultate.

24. Zašto vam je potrebna matrica zabune? Šta je?

Tabela poznata kao matrica konfuzije, ponekad poznata i kao matrica grešaka, široko se koristi da pokaže koliko dobro klasifikacioni model, ili klasifikator, radi na skupu podataka testa za koje su poznate prave vrednosti.

Omogućava nam da vidimo kako model ili algoritam rade. To nam olakšava uočavanje nesporazuma među različitim kursevima.

On služi kao način da se proceni koliko je dobro izveden model ili algoritam.

Predviđanja modela klasifikacije se sastavljaju u matricu konfuzije. Vrijednosti broja svake oznake klase korištene su za razbijanje ukupnog broja ispravnih i netačnih predviđanja.

Pruža detalje o greškama koje je napravio klasifikator, kao io različitim vrstama grešaka uzrokovanih klasifikatorima.

25. Šta je zapravo analiza principa komponente?

Minimiziranjem broja varijabli koje su međusobno povezane, cilj je da se minimizira dimenzionalnost prikupljanja podataka. Ali važno je zadržati raznolikost što je više moguće.

Varijable se mijenjaju u potpuno novi skup varijabli koje se nazivaju glavne komponente.

Ovi računari su ortogonalni jer su svojstveni vektori kovarijansne matrice.

26. Zašto je rotacija komponenti tako ključna za PCA (analizu glavnih komponenti)?

Rotacija je ključna u PCA jer optimizira razdvajanje varijansi dobijenih od svake komponente, čineći interpretaciju komponente jednostavnijom.

Potrebne su nam proširene komponente da bismo izrazili varijaciju komponenti ako se komponente ne rotiraju.

27. Kako se regularizacija i normalizacija razlikuju jedna od druge?

normalizacija:

Podaci se mijenjaju tokom normalizacije. Trebali biste normalizirati podatke ako imaju skale koje se drastično razlikuju, posebno od niske do visoke. Podesite svaku kolonu tako da su sve osnovne statistike kompatibilne.

Kako bi se osiguralo da nema gubitka preciznosti, ovo može biti korisno. Detekcija signala uz ignorisanje buke jedan je od ciljeva obuke modela.

Postoji šansa za preuređivanje ako se modelu da potpuna kontrola kako bi se smanjila greška.

Regularizacija:

U regularizaciji, funkcija predviđanja je modificirana. Ovo je podložno određenoj kontroli kroz regularizaciju, što daje prednost jednostavnijim funkcijama ugradnje u odnosu na one složene.

28. Kako se normalizacija i standardizacija razlikuju jedna od druge?

Dvije najčešće korištene tehnike za skaliranje karakteristika su normalizacija i standardizacija.

normalizacija:

Ponovno skaliranje podataka tako da odgovaraju rasponu [0,1] poznato je kao normalizacija.
Kada svi parametri moraju imati istu pozitivnu skalu, normalizacija je korisna, ali se gubici skupa podataka gube.

Regularizacija:

Podaci se mijenjaju tako da imaju srednju vrijednost od 0 i standardnu devijaciju od 1 kao dio procesa standardizacije (Varijanca jedinice)

29. Šta tačno znači “faktor inflacije varijanse”?

Odnos varijanse modela i varijanse modela sa samo jednom nezavisnom varijablom poznat je kao faktor inflacije varijacije (VIF).

VIF procjenjuje količinu multikolinearnosti prisutne u skupu nekoliko regresijskih varijabli.

Varijanca modela (VIF) Model sa jednom nezavisnom promenljivom varijansom

30. Na osnovu veličine kompleta za obuku, kako birate klasifikator?

Model sa velikom pristrasnošću i niskom varijansom ima bolje rezultate za kratak skup treninga jer je manja vjerovatnoća prekomjernog prilagođavanja. Naivni Bayes je jedan primjer.

Da bi se predstavile složenije interakcije za veliki skup za obuku, poželjniji je model sa niskom pristrasnošću i velikom varijansom. Logistička regresija je dobar primjer.

31. Koji se algoritam u mašinskom učenju naziva “lijenji učenik” i zašto?

Sporo učenik, KNN je algoritam za mašinsko učenje. Budući da K-NN dinamički izračunava udaljenost svaki put kada želi da klasifikuje umesto da uči bilo koje mašinski naučene vrednosti ili varijable iz podataka obuke, on pamti skup podataka za obuku.

Ovo čini K-NN lijenim učenikom.

32. Šta su ROC kriva i AUC?

Učinak modela klasifikacije na svim pragovima je grafički predstavljen ROC krivom. Ima istinske pozitivne i lažno pozitivne kriterije stope.

Jednostavno rečeno, površina ispod ROC krive je poznata kao AUC (Oblast ispod ROC krive). Mjeri se dvodimenzionalna površina ROC krive od (0,0) do AUC (1,1). Za procjenu modela binarne klasifikacije, koristi se kao statistika učinka.

33. Šta su hiperparametri? Šta ih čini jedinstvenim od parametara modela?

Interna varijabla modela poznata je kao parametar modela. Koristeći podatke o obuci, vrijednost parametra se aproksimira.

Nepoznato modelu, hiperparametar je varijabla. Vrijednost se ne može odrediti iz podataka, pa se oni često koriste za izračunavanje parametara modela.

34. Šta znače F1 rezultat, opoziv i preciznost?

Mera konfuzije je metrika koja se koristi za procenu efikasnosti modela klasifikacije. Sljedeće fraze se mogu koristiti za bolje objašnjenje metrike konfuzije:

TP: Prave pozitivne vrijednosti – To su pozitivne vrijednosti koje su ispravno predviđene. To sugerira da su vrijednosti predviđene klase i stvarne klase pozitivne.

TN: Prave negativne vrijednosti - Ovo su štetne vrijednosti koje su tačno prognozirane. To sugerira da su i vrijednost stvarne klase i očekivane klase negativne.

Ove vrijednosti - lažno pozitivne i lažno negativne - javljaju se kada se vaša stvarna klasa razlikuje od predviđene klase.

sada,

Odnos prave pozitivne stope (TP) prema svim zapažanjima napravljenim u stvarnoj klasi naziva se prisjećanje, također poznato kao osjetljivost.

Opoziv je TP/(TP+FN).

Preciznost je mjera pozitivne prediktivne vrijednosti, koja upoređuje broj pozitivnih vrijednosti koje model zaista predviđa sa koliko tačnih pozitivnih vrijednosti precizno predviđa.

Preciznost je TP/(TP + FP)

Najlakša metrika performansi za razumijevanje je tačnost, koja je samo proporcija ispravno predviđenih zapažanja prema svim zapažanjima.

Preciznost je jednaka (TP+TN)/(TP+FP+FN+TN).

Preciznost i opoziv su ponderisani i usrednjeni da bi se obezbedio F1 rezultat. Kao rezultat toga, ovaj rezultat uzima u obzir i lažno pozitivne i lažno negativne.

F1 je često vredniji od tačnosti, posebno ako imate nejednaku distribuciju klasa, čak i ako intuitivno to nije tako jednostavno za shvatiti kao tačnost.

Najbolja preciznost se postiže kada je cijena lažno pozitivnih i lažno negativnih uporediva. Poželjno je uključiti i preciznost i opoziv ako se troškovi povezani s lažno pozitivnim i lažno negativnim značajno razlikuju.

35. Šta je zapravo unakrsna validacija?

Pristup statističkog ponovnog uzorkovanja nazvan unakrsna validacija u mašinskom učenju koristi nekoliko podskupova skupova podataka za obuku i evaluaciju algoritma mašinskog učenja u nizu rundi.

Nova serija podataka koja nije korištena za obuku modela testira se korištenjem unakrsnog provjere kako bi se vidjelo koliko dobro model to predviđa. Preklapanje podataka je sprečeno unakrsnom validacijom.

K-Fold Najčešće korištena metoda ponovnog uzorkovanja dijeli cijeli skup podataka u K skupova jednakih veličina. To se zove unakrsna validacija.

36. Recimo da ste otkrili da vaš model ima značajnu varijaciju. Koji je algoritam, po vašem mišljenju, najpogodniji za rješavanje ove situacije?

Upravljanje velikom varijabilnosti

Za probleme sa velikim varijacijama trebamo koristiti tehniku pakiranja.

Ponovljeno uzorkovanje nasumičnih podataka koristilo bi se od strane algoritma za skladištenje podataka da podijeli podatke u podgrupe. Nakon što su podaci podijeljeni, možemo koristiti nasumične podatke i specifičnu proceduru obuke za generiranje pravila.

Nakon toga, anketiranje bi se moglo koristiti za kombinovanje predviđanja modela.

37. Šta razlikuje Ridge regresiju od Lasso regresije?

Dvije široko korištene metode regularizacije su Lasso (takođe nazvana L1) i Ridge (ponekad nazvana L2) regresija. Koriste se da bi se spriječilo preklapanje podataka.

Kako bi se otkrilo najbolje rješenje i minimizirala složenost, ove tehnike se koriste za kažnjavanje koeficijenata. Kažnjavanjem ukupnih apsolutnih vrijednosti koeficijenata, Lasso regresija djeluje.

Funkcija kazne u Ridge ili L2 regresiji je izvedena iz zbira kvadrata koeficijenata.

38. Šta je važnije: performanse modela ili tačnost modela? Koji i zašto ćete ga favorizirati?

Ovo je varljivo pitanje, stoga prvo treba razumjeti šta je Model Performanse. Ako se performanse definiraju kao brzina, onda se oslanjaju na tip aplikacije; svaka aplikacija koja uključuje situaciju u realnom vremenu zahtijevala bi veliku brzinu kao ključnu komponentu.

Na primjer, najbolji rezultati pretraživanja će postati manje vrijedni ako je potrebno predugo da stignu rezultati upita.

Ako se performanse koriste kao opravdanje zašto bi preciznost i opoziv trebali biti prioritet iznad tačnosti, tada će F1 rezultat biti korisniji od tačnosti u demonstriranju poslovnog slučaja za bilo koji skup podataka koji je neuravnotežen.

39. Kako biste upravljali skupom podataka sa nejednakostima?

Neuravnoteženi skup podataka može imati koristi od tehnika uzorkovanja. Uzorkovanje se može obaviti na način sa manje ili prekomjerno uzorkovanjem.

Pod uzorkovanjem nam omogućava da smanjimo veličinu većinske klase kako bi se uskladila sa manjinskom klasom, što pomaže u povećanju brzine u pogledu skladištenja i izvršavanja, ali također može rezultirati gubitkom vrijednih podataka.

Kako bismo popravili problem gubitka informacija uzrokovanog prevelikim uzorkovanjem, mi nadozorkujemo klasu Minority; ipak, to nas dovodi do problema s prenamjenom.

Dodatne strategije uključuju:

Prekomerno uzorkovanje zasnovano na klasterima - Instance manjinske i većinske klase su pojedinačno podvrgnute tehnici grupisanja K-srednjih vrednosti u ovoj situaciji. Ovo se radi da bi se pronašli klasteri skupa podataka. Zatim se svaki klaster preuzorkuje tako da sve klase imaju istu veličinu i svi klasteri unutar klase imaju jednak broj instanci.
SMOTE: Tehnika prekomjernog uzorkovanja sintetičke manjine - Isječak podataka iz manjinske klase se koristi kao primjer, nakon čega se proizvode dodatne umjetne instance koje su uporedive s njom i dodaju originalnom skupu podataka. Ova metoda dobro funkcionira s numeričkim podacima.

40. Kako možete razlikovati pojačavanje i stavljanje u vreću?

Ensemble Techniques imaju verzije poznate kao bagging i boosting.

Pakovanje-

Za algoritme sa velikom varijacijom, bagging je tehnika koja se koristi za smanjenje varijanse. Jedna takva porodica klasifikatora koja je sklona pristrasnosti je porodica stabla odlučivanja.

Vrsta podataka na kojima se obučavaju stabla odlučivanja ima značajan uticaj na njihov učinak. Zbog toga je, čak i uz vrlo visoko fino podešavanje, u njima ponekad daleko teže postići generalizaciju ishoda.

Ako se podaci o obuci stabla odluka izmijene, rezultati se značajno razlikuju.

Kao posljedica toga, koristi se bagging, u kojem se kreiraju mnoga stabla odlučivanja, od kojih se svako obučava korištenjem uzorka originalnih podataka, a krajnji rezultat je prosjek svih ovih različitih modela.

pojačavanje:

Pojačavanje je tehnika predviđanja sa n-slabim klasifikatorskim sistemom u kojem svaki slabi klasifikator nadoknađuje nedostatke svojih jačih klasifikatora. Klasifikator koji loše radi na datom skupu podataka nazivamo "slabim klasifikatorom".

Jačanje je očigledno proces, a ne algoritam. Logistička regresija i plitka stabla odlučivanja su uobičajeni primjeri slabih klasifikatora.

Adaboost, Gradient Boosting i XGBoost su dva najpopularnija algoritma za pojačavanje, međutim, postoji mnogo više.

41. Objasnite razlike između induktivnog i deduktivnog učenja.

Kada uči na primjeru iz skupa promatranih primjera, model koristi induktivno učenje kako bi došao do generaliziranog zaključka. S druge strane, kod deduktivnog učenja, model koristi rezultat prije nego što formira svoj vlastiti.

Induktivno učenje je proces izvlačenja zaključaka iz zapažanja.

Deduktivno učenje je proces stvaranja zapažanja zasnovanih na zaključcima.

zaključak

Congrats! Ovo je top 40 i više pitanja za intervju za mašinsko učenje na koja sada znate odgovore. Nauka o podacima i umjetne inteligencije zanimanja će i dalje biti tražena kako tehnologija bude napredovala.

Kandidati koji ažuriraju svoje znanje o ovim najsavremenijim tehnologijama i unaprede svoje veštine mogu pronaći širok spektar mogućnosti zapošljavanja uz konkurentnu platu.

Možete nastaviti s odgovaranjem na intervjue sada kada imate solidno razumijevanje o tome kako odgovoriti na neka od često postavljanih pitanja za intervju za mašinsko učenje.

Ovisno o vašim ciljevima, poduzmite sljedeći korak. Pripremite se za intervjue tako što ćete posjetiti Hashdork's Interview Series.

Top 40+ pitanja za intervju za mašinsko učenje