Top 40+ Machine Learning Interview Froen (2024)

Inhaltsverzeechnes[Verstoppen][Show]

1. Erkläert d'Ënnerscheeder tëscht Maschinnléieren, Kënschtlech Intelligenz an Deep Learning.
2. Weg beschreiwen déi verschidden Zorte vu Maschinn Léieren.
3. Wat ass de Bias versus Varianz Trade-Off?
4. Maschinn Léieren Algorithmen hu wesentlech iwwer Zäit evoluéiert. Wéi wielt een de richtege Algorithmus fir en Dateset ze benotzen?
5. Wéi ënnerscheede sech Kovarianz a Korrelatioun?
6. Am Maschinnléieren, wat heescht Clustering?
7. Wat ass Äre léifste Maschinn Léieren Algorithmus?
8. Linear Regressioun am Machine Learning: Wat ass et?
9. Beschreift d'Ënnerscheeder tëscht KNN an k-heescht Clustering.
10. Wat heescht "Auswiel Bias" fir Iech?
11. Wat genee ass Bayes 'Theorem?
12. Wat sinn 'Training Set' an 'Test Set' an engem Machine Learning Model?
13. Wat ass eng Hypothese am Machine Learning?
14. Wat bedeit d'Maschinn Léieren Iwwerfitting, a wéi kann et verhënnert ginn?
15. Wat genee sinn Naiv Bayes Classeuren?
16. Wat heescht Käschten Fonctiounen a Verloscht Fonctiounen?
17. Wat ënnerscheet e generative Modell vun engem diskriminativen Modell?
18. Beschreift d'Variatiounen tëscht Typ I an Typ II Feeler.
19. Am Maschinnléieren, wat ass d'Ensemble Léiertechnik?
20. Wat genee sinn parametric Modeller? Gitt eng Instanz.
21. Zesummenaarbecht Filteren beschreiwen. Wéi och Inhalt-baséiert Filteren?
22. Wat mengs du genee mat der Time-Serie?
23. Beschreift d'Variatiounen tëscht de Gradient Boosting a Random Forest Algorithmen.
24. Firwat braucht Dir eng Duercherneen Matrixentgasung? Wat ass et?
25. Wat ass genee eng Prinzip Komponent Analyse?
26. Firwat ass Komponent Rotatioun sou entscheedend fir PCA (Haaptkomponent Analyse)?
27. Wéi variéiere Regulariséierung an Normaliséierung vuneneen?
28. Wéi ënnerscheede sech Normaliséierung a Standardiséierung vuneneen?
29. Wat genee heescht "Varianz Inflatioun Faktor"?
30. Baséierend op der Gréisst vum Trainingsset, wéi wielt Dir e Klassifizéierer?
31. Wéi eng Algorithmus am Maschinnléieren gëtt als "faul Schüler" bezeechent a firwat?
32. Wat sinn d'ROC Curve an AUC?
33. Wat sinn Hyperparameter? Wat mécht se eenzegaarteg vun de Modellparameter?
34. Wat bedeit F1 Score, Erënnerung a Präzisioun?
35. Wat ass genee Kräizvalidatioun?
36. Loosst eis soen datt Dir entdeckt hutt datt Äre Modell eng bedeitend Varianz huet. Wéi eng Algorithmus, Ärer Meenung no, ass am meeschte gëeegent fir dës Situatioun ze handhaben?
37. Wat ënnerscheet Ridge Regressioun vun Lasso Regressioun?
38. Wat ass méi wichteg: Modell Leeschtung oder Modell Genauegkeet? Wéi eng a firwat wäert Dir et favoriséieren?
39. Wéi géift Dir en Dataset mat Ongläichheeten verwalten?
40. Wéi kënnt Dir tëscht Boost a Bagging ënnerscheeden?
41. Erkläert d'Ënnerscheeder tëscht induktivt an deduktivt Léieren.
Konklusioun

D'Geschäfter benotze modernste Technologie, sou wéi kënschtlech Intelligenz (AI) a Maschinnléieren, fir d'Accessibilitéit vun Informatioun a Servicer fir Eenzelen ze erhéijen.

Dës Technologien gi vu verschiddenen Industrien ugeholl, dorënner Banken, Finanzen, Retail, Fabrikatioun, a Gesondheetsariichtung.

Eng vun de meeschte gesicht organisatoresch Rollen, déi AI benotzen, ass fir Datewëssenschaftler, Kënschtlech Intelligenz Ingenieuren, Maschinn Léieren Ingenieuren, an Datenanalytiker.

Dëse Post féiert Iech duerch eng Vielfalt vun Maschinn léieren Interview Froen, vu Basis bis komplex, fir Iech ze hëllefen Iech prett ze kréien fir all Froen déi Dir kéint gefrot ginn wann Dir no Ärer idealer Aarbecht sicht.

1. Erkläert d'Ënnerscheeder tëscht Maschinnléieren, Kënschtlech Intelligenz an Deep Learning.

Kënschtlech Intelligenz beschäftegt eng Vielfalt vu Maschinnléieren an Deep Learning Approche, déi Computersystemer erlaben Aufgaben auszeféieren andeems mënschlech Intelligenz mat Logik a Reegelen benotzt.

Maschinnléieren benotzt eng Vielfalt vu Statistiken an Deep Learning Approche fir Maschinnen z'erméiglechen aus hirer viregter Leeschtung ze léieren a méi adept ze ginn fir verschidden Aufgaben eleng ze maachen ouni mënschlech Opsiicht.

Deep Learning ass eng Sammlung vun Algorithmen déi d'Software erlaabt vu sech selwer ze léieren a verschidde kommerziell Funktiounen auszeféieren, wéi Stëmm- a Bilderkennung.

Systemer déi hir multilayered aussetzt neural Netzwierker ze grouss Quantitéiten un Daten fir ze léieren fäeg sinn déif Léieren ze maachen.

2. Weg beschreiwen déi verschidden Zorte vu Maschinn Léieren.

Maschinn Léieren existéiert an dräi verschidden Aarte breed:

Iwwerwaacht Léieren: E Modell erstellt Prognosen oder Uerteeler mat markéierten oder historeschen Donnéeën am iwwerwaachte Maschinnléieren. Datesets déi gezeechent oder markéiert goufen fir hir Bedeitung ze erhéijen ginn als markéiert Daten bezeechent.
Oniwwerwaacht Léieren: Mir hu keng markéiert Donnéeën fir net iwwerwaacht Léieren. An den erakommen Donnéeën kann e Modell Musteren, Odditéiten a Korrelatiounen fannen.
Verstäerkung Léieren: De Modell kann léiere mat Hëllef vun Verstäerkung Léieren an d'Belounung déi et fir säi viregt Verhalen krut.

3. Wat ass de Bias versus Varianz Trade-Off?

Overfitting ass e Resultat vu Bias, wat de Grad ass wéi e Modell d'Donnéeën passt. Bias ass verursaacht duerch falsch oder ze einfach Viraussetzungen an Ärem Maschinn léieren Algorithmus.

Varianz bezitt sech op Feeler verursaacht duerch Komplexitéit an Ärem ML Algorithmus, wat Sensibilitéit fir grouss Varianzgrade bei Trainingsdaten an Iwwerfitting produzéiert.

Varianz ass wéi vill e Modell variéiert ofhängeg vun Inputen.

An anere Wierder, Basismodeller sinn extrem biasseg awer stabil (niddereg Varianz). Overfitting ass e Problem mat komplexe Modeller, obwuel se trotzdem d'Realitéit vum Modell erfaassen (niddereg Bias).

Fir souwuel héich Variatioun wéi héich Bias ze vermeiden, ass e Trade-off tëscht Bias a Varianz noutwendeg fir déi bescht Feelerreduktioun.

4. Maschinn Léieren Algorithmen hu wesentlech iwwer Zäit evoluéiert. Wéi wielt een de richtege Algorithmus fir en Dateset ze benotzen?

D'Maschinn Léiertechnik déi benotzt soll ginn hänkt nëmmen vun der Aart vun Daten an engem spezifesche Datesaz of.

Wann Daten linear sinn, gëtt linear Regressioun benotzt. D'Taschenmethod géif besser Leeschtung wann d'Donnéeën net-Linearitéit uginn. Mir kënnen Entscheedungsbeem oder SVM benotzen wann d'Donnéeë fir kommerziell Zwecker evaluéiert oder interpretéiert musse ginn.

Neural Netzwierker kéinten nëtzlech sinn fir eng korrekt Äntwert ze kréien wann d'Dateset Fotoen, Videoen an Audio enthält.

D'Wiel vum Algorithmus fir eng spezifesch Ëmstänn oder Sammlung vun Daten kann net nëmmen op enger eenzeger Moossnam gemaach ginn.

Fir d'Zil fir déi bescht fit Method z'entwéckelen, musse mir als éischt d'Donnéeën iwwerpréift mat der explorativer Datenanalyse (EDA) an d'Zil vun der Benotzung vum Dataset verstoen.

5. Wéi ënnerscheede sech Kovarianz a Korrelatioun?

Kovarianz evaluéiert wéi zwou Variabelen matenee verbonne sinn a wéi een sech als Äntwert op Ännerungen an der anerer kéint änneren.

Wann d'Resultat positiv ass, weist et un datt et en direkten Link tëscht de Verännerlechen ass an datt ee mat enger Erhéijung oder Ofsenkung vun der Basisvariabel eropgeet oder erofgeet, unzehuelen datt all aner Konditioune konstant bleiwen.

Korrelatioun moosst d'Verbindung tëscht zwou zoufälleg Variabelen an huet nëmmen dräi verschidde Wäerter: 1, 0 an -1.

6. Am Maschinnléieren, wat heescht Clustering?

Net iwwerwaacht Léiermethoden, déi Datenpunkten zesumme gruppéieren, ginn Clustering genannt. Mat enger Sammlung vun Datepunkte kann d'Clustertechnik applizéiert ginn.

Dir kënnt all Datenpunkte no hire Funktiounen gruppéieren andeems Dir dës Strategie benotzt.

D'Features an d'Qualitéite vun den Datepunkten, déi an déiselwecht Kategorie falen, sinn ähnlech, während déi vun den Datepunkten, déi an getrennte Gruppéierunge falen, anescht sinn.

Dës Approche kann benotzt ginn fir statistesch Donnéeën ze analyséieren.

7. Wat ass Äre léifste Maschinn Léieren Algorithmus?

Dir hutt d'Chance Är Virléiften an eenzegaarteg Talenter an dëser Fro ze demonstréieren, souwéi Är ëmfaassend Kenntnisser vu ville Maschinnléierentechniken.

Hei sinn e puer typesch Maschinn Léieren Algorithmen fir iwwer ze denken:

Linear Regressioun
Logistesch Réckgang
Naiv Bayes
Entscheedungsbeamten
K heescht
Zoufälleg Bësch Algorithmus
K-nächst Noper (KNN)

8. Linear Regressioun am Machine Learning: Wat ass et?

E iwwerwaachte Maschinnléier Algorithmus ass linear Regressioun.

Et gëtt a predictive Analyse benotzt fir d'linear Verbindung tëscht den ofhängegen an onofhängege Variabelen ze bestëmmen.

D'Equatioun vun der linearer Regressioun ass wéi follegt:

Y = A + BX

wou:

Den Input oder onofhängeg Variabel gëtt X genannt.
Déi ofhängeg oder Ausgangsvariabel ass Y.
De Koeffizient vum X ass b, a säin Ofschnëtt ass a.

9. Beschreift d'Ënnerscheeder tëscht KNN an k-heescht Clustering.

De primären Ënnerscheed ass datt KNN (eng Klassifikatiounsmethod, iwwerwaacht Léieren) markéierte Punkte brauch, wärend k-Mëttel net (Clustering Algorithmus, net iwwerwaacht Léieren).

Dir kënnt markéiert Daten an en net markéierte Punkt klassifizéieren andeems Dir K-Nearest Neighbors benotzt. K-means Clustering benotzt d'Duerchschnëttsdistanz tëscht Punkten fir ze léieren wéi een net markéiert Punkten gruppéiere kann.

10. Wat heescht "Auswiel Bias" fir Iech?

D'Viraussetzung an der Probephase vun engem Experiment ass wéinst statistescher Ongenauegkeet.

Eng Probegrupp gëtt méi dacks gewielt wéi déi aner Gruppen am Experiment als Resultat vun der Ongenauegkeet.

Wann d'Selektiounsbias net unerkannt gëtt, kann et zu enger falscher Conclusioun féieren.

11. Wat genee ass Bayes 'Theorem?

Wa mir vun anere Wahrscheinlechkeeten bewosst sinn, kënne mir eng Wahrscheinlechkeet bestëmmen mat Bayes 'Theorem. Et bitt der posterior Wahrscheinlechkeet vun engem Optriede baséiert op virdrun Informatiounen, an anere Wierder.

Eng gutt Method fir bedingt Wahrscheinlechkeeten ze schätzen gëtt vun dësem Theorem geliwwert.

Wann Dir Klassifikatioun prévisibel Modellerproblemer entwéckelt an e Modell op eng Formatioun passt Dataset am Maschinnléieren, gëtt dem Bayes säin Theorem applizéiert (dh Naive Bayes, Bayes Optimal Classifier).

12. Wat sinn 'Training Set' an 'Test Set' an engem Machine Learning Model?

Training Set:

Den Trainingsset besteet aus Instanzen déi un de Modell geschéckt ginn fir Analyse a Léieren.
Dëst sinn déi markéiert Daten déi benotzt gi fir de Modell ze trainéieren.
Normalerweis ginn 70% vun de Gesamtdaten als Trainingsdaten benotzt.

Test Set:

Den Testset gëtt benotzt fir d'Genauegkeet vun der Hypothesegeneratioun vum Modell ze bewäerten.
Mir testen ouni markéiert Daten a benotzen dann Etiketten fir d'Resultater ze bestätegen.
Déi reschtlech 30% ginn als Testdate benotzt.

13. Wat ass eng Hypothese am Machine Learning?

Machine Learning erméiglecht d'Benotzung vun existente Datesätze fir eng bestëmmte Funktioun besser ze verstoen déi den Input an d'Output verbënnt. Dëst ass bekannt als Funktioun Approximatioun.

An dësem Fall muss Approximatioun fir déi onbekannt Zilfunktioun agestallt ginn fir all denkbar Observatioune baséiert op der bestëmmter Situatioun op déi bescht Manéier ze transferéieren.

Am Maschinnléieren ass eng Hypothese e Modell deen hëlleft fir d'Zilfunktioun ze schätzen an déi entspriechend Input-zu-Output Mappings ofzeschléissen.

D'Auswiel an d'Design vun Algorithmen erlaben d'Definitioun vum Raum vu méiglechen Hypothesen, déi duerch e Modell vertruede kënne ginn.

Fir eng eenzeg Hypothese gëtt klengen h (h) benotzt, awer Kapital h (H) gëtt fir de ganzen Hypotheseraum benotzt, dee gesicht gëtt. Mir wäerte kuerz dës Notatiounen iwwerpréiwen:

Eng Hypothese (h) ass e bestëmmte Modell deen d'Mapping vum Input zum Output erliichtert, deen duerno fir Evaluatioun a Prognose benotzt ka ginn.
En Hypotheseset (H) ass e sichtbare Raum vun Hypothesen, déi benotzt kënne ginn fir Inputen op Ausgänge ze mapen. Ausgabeframing, Modell a Modellkonfiguratioun sinn e puer Beispiller vu generesche Aschränkungen.

14. Wat bedeit d'Maschinn Léieren Iwwerfitting, a wéi kann et verhënnert ginn?

Wann eng Maschinn probéiert aus engem net genuch Datesaz ze léieren, geschitt Iwwerfitting.

Als Resultat ass d'Iwwerfitting inverse mam Datevolumen korreléiert. D'Cross-Validatioun Approche erlaabt Iwwerfitting fir kleng Datesets ze vermeiden. En Dataset gëtt an zwee Deeler an dëser Method opgedeelt.

Den Dataset fir Testen an Training besteet aus dësen zwee Deeler. D'Trainingsdataset gëtt benotzt fir e Modell ze kreéieren, während d'Testdataset benotzt gëtt fir de Modell mat verschiddenen Inputen ze evaluéieren.

Dëst ass wéi een Iwwerfitting verhënneren.

15. Wat genee sinn Naiv Bayes Classeuren?

Verschidde Klassifikatiounsmethoden maachen d'Naive Bayes Klassifizéierer aus. Eng Rei vun Algorithmen bekannt als dës Klassifizéierer funktionnéieren all op déiselwecht fundamental Iddi.

D'Annahme gemaach vun naiven Bayes Klassifizéierer ass datt d'Präsenz oder d'Feele vun enger Feature keen Afloss op d'Präsenz oder d'Feele vun enger anerer Feature huet.

An anere Wierder, dëst ass wat mir als "naiv" bezeechnen well et d'Annahme mécht datt all Datasetattribut gläich bedeitend an onofhängeg ass.

Klassifikatioun gëtt mat naiv Bayes Klassifizéierer gemaach. Si sinn einfach ze benotzen a produzéiere besser Resultater wéi méi komplex Prediktoren wann d'Onofhängegkeet Viraussetzung richteg ass.

An Textanalyse, Spamfiltering a Empfehlungssystemer gi se agestallt.

16. Wat heescht Käschten Fonctiounen a Verloscht Fonctiounen?

Den Ausdrock "Verloschtfunktioun" bezitt sech op de Prozess vum Rechenverloscht wann nëmmen ee Stéck Daten berücksichtegt gëtt.

Am Géigesaz benotze mir d'Käschtefunktioun fir de Gesamtbetrag vu Feeler fir vill Donnéeën ze bestëmmen. Et gëtt kee bedeitende Ënnerscheed.

An anere Wierder, wärend d'Käschtefunktiounen den Ënnerscheed fir de ganzen Trainingsdataset aggregéiert, sinn Verloschtfunktiounen entworf fir den Ënnerscheed tëscht den aktuellen a virausgesote Wäerter fir en eenzege Rekord z'erreechen.

17. Wat ënnerscheet e generative Modell vun engem diskriminativen Modell?

En diskriminative Modell léiert d'Ënnerscheeder tëscht verschiddenen Datekategorien. E generative Modell hëlt verschidden Datentypen op.

Wat d'Klassifikatiounsproblemer ugeet, sinn diskriminativ Modeller dacks méi wéi aner Modeller.

18. Beschreift d'Variatiounen tëscht Typ I an Typ II Feeler.

Falsch Positiver falen ënner der Kategorie Typ I Feeler, wärend falsch Negativer ënner Typ II Feeler falen (ze behaapten datt näischt geschitt ass wann et tatsächlech geschitt ass).

19. Am Maschinnléieren, wat ass d'Ensemble Léiertechnik?

Eng Technik genannt Ensemble Léieren vermëscht vill Maschinnléiere Modeller fir méi potent Modeller ze produzéieren.

E Modell kann aus verschiddene Grënn variéiert ginn. Verschidde Ursaachen sinn:

Verschidde Populatiounen
Verschidde Hypothesen
Verschidde Modellermethoden

Mir wäerten en Thema begéinen wann Dir d'Formatiouns- an Testdaten vum Modell benotzt. Bias, Varianz an irreducible Feeler si méiglech Aarte vun dësem Feeler.

Elo nenne mir dëst Gläichgewiicht tëscht Bias a Varianz am Modell e Bias-Varianz Trade-Off, an et soll ëmmer existéieren. Dës Ofdreiwung gëtt duerch d'Benotzung vun Ensembel Léieren erreecht.

Och wann et verschidden Ensembel Approche verfügbar sinn, ginn et zwou gemeinsam Strategien fir vill Modeller ze kombinéieren:

Eng gebierteg Approche genannt Bagging benotzt den Trainingsset fir zousätzlech Trainingssets ze produzéieren.
Boosting, eng méi raffinéiert Technik: Vill wéi Bagging, Boost gëtt benotzt fir déi ideal Gewiichtsformel fir en Trainingsset ze fannen.

20. Wat genee sinn parametric Modeller? Gitt eng Instanz.

Et ginn eng limitéiert Zuel vu Parameteren an parametresche Modeller. Fir Daten ze prognostéieren, alles wat Dir wësse musst sinn d'Parameteren vum Modell.

Déi folgend sinn typesch Beispiller: logistesch Regressioun, linear Regressioun, a linear SVMs. Net-parametresch Modeller si flexibel well se eng onlimitéiert Zuel vu Parameteren enthalen kënnen.

D'Parameteren vum Modell an de Status vun den observéierten Donnéeën sinn erfuerderlech fir Dateprognosen. Hei sinn e puer typesch Beispiller: Thema Modeller, Decisioun Beem, an k-noosten Noperen.

21. Zesummenaarbecht Filteren beschreiwen. Wéi och Inhalt-baséiert Filteren?

Eng probéiert-a-richteg Method fir personaliséiert Inhaltssuggestiounen ze kreéieren ass kollaborativ Filteren.

Eng Form vu Empfehlungssystem genannt kollaborativ Filteren virausgesot frësch Material andeems d'Benotzervirléiften mat gemeinsamen Interessen ausbalancéiert ginn.

Benotzer Virléiften sinn dat eenzegt wat Inhalt-baséiert Empfehler Systemer betruecht. Am Liicht vun de fréiere Selektioune vum Benotzer ginn nei Empfehlungen aus verwandte Material geliwwert.

22. Wat mengs du genee mat der Time-Serie?

Eng Zäitserie ass eng Sammlung vun Zuelen an opsteigend Uerdnung. Iwwer eng virbestëmmten Zäitperiod iwwerwaacht et d'Bewegung vun de gewielten Datepunkten a erfaasst periodesch d'Datepunkte.

Et gëtt kee Minimum oder maximal Zäit Input fir Zäit Serie.

Zäitreihe ginn dacks vun Analysten benotzt fir Daten am Aklang mat hiren eenzegaartegen Ufuerderungen ze analyséieren.

23. Beschreift d'Variatiounen tëscht de Gradient Boosting a Random Forest Algorithmen.

Zoufälleg Bësch:

Eng grouss Zuel vun Decisioun Beem sinn um Enn zesummen a sinn als zoufälleg Bëscher bekannt.
Iwwerdeems Gradient Boost produzéiert all Bam onofhängeg vun deenen aneren, baut zoufälleg Bësch all Bam ee gläichzäiteg.
Multiclass Objet Detektioun Wierker gutt mat zoufälleg Bëscher.

Gradient Boosting:

Iwwerdeems zoufälleg Bëscher Entscheedungsbeem um Enn vum Prozess bäitrieden, kombinéieren Gradient Boosting Maschinnen se vun Ufank un.
Wann d'Parameteren passend ugepasst sinn, iwwerschreift d'Gradientboosting zoufälleg Bëscher wat d'Resultater ugeet, awer et ass net eng intelligent Wiel wann d'Dateset vill Auslänner, Anomalien oder Kaméidi huet, well et kéint de Modell iwwerfit ginn.
Wann et onbalancéiert Donnéeën ass, wéi et an Echtzäit Risikobewäertung ass, leeft Gradient Boost gutt.

24. Firwat braucht Dir eng Duercherneen Matrixentgasung? Wat ass et?

En Dësch bekannt als Verwirrungsmatrix, heiansdo als Fehlermatrix bekannt, gëtt wäit benotzt fir ze weisen wéi gutt e Klassifikatiounsmodell, oder Klassifizéierer, op enger Rei vun Testdaten leeft, fir déi déi reell Wäerter bekannt sinn.

Et erlaabt eis ze gesinn wéi e Modell oder Algorithmus funktionnéiert. Et mécht et einfach fir eis Mëssverständnisser tëscht verschiddene Coursen ze gesinn.

Et déngt als Wee fir ze evaluéieren wéi gutt e Modell oder Algorithmus ausgefouert gëtt.

D'Prognosen vun engem Klassifikatiounsmodell ginn an eng Duercherneenmatrix zesummegesat. D'Zuelwäerter vun all Klasseetikett goufe benotzt fir d'total Zuel vu korrekten a falsche Prognosen opzedeelen.

Et liwwert Detailer iwwer d'Feeler, déi vum Klassifizéierer gemaach ginn, souwéi déi verschidden Aarte vu Feeler, déi vu Klassifizéierer verursaacht ginn.

25. Wat ass genee eng Prinzip Komponent Analyse?

Andeems Dir d'Zuel vun de Variabelen miniméiert déi matenee korreléiert sinn, ass d'Ziel d'Dimensionalitéit vun der Datesammlung ze minimiséieren. Awer et ass wichteg d'Diversitéit esou vill wéi méiglech ze halen.

D'Variabelen ginn an e ganz neie Set vu Variablen geännert, genannt Haaptkomponenten.

Dës PCs sinn orthogonal well se d'Eegevektoren vun enger Kovarianzmatrix sinn.

26. Firwat ass Komponent Rotatioun sou entscheedend fir PCA (Haaptkomponent Analyse)?

D'Rotatioun ass entscheedend am PCA well et d'Trennung tëscht de Varianzen, déi vun all Komponent kritt gëtt, optiméiert, wat d'Komponentinterpretatioun méi einfach mécht.

Mir erfuerderen erweidert Komponenten fir Komponentvariatioun auszedrécken wann d'Komponente net rotéiert sinn.

27. Wéi variéiere Regulariséierung an Normaliséierung vuneneen?

Normaliséierung:

D'Donnéeën ginn während der Normaliséierung geännert. Dir sollt d'Donnéeën normaliséieren wann et Skalen huet déi drastesch anescht sinn, besonnesch vu niddereg bis héich. Ajustéieren all Kolonn sou datt déi fundamental Statistike all kompatibel sinn.

Fir sécherzestellen datt et kee Präzisiounsverloscht gëtt, kann dëst nëtzlech sinn. D'Signal z'entdecken wärend de Kaméidi ignoréiert ass ee vun den Ziler vum Model Training.

Et gëtt eng Chance vun overfitting wann de Modell komplett Kontroll gëtt Feeler ze reduzéieren.

Reguléierung:

Bei der Reguléierung gëtt d'Prognosefunktioun geännert. Dëst ass ënnerleien zu enger Kontroll duerch Regulariséierung, wat méi einfache passende Funktiounen iwwer komplizéiert favoriséiert.

28. Wéi ënnerscheede sech Normaliséierung a Standardiséierung vuneneen?

Déi zwee am meeschte verbreet Technike fir Feature Skaléieren sinn Normaliséierung a Standardiséierung.

Normaliséierung:

D'Reskaléierung vun den Donnéeën fir en [0,1] Beräich ze passen ass bekannt als Normaliséierung.
Wann all Parameteren déiselwecht positiv Skala mussen hunn, ass d'Normaliséierung hëllefräich, awer d'Ausgrenzunge vum Dateset ginn verluer.

Reguléierung:

D'Donnéeë ginn ëmskaléiert fir e Moyenne vun 0 an eng Standarddeviatioun vun 1 ze hunn als Deel vum Standardiséierungsprozess (Eenheet Varianz)

29. Wat genee heescht "Varianz Inflatioun Faktor"?

D'Verhältnis vun der Varianz vum Modell an der Varianz vum Modell mat nëmmen enger onofhängeger Variabel ass bekannt als Variatiounsinflatiounsfaktor (VIF).

VIF schätzt de Betrag vun der Multikollinearitéit, déi an enger Rei vu verschiddene Regressiounsvariablen präsent ass.

Varianz vum Modell (VIF) Modell mat One Onofhängeg Variabel Varianz

30. Baséierend op der Gréisst vum Trainingsset, wéi wielt Dir e Klassifizéierer?

En héije Bias, niddereg Varianzmodell funktionnéiert besser fir e kuerzen Trainingsset well Iwwerfitting manner wahrscheinlech ass. Naiv Bayes ass eng Instanz.

Fir méi komplizéiert Interaktioune fir e grousse Trainingsset ze representéieren, ass e Modell mat gerénger Bias an héijer Varianz bevorzugt. Logistesch Regressioun ass e gutt Beispill.

31. Wéi eng Algorithmus am Maschinnléieren gëtt als "faul Schüler" bezeechent a firwat?

E schlëmme Schüler, KNN ass e Maschinnléier Algorithmus. Well K-NN dynamesch Distanz berechent all Kéier wann et wëllt klassifizéieren anstatt all Maschinn geléiert Wäerter oder Variabelen aus den Trainingsdaten ze léieren, erënnert d'Trainingsdataset.

Dëst mécht K-NN engem lidderechen Schüler.

32. Wat sinn d'ROC Curve an AUC?

D'Performance vun engem Klassifikatiounsmodell op all Schwellen gëtt graphesch duerch d'ROC Curve duergestallt. Et huet richteg positiven Taux a falsch positiv Taux Critèren.

Einfach gesot, d'Gebitt ënner der ROC Curve ass bekannt als AUC (Area Under the ROC Curve). D'ROC-Kurve zweedimensional Gebitt vun (0,0) bis AUC gëtt gemooss (1,1). Fir binär Klassifikatiounsmodeller ze bewäerten, gëtt et als Leeschtungsstatistik benotzt.

33. Wat sinn Hyperparameter? Wat mécht se eenzegaarteg vun de Modellparameter?

Eng intern Variabel vum Modell ass bekannt als Modellparameter. Mat Trainingsdaten gëtt de Wäert vun engem Parameter geschätzt.

Onbekannt mam Modell, en Hyperparameter ass eng Variabel. De Wäert kann net aus Daten bestëmmt ginn, dofir gi se dacks benotzt fir Modellparameter ze berechnen.

34. Wat bedeit F1 Score, Erënnerung a Präzisioun?

D'Verwirrungsmoossnam ass déi Metrik déi benotzt gëtt fir d'Effizienz vum Klassifikatiounsmodell ze bewäerten. Déi folgend Ausdréck kënne benotzt ginn fir d'Verwirrungsmetrik besser z'erklären:

TP: Richteg Positives - Dëst sinn déi positiv Wäerter déi richteg virausgesot goufen. Et suggeréiert datt d'Wäerter vun der projizéierter Klass an der aktueller Klass souwuel positiv sinn.

TN: Richteg Negativ- Dëst sinn déi negativ Wäerter déi präzis virausgesot goufen. Et suggeréiert datt souwuel de Wäert vun der aktueller Klass an der erwaarter Klass negativ sinn.

Dës Wäerter - falsch Positiver a falsch Negativer - geschitt wann Är aktuell Klass vun der erwaarter Klass ënnerscheet.

Elo,

D'Verhältnis vum richtege positiven Taux (TP) zu all Observatioune gemaach an der aktueller Klass gëtt Réckruff genannt, och bekannt als Sensibilitéit.

D'Erënnerung ass TP/(TP+FN).

Präzisioun ass eng Moossnam vum positiven prévisive Wäert, deen d'Zuel vu Positiven vergläicht, déi de Modell wierklech virausgesot huet mat wéivill korrekt Positiven et präzis virausgesot.

Präzisioun ass TP/(TP + FP)

Déi einfachst Leeschtungsmetrik fir ze verstoen ass Genauegkeet, wat just den Undeel vu richteg virausgesoten Observatiounen zu all Observatiounen ass.

Genauegkeet ass gläich wéi (TP+TN)/(TP+FP+FN+TN).

Präzisioun a Réckruff gi gewiicht an duerchschnëttlech fir de F1 Score ze bidden. Als Resultat berücksichtegt dëse Score souwuel falsch Positiver a falsch Negativer.

F1 ass dacks méi wäertvoll wéi Genauegkeet, besonnesch wann Dir eng ongläich Klass Verdeelung hutt, och wann et intuitiv net esou einfach ass ze verstoen wéi Genauegkeet.

Déi bescht Genauegkeet gëtt erreecht wann d'Käschte vu falschen Positiven a falschen Negativer vergläichbar sinn. Et ass léiwer souwuel Präzisioun a Réckruff ze enthalen wann d'Käschte verbonne mat falschen Positiven a falschen Negativer wesentlech ënnerscheeden.

35. Wat ass genee Kräizvalidatioun?

Eng statistesch Resampling Approche genannt Cross-Validatioun am Maschinnléieren benotzt verschidde Dataset-Subset fir e Maschinnléieralgorithmus iwwer eng Zuel vu Ronnen ze trainéieren an ze evaluéieren.

Eng nei Partie vun Daten, déi net benotzt gouf fir de Modell ze trainéieren, gëtt mat Kräizvalidatioun getest fir ze kucken wéi gutt de Modell et virausgesot. Dateoverfitting gëtt duerch Kräizvalidatioun verhënnert.

K-Fold Déi meescht benotzte Resamplingmethod spalt de ganzen Dataset a K Sätz vu gläiche Gréissten. Et gëtt Kräizvalidatioun genannt.

36. Loosst eis soen datt Dir entdeckt hutt datt Äre Modell eng bedeitend Varianz huet. Wéi eng Algorithmus, Ärer Meenung no, ass am meeschte gëeegent fir dës Situatioun ze handhaben?

Gestioun vun héich Verännerlechkeet

Mir sollten d'Taschentechnik fir Probleemer mat grousse Variatiounen benotzen.

Widderholl Sampling vun zoufälleg Daten géif vum Bagging Algorithmus benotzt ginn fir d'Donnéeën an Ënnergruppen opzedeelen. Wann d'Donnéeën opgedeelt sinn, kënne mir zoufälleg Daten an eng spezifesch Trainingsprozedur benotze fir Reegelen ze generéieren.

Duerno konnt d'Ëmfro benotzt ginn fir d'Prognosen vum Modell ze kombinéieren.

37. Wat ënnerscheet Ridge Regressioun vun Lasso Regressioun?

Zwee wäit benotzt Reguléierungsmethoden sinn Lasso (och L1 genannt) a Ridge (heiansdo L2 genannt) Regressioun. Si gi benotzt fir d'Overfitting vun Daten ze vermeiden.

Fir déi bescht Léisung z'entdecken an d'Komplexitéit ze minimiséieren, ginn dës Technike benotzt fir d'Koeffizienten ze bestrofen. Andeems Dir den Total vun den absolute Wäerter vun de Koeffizienten bestrooft, funktionnéiert d'Lasso Regressioun.

D'Stroffunktioun an der Ridge- oder L2-Regressioun gëtt vun der Zomm vun de Quadrate vun de Koeffizienten ofgeleet.

38. Wat ass méi wichteg: Modell Leeschtung oder Modell Genauegkeet? Wéi eng a firwat wäert Dir et favoriséieren?

Dëst ass eng täuschend Fro, also sollt een als éischt verstoen wat Model Performance ass. Wann d'Performance als Geschwindegkeet definéiert ass, da hänkt se op d'Zort vun der Applikatioun; all Applikatioun déi eng Echtzäitsituatioun involvéiert hätt héich Geschwindegkeet als entscheedende Bestanddeel erfuerderen.

Zum Beispill, déi bescht Sichresultater ginn manner wäertvoll wann d'Query Resultater ze laang daueren fir ze kommen.

Wann d'Performance als Begrënnung benotzt gëtt firwat Präzisioun a Réckruff virun der Genauegkeet prioritär solle prioritär sinn, da wäert e F1 Score méi nëtzlech sinn wéi d'Genauegkeet fir de Geschäftsfall fir all Datesaz ze demonstréieren deen onbalancéiert ass.

39. Wéi géift Dir en Dataset mat Ongläichheeten verwalten?

En onbalancéierten Dataset kann vu Probetechnike profitéieren. Sampling kann entweder ënner oder iwwersampled Manéier gemaach ginn.

Ënner Sampling erlaabt eis d'Gréisst vun der Majoritéitsklass ze schrumpfen fir d'Minoritéitsklass ze passen, wat hëlleft bei der Erhéijung vun der Geschwindegkeet mat Bezuch op d'Späichere an d'Run-Time Ausféierung awer kann och zum Verloscht vu wäertvollen Donnéeën féieren.

Fir d'Fro vum Informatiounsverloscht duerch Iwwersampling ze behiewen, upsample mir d'Minoritéitsklass; trotzdem, dëst bewierkt eis an overfitting Problemer lafen.

Zousätzlech Strategien enthalen:

Cluster-baséiert Iwwer Sampling- D'Minoritéit an d'Majoritéit Klass Instanzen sinn individuell un der K-bedeit Clustering Technik an dëser Situatioun ënnerworf. Dëst gëtt gemaach fir Datasetcluster ze fannen. Dann gëtt all Stärekoup iwwersampled sou datt all Klassen déiselwecht Gréisst hunn an all Stärekéip an enger Klass eng gläich Unzuel vun Instanzen hunn.
SMOTE: Synthetic Minority Over-Sampling Technique- E Slice vun Daten aus der Minoritéitsklass gëtt als Beispill benotzt, duerno ginn zousätzlech kënschtlech Instanzen, déi domat vergläichbar sinn, produzéiert an an d'Original Dataset bäigefüügt. Dës Method funktionnéiert gutt mat numereschen Datepunkte.

40. Wéi kënnt Dir tëscht Boost a Bagging ënnerscheeden?

Ensemble Techniques hunn Versioune bekannt als Bagging a Boost.

Bagage-

Fir Algorithmen mat enger héijer Variatioun ass Bagging eng Technik déi benotzt gëtt fir d'Varianz ze senken. Eng esou Famill vu Klassifizéierer déi ufälleg ass fir Bias ass d'Entscheedungsbaumfamill.

D'Zort vun Donnéeën, op déi Entscheedungsbeem trainéiert ginn, huet e wesentlechen Impakt op hir Leeschtung. Dofir, och mat ganz héijer Feintuning, ass d'Generaliséierung vun de Resultater heiansdo vill méi schwéier an hinnen ze kréien.

Wann d'Ausbildungsdaten vun Entscheedungsbeem geännert ginn, variéieren d'Resultater wesentlech.

Als Konsequenz gëtt Bagging benotzt, an deem vill Entscheedungsbeem erstallt ginn, déi jidderee mat enger Probe vun den ursprénglechen Donnéeën trainéiert gëtt, an d'Ennresultat ass d'Moyenne vun all dëse verschiddene Modeller.

Boost:

Boosting ass d'Technik fir Prognosen ze maachen mat engem n-schwaache Klassifizéierersystem, an deem all schwaache Klassifizéierer d'Mängel vu senge méi staarke Klassifizéierer kompenséiert. Mir bezéien op e Klassifizéierer dee schlecht op engem bestëmmten Dateset als "schwaache Klassifizéierer" funktionnéiert.

Boost ass offensichtlech e Prozess anstatt en Algorithmus. Logistesch Regressioun a flaach Entscheedungsbeem sinn allgemeng Beispiller vu schwaache Klassifizéierer.

Adaboost, Gradient Boosting, an XGBoost sinn déi zwee beléifste Boost Algorithmen, awer et gi vill méi.

41. Erkläert d'Ënnerscheeder tëscht induktivt an deduktivt Léieren.

Wann Dir mam Beispill aus enger Rei vun observéierte Beispiller léiert, benotzt e Modell induktiv Léieren fir zu enger generaliséierter Conclusioun ze kommen. Op der anerer Säit, mat deduktivt Léieren, benotzt de Modell d'Resultat ier hien säin eegent formt.

Induktivt Léieren ass de Prozess fir Conclusiounen aus Observatiounen ze zéien.

Deduktiv Léieren ass de Prozess fir Observatiounen ze kreéieren baséiert op Inferenzen.

Konklusioun

Gratulatioun! Dëst sinn déi Top 40 a méi Interview Froen fir Maschinnléieren op déi Dir elo d'Äntwerten wësst. Data Science an Kënschtlech Intelligenz Beruffer wäerte weider gefrot ginn wéi d'Technologie weider geet.

Kandidaten, déi hiert Wëssen iwwer dës modernste Technologien aktualiséieren an hir Fäegkeete verbesseren, kënnen eng breet Varietéit vun Beschäftegungsméiglechkeeten mat kompetitiv Pai fannen.

Dir kënnt weidergoen mat den Interviewen ze beäntweren elo datt Dir e zolidd Verständnis hutt wéi Dir op e puer vun de wäit gefrote Maschinnléieren Interview Froen beäntwert.

Ofhängeg vun Ären Ziler, huelt de folgende Schrëtt. Bereet Iech op Interviewen andeems Dir Hashdork's besicht Interview Serie.

Top 40+ Machine Learning Interview Froen