Indholdsfortegnelse[Skjule][At vise]
- 1. Forklar forskellene mellem machine learning, kunstig intelligens og deep learning.
- 2. Beskriv venligst de forskellige typer maskinlæring.
- 3. Hvad er afvejningen mellem skævhed og varians?
- 4. Maskinlæringsalgoritmer har udviklet sig betydeligt over tid. Hvordan vælger man den rigtige algoritme til at bruge givet et datasæt?
- 5. Hvordan adskiller kovarians og korrelation sig?
- 6. Hvad betyder clustering i maskinlæring?
- 7. Hvad er din foretrukne maskinlæringsalgoritme?
- 8. Lineær regression i maskinlæring: Hvad er det?
- 9. Beskriv forskellene mellem KNN og k-betyder clustering.
- 10. Hvad betyder "selektionsbias" for dig?
- 11. Hvad er Bayes' sætning egentlig?
- 12. Hvad er 'træningssæt' og 'testsæt' i en maskinlæringsmodel?
- 13. Hvad er en hypotese i maskinlæring?
- 14. Hvad betyder maskinlæring overfitting, og hvordan kan det forebygges?
- 15. Hvad er Naive Bayes-klassifikatorer helt præcist?
- 16. Hvad betyder omkostningsfunktioner og tabsfunktioner?
- 17. Hvad adskiller en generativ model fra en diskriminerende model?
- 18. Beskriv variationerne mellem type I og type II fejl.
- 19. Hvad er Ensemble-læringsteknikken i maskinlæring?
- 20. Hvad er parametriske modeller helt præcist? Giv et eksempel.
- 21. Beskriv kollaborativ filtrering. Samt indholdsbaseret filtrering?
- 22. Hvad mener du helt præcist med Time-serien?
- 23. Beskriv variationerne mellem Gradient Boosting og Random Forest algoritmerne.
- 24. Hvorfor har du brug for en forvirringsmatrix? Hvad er det?
- 25. Hvad er egentlig en principiel komponentanalyse?
- 26. Hvorfor er komponentrotation så afgørende for PCA (principal component analysis)?
- 27. Hvordan varierer regularisering og normalisering fra hinanden?
- 28. Hvordan er normalisering og standardisering forskellige fra hinanden?
- 29. Hvad betyder "variansinflationsfaktor" helt præcist?
- 30. Baseret på størrelsen af træningssættet, hvordan vælger du en klassificering?
- 31. Hvilken algoritme i maskinlæring omtales som den "dovne lærende" og hvorfor?
- 32. Hvad er ROC-kurven og AUC?
- 33. Hvad er hyperparametre? Hvad gør dem unikke fra modelparametrene?
- 34. Hvad betyder F1-score, genkaldelse og præcision?
- 35. Hvad er krydsvalidering egentlig?
- 36. Lad os sige, at du opdagede, at din model har en betydelig varians. Hvilken algoritme er efter din mening bedst egnet til at håndtere denne situation?
- 37. Hvad adskiller Ridge-regression fra Lasso-regression?
- 38. Hvad er vigtigere: modelydelse eller modelnøjagtighed? Hvilken og hvorfor vil du foretrække den?
- 39. Hvordan ville du styre et datasæt med uligheder?
- 40. Hvordan kan du skelne mellem boosting og bagging?
- 41. Forklar forskellene mellem induktiv og deduktiv læring.
- Konklusion
Virksomheder bruger banebrydende teknologi, såsom kunstig intelligens (AI) og maskinlæring, for at øge tilgængeligheden af information og tjenester til enkeltpersoner.
Disse teknologier bliver adopteret af en række forskellige industrier, herunder bank, finans, detailhandel, fremstilling og sundhedspleje.
En af de mest eftertragtede organisatoriske roller, der bruger AI, er for dataforskere, ingeniører af kunstig intelligens, maskinlæringsingeniører og dataanalytikere.
Dette indlæg vil lede dig gennem en række forskellige machine learning interviewspørgsmål, fra grundlæggende til komplekse, for at hjælpe dig med at blive klar til de spørgsmål, du kan blive stillet, når du leder efter dit ideelle job.
1. Forklar forskellene mellem machine learning, kunstig intelligens og deep learning.
Kunstig intelligens anvender en række forskellige maskinlærings- og deep learning-tilgange, der tillader computersystemer at udføre opgaver ved at bruge menneskelignende intelligens med logik og regler.
Maskinlæring bruger en række statistikker og Deep Learning-tilgange for at gøre det muligt for maskiner at lære af deres tidligere præstationer og blive dygtigere til at udføre visse opgaver på egen hånd uden menneskelig opsyn.
Deep Learning er en samling af algoritmer, der gør det muligt for softwaren at lære af sig selv og udføre en række kommercielle funktioner, såsom stemme- og billedgenkendelse.
Systemer, der afslører deres flerlags neurale netværk til enorme mængder af data til læring er i stand til at lave dyb læring.
2. Beskriv venligst de forskellige typer maskinlæring.
Machine learning findes bredt i tre forskellige typer:
- Overvåget læring: En model opretter forudsigelser eller vurderinger ved hjælp af mærkede eller historiske data i overvåget maskinlæring. Datasæt, der er blevet mærket eller mærket for at øge deres betydning, omtales som mærkede data.
- Uovervåget læring: Vi har ikke mærkede data til uovervåget læring. I de indkommende data kan en model finde mønstre, mærkværdigheder og sammenhænge.
- Forstærkningslæring: Modellen kan lære ved at bruge forstærkning læring og de belønninger, den fik for sin tidligere adfærd.
3. Hvad er afvejningen mellem skævhed og varians?
Overtilpasning er et resultat af bias, som er i hvilken grad en model passer til dataene. Bias er forårsaget af forkerte eller for simple antagelser i din maskinlæringsalgoritme.
Varians refererer til fejl forårsaget af kompleksitet i din ML-algoritme, som producerer følsomhed over for store grader af varians i træningsdata og overfitting.
Varians er, hvor meget en model varierer afhængigt af input.
Med andre ord er de grundlæggende modeller ekstremt partiske, men alligevel stabile (lav varians). Overfitting er et problem med komplekse modeller, selvom de alligevel fanger modellens virkelighed (low bias).
For at forhindre både høj variation og høj bias er en afvejning mellem bias og varians nødvendig for den bedste fejlreduktion.
4. Maskinlæringsalgoritmer har udviklet sig betydeligt over tid. Hvordan vælger man den rigtige algoritme til at bruge givet et datasæt?
Den maskinlæringsteknik, der skal bruges, afhænger kun af typen af data i et specifikt datasæt.
Når data er lineære, bruges lineær regression. Sækkemetoden ville fungere bedre, hvis data indikerede ikke-linearitet. Vi kan bruge beslutningstræer eller SVM, hvis dataene skal evalueres eller fortolkes til kommercielle formål.
Neurale netværk kan være nyttige til at opnå et præcist svar, hvis datasættet indeholder fotos, videoer og lyd.
Valget af algoritme for en bestemt omstændighed eller indsamling af data kan ikke kun foretages på et enkelt mål.
Med henblik på at udvikle den bedst egnede metode, skal vi først undersøge dataene ved hjælp af eksplorativ dataanalyse (EDA) og forstå målet med at bruge datasættet.
5. Hvordan adskiller kovarians og korrelation sig?
Kovarians evaluerer, hvordan to variable er forbundet med hinanden, og hvordan den ene kan ændre sig som reaktion på ændringer i den anden.
Hvis resultatet er positivt, indikerer det, at der er en direkte sammenhæng mellem variablerne, og at man ville stige eller falde med en stigning eller et fald i basisvariablen, forudsat at alle andre forhold forbliver konstante.
Korrelation måler sammenhængen mellem to tilfældige variable og har kun tre forskellige værdier: 1, 0 og -1.
6. Hvad betyder clustering i maskinlæring?
Uovervågede læringsmetoder, der grupperer datapunkter sammen, kaldes clustering. Med en samling af datapunkter kan klyngeteknikken anvendes.
Du kan gruppere alle datapunkterne i henhold til deres funktioner ved hjælp af denne strategi.
Funktionerne og kvaliteterne af de datapunkter, der falder ind under samme kategori, er ens, mens de af datapunkterne, der falder i separate grupperinger, er forskellige.
Denne tilgang kan bruges til at analysere statistiske data.
7. Hvad er din foretrukne maskinlæringsalgoritme?
Du har chancen for at demonstrere dine præferencer og unikke talenter i dette spørgsmål, såvel som din omfattende viden om adskillige maskinlæringsteknikker.
Her er et par typiske maskinlæringsalgoritmer at tænke på:
- Lineær regression
- Logistisk regression
- Naiv Bayes
- Beslutning træer
- K betyder
- Tilfældig skovalgoritme
- K-nærmeste nabo (KNN)
8. Lineær regression i maskinlæring: Hvad er det?
En overvåget maskinlæringsalgoritme er lineær regression.
Det bruges i prædiktiv analyse til at bestemme den lineære forbindelse mellem de afhængige og uafhængige variable.
Lineær regressions ligning er som følger:
Y = A + BX
hvor:
- Input eller uafhængig variabel kaldes X.
- Den afhængige eller outputvariabel er Y.
- X's koefficient er b, og dens skæringspunkt er a.
9. Beskriv forskellene mellem KNN og k-betyder clustering.
Den primære skelnen er, at KNN (en klassifikationsmetode, overvåget læring) har brug for mærkede punkter, hvorimod k-betyder ikke (klyngealgoritme, uovervåget læring).
Du kan klassificere mærkede data til et umærket punkt ved at bruge K-Nærmeste naboer. K-betyder klyngedannelse bruger den gennemsnitlige afstand mellem punkter til at lære, hvordan man grupperer umærkede punkter.
10. Hvad betyder "selektionsbias" for dig?
Bias i et eksperiments prøveudtagningsfase skyldes statistisk unøjagtighed.
Én prøvegruppe udvælges hyppigere end de andre grupper i forsøget som følge af unøjagtigheden.
Hvis selektionsbias ikke anerkendes, kan det resultere i en forkert konklusion.
11. Hvad er Bayes' sætning egentlig?
Når vi er opmærksomme på andre sandsynligheder, kan vi bestemme en sandsynlighed ved hjælp af Bayes' sætning. Det giver den bageste sandsynlighed for en hændelse baseret på forudgående information, med andre ord.
En god metode til at estimere betingede sandsynligheder er tilvejebragt af denne sætning.
Ved udvikling af klassificering prædiktive modelleringsproblemer og tilpasning af en model til en træning datasæt i maskinlæring, anvendes Bayes' sætning (dvs. Naive Bayes, Bayes Optimal Classifier).
12. Hvad er 'træningssæt' og 'testsæt' i en maskinlæringsmodel?
Træningssæt:
- Træningssættet består af instanser, der sendes til modellen til analyse og læring.
- Dette er de mærkede data, der vil blive brugt til at træne modellen.
- Typisk bruges 70 % af de samlede data som træningsdatasæt.
Testsæt:
- Testsættet bruges til at vurdere modellens hypotesegenereringsnøjagtighed.
- Vi tester uden mærkede data og bruger derefter etiketter til at bekræfte resultaterne.
- De resterende 30% bruges som et testdatasæt.
13. Hvad er en hypotese i maskinlæring?
Machine Learning gør det muligt at bruge eksisterende datasæt til bedre at forstå en given funktion, der forbinder input til output. Dette er kendt som funktionstilnærmelse.
I dette tilfælde skal der anvendes tilnærmelse til den ukendte målfunktion for at overføre alle tænkelige observationer baseret på den givne situation bedst muligt.
I maskinlæring er en hypotese en model, der hjælper med at estimere målfunktionen og fuldføre de passende input-til-output-kortlægninger.
Udvælgelsen og designet af algoritmer giver mulighed for at definere rummet af mulige hypoteser, der kan repræsenteres af en model.
For en enkelt hypotese bruges lille h (h), men stort h (H) bruges til hele det hypoteserum, der søges i. Vi vil kort gennemgå disse notationer:
- En hypotese (h) er en særlig model, der letter kortlægningen af input til output, som efterfølgende kan bruges til evaluering og forudsigelse.
- Et hypotesesæt (H) er et søgbart rum af hypoteser, der kan bruges til at kortlægge input til output. Problemramme, model og modelkonfiguration er nogle få eksempler på generiske begrænsninger.
14. Hvad betyder maskinlæring overfitting, og hvordan kan det forebygges?
Når en maskine forsøger at lære af et utilstrækkeligt datasæt, sker der overtilpasning.
Som et resultat er overtilpasning omvendt korreleret med datavolumen. Krydsvalideringstilgangen gør det muligt at undgå overfitting for små datasæt. Et datasæt er opdelt i to dele i denne metode.
Datasættet til test og træning vil bestå af disse to dele. Træningsdatasættet bruges til at skabe en model, mens testdatasættet bruges til at evaluere modellen ved hjælp af forskellige input.
Sådan forhindrer du overfitting.
15. Hvad er Naive Bayes-klassifikatorer helt præcist?
Forskellige klassifikationsmetoder udgør de Naive Bayes-klassifikatorer. Et sæt algoritmer kendt som disse klassifikatorer arbejder alle på den samme grundlæggende idé.
Den antagelse, som naive Bayes-klassifikatorer gør, er, at et træks tilstedeværelse eller fravær ikke har nogen betydning for tilstedeværelsen eller fraværet af et andet træk.
Med andre ord er det det, vi refererer til som "naivt", da det antager, at hver datasætattribut er lige signifikant og uafhængig.
Klassificering udføres ved hjælp af naive Bayes-klassifikatorer. De er enkle at bruge og giver bedre resultater end mere komplekse prædiktorer, når uafhængighedspræmissen er sand.
I tekstanalyse, spamfiltrering og anbefalingssystemer anvendes de.
16. Hvad betyder omkostningsfunktioner og tabsfunktioner?
Udtrykket "tabsfunktion" refererer til processen med at beregne tab, når kun ét stykke data tages i betragtning.
I modsætning hertil bruger vi omkostningsfunktionen til at bestemme det samlede antal fejl for adskillige data. Der er ingen væsentlig forskel.
Med andre ord, mens omkostningsfunktioner aggregerer forskellen for hele træningsdatasættet, er tabsfunktioner designet til at fange forskellen mellem de faktiske og forudsagte værdier for en enkelt post.
17. Hvad adskiller en generativ model fra en diskriminerende model?
En diskriminerende model lærer forskellene mellem flere datakategorier. En generativ model opfanger forskellige datatyper.
Med hensyn til klassifikationsproblemer udkonkurrerer diskriminerende modeller ofte andre modeller.
18. Beskriv variationerne mellem type I og type II fejl.
Falske positive falder ind under kategorien Type I-fejl, hvorimod falske negativer falder ind under Type II-fejl (påstår, at der ikke er sket noget, når det faktisk er sket).
19. Hvad er Ensemble-læringsteknikken i maskinlæring?
En teknik kaldet ensemble learning blander mange maskinlæringsmodeller for at producere mere potente modeller.
En model kan varieres af mange forskellige årsager. Flere årsager er:
- Forskellige Populationer
- Forskellige hypoteser
- Forskellige modelleringsmetoder
Vi vil støde på et problem, mens vi bruger modellens trænings- og testdata. Bias, varians og irreducerbar fejl er mulige typer af denne fejl.
Nu kalder vi denne balance mellem bias og varians i modellen en bias-variance trade-off, og den burde altid eksistere. Denne afvejning opnås gennem brug af ensemblelæring.
Selvom der er forskellige ensembletilgange tilgængelige, er der to fælles strategier til at kombinere mange modeller:
- En indbygget tilgang kaldet bagging bruger træningssættet til at producere yderligere træningssæt.
- Boosting, en mere sofistikeret teknik: Ligesom bagging bruges boosting til at finde den ideelle vægtningsformel til et træningssæt.
20. Hvad er parametriske modeller helt præcist? Giv et eksempel.
Der er en begrænset mængde parametre i parametriske modeller. For at forudsige data er alt, hvad du behøver at vide, modellens parametre.
Følgende er typiske eksempler: logistisk regression, lineær regression og lineære SVM'er. Ikke-parametriske modeller er fleksible, da de kan indeholde et ubegrænset antal parametre.
Modellens parametre og status for de observerede data er nødvendige for dataforudsigelser. Her er nogle typiske eksempler: emnemodeller, beslutningstræer og k-nærmeste naboer.
21. Beskriv kollaborativ filtrering. Samt indholdsbaseret filtrering?
En gennemprøvet metode til at skabe skræddersyede indholdsforslag er kollaborativ filtrering.
En form for anbefalingssystem kaldet kollaborativ filtrering forudsiger nyt materiale ved at balancere brugerpræferencer med fælles interesser.
Brugerpræferencer er det eneste, indholdsbaserede anbefalingssystemer overvejer. I lyset af brugerens tidligere valg gives der nye anbefalinger fra relateret materiale.
22. Hvad mener du helt præcist med Time-serien?
En tidsserie er en samling af tal i stigende rækkefølge. Over en forudbestemt tidsperiode overvåger den bevægelsen af de valgte datapunkter og fanger periodisk datapunkterne.
Der er ingen minimum eller maksimum tid input for tidsserier.
Tidsserier bruges ofte af analytikere til at analysere data i overensstemmelse med deres unikke krav.
23. Beskriv variationerne mellem Gradient Boosting og Random Forest algoritmerne.
Tilfældig skov:
- Et stort antal beslutningstræer er samlet i slutningen og er kendt som tilfældige skove.
- Mens gradientboosting producerer hvert træ uafhængigt af de andre, bygger tilfældig skov hvert træ et ad gangen.
- Multiklasse objektdetektion fungerer godt med tilfældige skove.
Gradientforstærkning:
- Mens tilfældige skove slutter sig til beslutningstræer i slutningen af processen, kombinerer Gradient Boosting Machines dem fra begyndelsen.
- Hvis parametrene er korrekt justeret, udkonkurrerer gradientboosting tilfældige skove med hensyn til resultater, men det er ikke et smart valg, hvis datasættet har mange afvigelser, anomalier eller støj, da det kan få modellen til at blive overfittet.
- Når der er ubalancerede data, som der er ved risikovurdering i realtid, fungerer gradientboosting godt.
24. Hvorfor har du brug for en forvirringsmatrix? Hvad er det?
En tabel kendt som forvirringsmatricen, nogle gange kendt som fejlmatricen, bruges i vid udstrækning til at vise, hvor godt en klassifikationsmodel eller klassifikator klarer sig på et sæt testdata, for hvilke de reelle værdier er kendt.
Det giver os mulighed for at se, hvordan en model eller algoritme klarer sig. Det gør det nemt for os at opdage misforståelser mellem forskellige kurser.
Det tjener som en måde at evaluere, hvor godt en model eller algoritme udføres.
En klassifikationsmodels forudsigelser kompileres i en forvirringsmatrix. Hver klasselabels tælleværdier blev brugt til at opdele det samlede antal korrekte og forkerte forudsigelser.
Den giver detaljer om de fejl, der er lavet af klassifikatoren, såvel som de forskellige slags fejl forårsaget af klassifikatorer.
25. Hvad er egentlig en principiel komponentanalyse?
Ved at minimere antallet af variabler, der er korreleret med hinanden, er målet at minimere dimensionaliteten af dataindsamlingen. Men det er vigtigt at bevare mangfoldigheden så meget som muligt.
Variablerne ændres til et helt nyt sæt variabler kaldet hovedkomponenter.
Disse pc'er er ortogonale, da de er en kovariansmatrixs egenvektorer.
26. Hvorfor er komponentrotation så afgørende for PCA (principal component analysis)?
Rotation er afgørende i PCA, fordi det optimerer adskillelsen mellem de varianser, der opnås af hver komponent, hvilket gør komponentfortolkningen enklere.
Vi kræver udvidede komponenter for at udtrykke komponentvariation, hvis komponenterne ikke roteres.
27. Hvordan varierer regularisering og normalisering fra hinanden?
Normalisering:
Data ændres under normalisering. Du bør normalisere dataene, hvis de har skalaer, der er drastisk forskellige, især fra lav til høj. Juster hver kolonne, så de grundlæggende statistikker alle er kompatible.
For at sikre, at der ikke er noget tab af præcision, kan dette være nyttigt. Detektering af signalet, mens du ignorerer støjen, er et af målene med modeltræning.
Der er risiko for overfitting, hvis modellen får fuldstændig kontrol for at reducere fejl.
Regulering:
Ved regularisering modificeres forudsigelsesfunktionen. Dette er underlagt en vis kontrol gennem regularisering, som favoriserer enklere tilpasningsfunktioner frem for komplicerede.
28. Hvordan er normalisering og standardisering forskellige fra hinanden?
De to mest udbredte teknikker til funktionsskalering er normalisering og standardisering.
Normalisering:
- Omskalering af data, så de passer til et [0,1]-område, kaldes normalisering.
- Når alle parametre skal have samme positive skala, er normalisering nyttig, men datasættets outliers går tabt.
Regulering:
- Data omskaleres til at have et gennemsnit på 0 og en standardafvigelse på 1 som en del af standardiseringsprocessen (enhedsvarians)
29. Hvad betyder "variansinflationsfaktor" helt præcist?
Forholdet mellem modellens varians og modellens varians med kun én uafhængig variabel er kendt som variationsinflationsfaktoren (VIF).
VIF estimerer mængden af multikolinearitet til stede i et sæt af flere regressionsvariable.
Varians af modellen (VIF) Model med en uafhængig variabel varians
30. Baseret på størrelsen af træningssættet, hvordan vælger du en klassificering?
En model med høj bias og lav varians yder bedre for et kort træningssæt, da overfitting er mindre sandsynligt. Naive Bayes er et eksempel.
For at repræsentere mere komplicerede interaktioner for et stort træningssæt er en model med lav bias og høj varians at foretrække. Logistisk regression er et godt eksempel.
31. Hvilken algoritme i maskinlæring omtales som den "dovne lærende" og hvorfor?
En træg elev, KNN er en maskinlæringsalgoritme. Fordi K-NN dynamisk beregner afstand, hver gang den ønsker at klassificere i stedet for at lære maskinlærte værdier eller variabler fra træningsdataene, husker den træningsdatasættet.
Dette gør K-NN til en doven elev.
32. Hvad er ROC-kurven og AUC?
Ydeevnen af en klassifikationsmodel ved alle tærskler er repræsenteret grafisk af ROC-kurven. Det har sande positive satser og falske positive satskriterier.
Kort sagt er området under ROC-kurven kendt som AUC (Area Under the ROC Curve). ROC-kurvens todimensionelle areal fra (0,0) til AUC måles (1,1). Til vurdering af binære klassifikationsmodeller bruges den som en præstationsstatistik.
33. Hvad er hyperparametre? Hvad gør dem unikke fra modelparametrene?
En intern variabel i modellen er kendt som en modelparameter. Ved at bruge træningsdata bliver en parameters værdi tilnærmet.
Ukendt for modellen er en hyperparameter en variabel. Værdien kan ikke bestemmes ud fra data, derfor bruges de ofte til at beregne modelparametre.
34. Hvad betyder F1-score, genkaldelse og præcision?
Forvirringsmålet er den metrik, der bruges til at måle effektiviteten af klassifikationsmodellen. Følgende sætninger kan bruges til bedre at forklare forvirringsmetrikken:
TP: Sande positive - Dette er de positive værdier, der blev forventet korrekt. Det tyder på, at værdierne for den projekterede klasse og den faktiske klasse begge er positive.
TN: Sande negative - Dette er de ugunstige værdier, der blev nøjagtigt forudsagt. Det tyder på, at både værdien af den faktiske klasse og den forventede klasse er negativ.
Disse værdier – falske positive og falske negative – opstår, når din faktiske klasse afviger fra den forventede klasse.
Nu
Forholdet mellem den sande positive rate (TP) og alle observationer foretaget i den faktiske klasse kaldes tilbagekaldelse, også kendt som følsomhed.
Tilbagekaldelsen er TP/(TP+FN).
Præcision er et mål for den positive prædiktive værdi, som sammenligner antallet af positive, som modellen virkelig forudsiger, med hvor mange korrekte positive, den præcist forudsiger.
Præcision er TP/(TP + FP)
Den nemmeste præstationsmåling at forstå er nøjagtighed, som blot er andelen af korrekt forudsagte observationer i forhold til alle observationer.
Nøjagtighed er lig med (TP+TN)/(TP+FP+FN+TN).
Præcision og Genkald vægtes og gennemsnittet for at give F1-resultatet. Som et resultat heraf betragter denne score både falske positive og falske negative.
F1 er ofte mere værdifuld end nøjagtighed, især hvis du har en ulige klassefordeling, selvom det intuitivt ikke er så nemt at forstå som nøjagtighed.
Den bedste nøjagtighed opnås, når prisen på falske positiver og falske negativer er sammenlignelige. Det er at foretrække at inkludere både Precision og Recall, hvis omkostningerne forbundet med falske positive og falske negative er væsentligt forskellige.
35. Hvad er krydsvalidering egentlig?
En statistisk resampling-tilgang kaldet krydsvalidering i maskinlæring anvender flere datasætundersæt til at træne og evaluere en maskinlæringsalgoritme på tværs af en række runder.
En ny batch af data, der ikke blev brugt til at træne modellen, testes ved hjælp af krydsvalidering for at se, hvor godt modellen forudsiger det. Dataovertilpasning forhindres gennem krydsvalidering.
K-fold Den mest anvendte resamplingmetode opdeler hele datasættet i K sæt af lige store størrelser. Det kaldes krydsvalidering.
36. Lad os sige, at du opdagede, at din model har en betydelig varians. Hvilken algoritme er efter din mening bedst egnet til at håndtere denne situation?
Håndtering af høj variabilitet
Vi bør bruge poseteknikken til problemer med store variationer.
Gentagen stikprøve af tilfældige data ville blive brugt af sækkealgoritmen til at opdele dataene i undergrupper. Når dataene er blevet opdelt, kan vi bruge tilfældige data og en specifik træningsprocedure til at generere regler.
Derefter kunne polling bruges til at kombinere modellens forudsigelser.
37. Hvad adskiller Ridge-regression fra Lasso-regression?
To meget anvendte regulariseringsmetoder er Lasso (også kaldet L1) og Ridge (nogle gange kaldet L2) regression. De bruges til at forhindre overtilpasning af data.
For at finde den bedste løsning og minimere kompleksiteten, anvendes disse teknikker til at straffe koefficienterne. Ved at straffe summen af koefficienternes absolutte værdier fungerer Lasso-regressionen.
Straffunktionen i Ridge- eller L2-regression udledes af summen af kvadraterne af koefficienterne.
38. Hvad er vigtigere: modelydelse eller modelnøjagtighed? Hvilken og hvorfor vil du foretrække den?
Dette er et vildledende spørgsmål, så man bør først forstå, hvad Model Performance er. Hvis ydeevne er defineret som hastighed, afhænger den af typen af applikation; enhver applikation, der involverer en realtidssituation, vil kræve høj hastighed som en afgørende komponent.
For eksempel vil de bedste søgeresultater blive mindre værdifulde, hvis forespørgselsresultaterne tager for lang tid at nå frem.
Hvis Ydeevne bruges som begrundelse for, hvorfor præcision og genkaldelse bør prioriteres over nøjagtighed, så vil en F1-score være mere nyttig end nøjagtighed til at demonstrere forretningscasen for ethvert datasæt, der er ubalanceret.
39. Hvordan ville du styre et datasæt med uligheder?
Et ubalanceret datasæt kan drage fordel af prøveudtagningsteknikker. Prøveudtagning kan udføres på enten en under- eller oversamplet måde.
Under Sampling giver os mulighed for at formindske størrelsen af majoritetsklassen, så den matcher minoritetsklassen, hvilket hjælper med at øge hastigheden med hensyn til lagring og køretid, men kan også resultere i tab af værdifulde data.
For at afhjælpe problemet med tab af information forårsaget af oversampling, upsampler vi minoritetsklassen; ikke desto mindre får vi os til at løbe ind i problemer med overfitting.
Yderligere strategier omfatter:
- Klyngebaseret oversampling - Minoritets- og majoritetsklassens instanser udsættes individuelt for K-betyder klyngeteknikken i denne situation. Dette gøres for at finde datasætklynger. Derefter oversamples hver klynge, så alle klasser har samme størrelse, og alle klynger i en klasse har lige mange forekomster.
- SMOTE: Synthetic Minority Over-sampling Technique- Et udsnit af data fra minoritetsklassen bruges som eksempel, hvorefter yderligere kunstige instanser, der er sammenlignelige med den, produceres og tilføjes til det originale datasæt. Denne metode fungerer godt med numeriske datapunkter.
40. Hvordan kan du skelne mellem boosting og bagging?
Ensemble Techniques har versioner kendt som bagging og boosting.
Bagning-
For algoritmer med en høj variation er bagging en teknik, der bruges til at sænke variansen. En sådan familie af klassifikatorer, der er tilbøjelig til bias, er beslutningstræfamilien.
Den type data, som beslutningstræer trænes på, har en væsentlig indflydelse på deres ydeevne. På grund af dette, selv med meget høj finjustering, er generalisering af resultater nogle gange langt sværere at opnå i dem.
Hvis beslutningstræernes træningsdata ændres, varierer resultaterne betydeligt.
Som en konsekvens heraf bruges posing, hvor der oprettes mange beslutningstræer, som hver især trænes ved hjælp af en stikprøve af de originale data, og slutresultatet er gennemsnittet af alle disse forskellige modeller.
Boost:
Boosting er teknikken til at lave forudsigelser med et n-svagt klassificeringssystem, hvor hver svag klassifikator kompenserer for manglerne ved dens stærkere klassifikatorer. Vi henviser til en klassifikator, der klarer sig dårligt på et givet datasæt, som en "svag klassifikator."
Boost er naturligvis en proces snarere end en algoritme. Logistisk regression og lavvandede beslutningstræer er almindelige eksempler på svage klassifikatorer.
Adaboost, Gradient Boosting og XGBoost er de to mest populære boosting-algoritmer, men der er mange flere.
41. Forklar forskellene mellem induktiv og deduktiv læring.
Når man lærer ved eksempel fra et sæt observerede eksempler, bruger en model induktiv læring til at nå frem til en generaliseret konklusion. På den anden side, med deduktiv læring, bruger modellen resultatet, før den danner sit eget.
Induktiv læring er processen med at drage konklusioner fra observationer.
Deduktiv læring er processen med at skabe observationer baseret på slutninger.
Konklusion
Tillykke! Dette er top 40 og derover interviewspørgsmål til maskinlæring, som du nu kender svarene på. Datavidenskab og kunstig intelligens erhverv vil fortsat være efterspurgt, efterhånden som teknologien udvikler sig.
Kandidater, der opdaterer deres viden om disse banebrydende teknologier og forbedrer deres færdigheder, kan finde en bred vifte af beskæftigelsesmuligheder med konkurrencedygtig løn.
Du kan fortsætte med at besvare interviewene nu, hvor du har en solid forståelse af, hvordan du besvarer nogle af de almindeligt stillede spørgsmål til maskinlæringsinterview.
Afhængigt af dine mål skal du tage følgende trin. Forbered dig på interviews ved at besøge Hashdork's Interviewserie.
Giv en kommentar