Innholdsfortegnelse[Gjemme seg][Forestilling]
- 1. Forklar forskjellene mellom maskinlæring, kunstig intelligens og dyp læring.
- 2. Vennligst beskriv de ulike typene maskinlæring.
- 3. Hva er avveiningen mellom skjevhet og varians?
- 4. Maskinlæringsalgoritmer har utviklet seg betydelig over tid. Hvordan velger man riktig algoritme for å utnytte gitt et datasett?
- 5. Hvordan skiller kovarians og korrelasjon seg?
- 6. Hva betyr clustering i maskinlæring?
- 7. Hva er din foretrukne maskinlæringsalgoritme?
- 8. Lineær regresjon i maskinlæring: hva er det?
- 9. Beskriv forskjellene mellom KNN og k-betyr clustering.
- 10. Hva betyr "seleksjonsbias" for deg?
- 11. Hva er egentlig Bayes' teorem?
- 12. Hva er "treningssett" og "testsett" i en maskinlæringsmodell?
- 13. Hva er en hypotese i maskinlæring?
- 14. Hva betyr maskinlæring overtilpasning, og hvordan kan det forebygges?
- 15. Hva er egentlig Naive Bayes-klassifiserere?
- 16. Hva betyr kostnadsfunksjoner og tapsfunksjoner?
- 17. Hva skiller en generativ modell fra en diskriminerende modell?
- 18. Beskriv variasjonene mellom Type I og Type II feil.
- 19. I maskinlæring, hva er Ensemble-læringsteknikken?
- 20. Hva er egentlig parametriske modeller? Gi et eksempel.
- 21. Beskriv samarbeidsfiltrering. Samt innholdsbasert filtrering?
- 22. Hva mener du egentlig med Time-serien?
- 23. Beskriv variasjonene mellom Gradient Boosting og Random Forest algoritmene.
- 24. Hvorfor trenger du en forvirringsmatrise? Hva er det?
- 25. Hva er egentlig en prinsipiell komponentanalyse?
- 26. Hvorfor er komponentrotasjon så avgjørende for PCA (principal component analysis)?
- 27. Hvordan varierer regularisering og normalisering fra hverandre?
- 28. Hvordan er normalisering og standardisering forskjellige fra hverandre?
- 29. Hva betyr egentlig "variansinflasjonsfaktor"?
- 30. Basert på størrelsen på treningssettet, hvordan velger du en klassifisering?
- 31. Hvilken algoritme i maskinlæring omtales som «den late lærende» og hvorfor?
- 32. Hva er ROC-kurven og AUC?
- 33. Hva er hyperparametre? Hva gjør dem unike fra modellparametrene?
- 34. Hva betyr F1-score, tilbakekalling og presisjon?
- 35. Hva er egentlig kryssvalidering?
- 36. La oss si at du oppdaget at modellen din har en betydelig variasjon. Hvilken algoritme er etter din mening best egnet for å håndtere denne situasjonen?
- 37. Hva skiller Ridge-regresjon fra Lasso-regresjon?
- 38. Hva er viktigst: modellytelse eller modellnøyaktighet? Hvilken og hvorfor vil du favorisere den?
- 39. Hvordan vil du administrere et datasett med ulikheter?
- 40. Hvordan kan du skille mellom boosting og bagging?
- 41. Forklar forskjellene mellom induktiv og deduktiv læring.
- konklusjonen
Bedrifter bruker banebrytende teknologi, som kunstig intelligens (AI) og maskinlæring, for å øke tilgjengeligheten til informasjon og tjenester for enkeltpersoner.
Disse teknologiene blir tatt i bruk av en rekke bransjer, inkludert bank, finans, detaljhandel, produksjon og helsevesen.
En av de mest ettertraktede organisasjonsrollene som bruker AI er for dataforskere, ingeniører innen kunstig intelligens, maskinlæringsingeniører og dataanalytikere.
Dette innlegget vil lede deg gjennom en rekke maskinlæring intervjuspørsmål, fra grunnleggende til komplekse, for å hjelpe deg med å bli klar for alle spørsmål du kan bli spurt når du leter etter din ideelle jobb.
1. Forklar forskjellene mellom maskinlæring, kunstig intelligens og dyp læring.
Kunstig intelligens bruker en rekke maskinlærings- og dyplæringstilnærminger som lar datasystemer utføre oppgaver ved å bruke menneskelignende intelligens med logikk og regler.
Maskinlæring bruker en rekke statistikker og Deep Learning-tilnærminger for å gjøre det mulig for maskiner å lære av sin tidligere ytelse og bli dyktigere til å utføre visse oppgaver på egenhånd uten menneskelig tilsyn.
Deep Learning er en samling algoritmer som lar programvaren lære av seg selv og utføre en rekke kommersielle funksjoner, som stemme- og bildegjenkjenning.
Systemer som avslører deres flerlags nevrale nettverk til store mengder data for læring er i stand til å gjøre dyp læring.
2. Vennligst beskriv de ulike typene maskinlæring.
Maskinlæring finnes i tre forskjellige typer generelt:
- Overvåket læring: En modell lager spådommer eller vurderinger ved å bruke merkede eller historiske data i overvåket maskinlæring. Datasett som er merket eller merket for å øke betydningen, refereres til som merket data.
- Uovervåket læring: Vi har ikke merket data for uovervåket læring. I de innkommende dataene kan en modell finne mønstre, merkeligheter og korrelasjoner.
- Forsterkningslæring: Modellen kan lære ved å bruke forsterkning læring og belønningen den fikk for sin tidligere oppførsel.
3. Hva er avveiningen mellom skjevhet og varians?
Overtilpasning er et resultat av skjevhet, som er i hvilken grad en modell passer til dataene. Bias er forårsaket av feil eller for enkle antagelser i din maskin læring algoritme.
Varians refererer til feil forårsaket av kompleksitet i ML-algoritmen din, som produserer følsomhet for store grader av variasjon i treningsdata og overtilpasning.
Varians er hvor mye en modell varierer avhengig av input.
Med andre ord, grunnleggende modeller er ekstremt partiske, men stabile (lav varians). Overtilpasning er et problem med komplekse modeller, selv om de likevel fanger opp modellens virkelighet (lav skjevhet).
For å forhindre både høy variasjon og høy skjevhet er det nødvendig med en avveining mellom skjevhet og varians for best feilreduksjon.
4. Maskinlæringsalgoritmer har utviklet seg betydelig over tid. Hvordan velger man riktig algoritme for å utnytte gitt et datasett?
Maskinlæringsteknikken som skal brukes avhenger bare av typen data i et spesifikt datasett.
Når data er lineære, brukes lineær regresjon. Bagging-metoden ville gi bedre resultater hvis data indikerte ikke-linearitet. Vi kan benytte beslutningstrær eller SVM dersom dataene må vurderes eller tolkes for kommersielle formål.
Nevrale nettverk kan være nyttige for å få et nøyaktig svar hvis datasettet inkluderer bilder, videoer og lyd.
Valget av algoritme for en spesifikk omstendighet eller innsamling av data kan ikke gjøres bare på et enkelt mål.
For å utvikle den best passende metoden, må vi først undersøke dataene ved å bruke utforskende dataanalyse (EDA) og forstå målet med å bruke datasettet.
5. Hvordan skiller kovarians og korrelasjon seg?
Kovarians evaluerer hvordan to variabler er koblet til hverandre og hvordan den ene kan endre seg som respons på endringer i den andre.
Hvis resultatet er positivt, indikerer det at det er en direkte sammenheng mellom variablene og at man vil stige eller redusere med en økning eller reduksjon i basisvariabelen, forutsatt at alle andre forhold holder seg konstante.
Korrelasjon måler koblingen mellom to tilfeldige variabler og har bare tre distinkte verdier: 1, 0 og -1.
6. Hva betyr clustering i maskinlæring?
Uovervåket læringsmetoder som grupperer datapunkter sammen kalles clustering. Med en samling av datapunkter kan klyngeteknikken brukes.
Du kan gruppere alle datapunktene i henhold til deres funksjoner ved å bruke denne strategien.
Funksjonene og kvalitetene til datapunktene som faller inn i samme kategori er like, mens de til datapunktene som faller inn i separate grupperinger er forskjellige.
Denne tilnærmingen kan brukes til å analysere statistiske data.
7. Hva er din foretrukne maskinlæringsalgoritme?
Du har sjansen til å demonstrere dine preferanser og unike talenter i dette spørsmålet, samt din omfattende kunnskap om en rekke maskinlæringsteknikker.
Her er noen typiske maskinlæringsalgoritmer å tenke på:
- Lineær regresjon
- Logistisk regresjon
- Naiv Bayes
- Beslutningstrær
- K betyr
- Tilfeldig skogalgoritme
- K-nærmeste nabo (KNN)
8. Lineær regresjon i maskinlæring: hva er det?
En overvåket maskinlæringsalgoritme er lineær regresjon.
Den brukes i prediktiv analyse for å bestemme den lineære sammenhengen mellom de avhengige og uavhengige variablene.
Lineær regresjons ligning er som følger:
Y = A + BX
der:
- Inndata eller uavhengig variabel kalles X.
- Den avhengige eller utgangsvariabelen er Y.
- Xs koeffisient er b, og skjæringspunktet er a.
9. Beskriv forskjellene mellom KNN og k-betyr clustering.
Den primære forskjellen er at KNN (en klassifiseringsmetode, veiledet læring) trenger merkede punkter mens k-betyr ikke (klyngealgoritme, uovervåket læring).
Du kan klassifisere merket data til et umerket punkt ved å bruke K-Nærmeste naboer. K-betyr clustering bruker gjennomsnittlig avstand mellom punkter for å lære å gruppere umerkede punkter.
10. Hva betyr "seleksjonsbias" for deg?
Forvrengningen i et eksperiments prøvetakingsfase skyldes statistisk unøyaktighet.
En prøvegruppe velges hyppigere enn de andre gruppene i forsøket som følge av unøyaktigheten.
Hvis seleksjonsskjevheten ikke erkjennes, kan det resultere i en feil konklusjon.
11. Hva er egentlig Bayes' teorem?
Når vi er klar over andre sannsynligheter, kan vi bestemme en sannsynlighet ved å bruke Bayes' teorem. Det gir den bakre sannsynligheten for en forekomst basert på tidligere informasjon, med andre ord.
En god metode for å estimere betingede sannsynligheter er gitt av denne teoremet.
Ved utvikling av klassifiseringsproblemer med prediktiv modellering og tilpasning av en modell til en trening datasett i maskinlæring, er Bayes' teorem anvendt (dvs. Naive Bayes, Bayes Optimal Classifier).
12. Hva er "treningssett" og "testsett" i en maskinlæringsmodell?
Treningssett:
- Opplæringssettet består av instanser som sendes til modellen for analyse og læring.
- Dette er de merkede dataene som skal brukes til å trene modellen.
- Vanligvis brukes 70 % av de totale dataene som opplæringsdatasett.
Testsett:
- Testsettet brukes til å vurdere modellens hypotesegenereringsnøyaktighet.
- Vi tester uten merkede data og bruker deretter etiketter for å bekrefte resultatene.
- De resterende 30 % brukes som et testdatasett.
13. Hva er en hypotese i maskinlæring?
Maskinlæring muliggjør bruk av eksisterende datasett for å bedre forstå en gitt funksjon som kobler inndata til utdata. Dette er kjent som funksjonstilnærming.
I dette tilfellet må det benyttes tilnærming for at den ukjente målfunksjonen skal overføre alle tenkelige observasjoner basert på den gitte situasjonen på best mulig måte.
I maskinlæring er en hypotese en modell som hjelper til med å estimere målfunksjonen og fullføre de riktige input-to-out-kartleggingene.
Valget og utformingen av algoritmer gir mulighet for definisjon av rommet til mulige hypoteser som kan representeres av en modell.
For en enkelt hypotese brukes liten h (h), men stor h (H) brukes for hele hypoteserommet som det søkes i. Vi skal kort gjennomgå disse notasjonene:
- En hypotese (h) er en spesiell modell som letter kartleggingen av input til output, som senere kan brukes til evaluering og prediksjon.
- Et hypotesesett (H) er et søkbart rom med hypoteser som kan brukes til å kartlegge innganger til utdata. Probleminnramming, modell og modellkonfigurasjon er noen få eksempler på generiske begrensninger.
14. Hva betyr maskinlæring overtilpasning, og hvordan kan det forebygges?
Når en maskin prøver å lære av et utilstrekkelig datasett, oppstår overtilpasning.
Som et resultat er overtilpasning omvendt korrelert med datavolumet. Kryssvalideringstilnærmingen gjør det mulig å unngå overtilpasning for små datasett. Et datasett er delt i to deler i denne metoden.
Datasettet for testing og opplæring vil bestå av disse to delene. Treningsdatasettet brukes til å lage en modell, mens testdatasettet brukes til å evaluere modellen ved hjelp av ulike input.
Slik forhindrer du overtilpasning.
15. Hva er egentlig Naive Bayes-klassifiserere?
Ulike klassifiseringsmetoder utgjør Naive Bayes-klassifikatoren. Et sett med algoritmer kjent som disse klassifisere jobber alle på den samme grunnleggende ideen.
Antagelsen fra naive Bayes-klassifiserere er at en funksjons tilstedeværelse eller fravær ikke har noen betydning for tilstedeværelse eller fravær av en annen funksjon.
Med andre ord er dette det vi omtaler som "naivt" siden det antar at hver datasettattributt er like signifikant og uavhengig.
Klassifisering gjøres ved å bruke naive Bayes-klassifiserere. De er enkle å bruke og gir bedre resultater enn mer komplekse prediktorer når uavhengighetspremisset er sant.
I tekstanalyse, spamfiltrering og anbefalingssystemer brukes de.
16. Hva betyr kostnadsfunksjoner og tapsfunksjoner?
Uttrykket "tapsfunksjon" refererer til prosessen med å beregne tap når bare ett stykke data tas i betraktning.
I motsetning bruker vi kostnadsfunksjonen for å bestemme den totale mengden feil for en rekke data. Det finnes ingen vesentlig forskjell.
Med andre ord, mens kostnadsfunksjoner aggregerer forskjellen for hele treningsdatasettet, er tapsfunksjoner designet for å fange opp forskjellen mellom de faktiske og anslåtte verdiene for en enkelt post.
17. Hva skiller en generativ modell fra en diskriminerende modell?
En diskriminerende modell lærer forskjellene mellom flere datakategorier. En generativ modell fanger opp ulike datatyper.
Når det gjelder klassifiseringsproblemer, utkonkurrerer diskriminerende modeller ofte andre modeller.
18. Beskriv variasjonene mellom Type I og Type II feil.
Falske positiver faller inn under kategorien Type I-feil, mens falske negative faller under Type II-feil (hevder at ingenting har skjedd når det faktisk har skjedd).
19. I maskinlæring, hva er Ensemble-læringsteknikken?
En teknikk kalt ensemble learning blander mange maskinlæringsmodeller for å produsere mer potente modeller.
En modell kan varieres av en rekke årsaker. Flere årsaker er:
- Ulike populasjoner
- Ulike hypoteser
- Ulike modelleringsmetoder
Vi vil støte på et problem mens vi bruker modellens trenings- og testdata. Bias, varians og irreduserbar feil er mulige typer av denne feilen.
Nå kaller vi denne balansen mellom skjevhet og varians i modellen en avveining mellom skjevhet og varians, og den bør alltid eksistere. Denne avveiningen oppnås gjennom bruk av ensemblelæring.
Selv om det er forskjellige ensembletilnærminger tilgjengelig, er det to vanlige strategier for å kombinere mange modeller:
- En innfødt tilnærming kalt bagging bruker treningssettet til å produsere flere treningssett.
- Boosting, en mer sofistikert teknikk: På samme måte som bagging, brukes boosting for å finne den ideelle vektformelen for et treningssett.
20. Hva er egentlig parametriske modeller? Gi et eksempel.
Det er en begrenset mengde parametere i parametriske modeller. For å forutsi data er alt du trenger å vite modellens parametere.
Følgende er typiske eksempler: logistisk regresjon, lineær regresjon og lineære SVM-er. Ikke-parametriske modeller er fleksible siden de kan inneholde et ubegrenset antall parametere.
Modellens parametere og status for de observerte dataene kreves for dataprediksjoner. Her er noen typiske eksempler: temamodeller, beslutningstrær og k-nærmeste naboer.
21. Beskriv samarbeidsfiltrering. Samt innholdsbasert filtrering?
En velprøvd metode for å lage skreddersydde innholdsforslag er samarbeidsfiltrering.
En form for anbefalingssystem kalt kollaborativ filtrering forutsier nytt materiale ved å balansere brukerpreferanser med delte interesser.
Brukerpreferanser er det eneste innholdsbaserte anbefalingssystemer vurderer. I lys av brukerens tidligere valg, er det gitt nye anbefalinger fra relatert materiale.
22. Hva mener du egentlig med Time-serien?
En tidsserie er en samling av tall i stigende rekkefølge. Over en forhåndsbestemt tidsperiode overvåker den bevegelsen til de valgte datapunktene og fanger med jevne mellomrom datapunktene.
Det er ingen minimum eller maksimum tid for tidsserier.
Tidsserier brukes ofte av analytikere for å analysere data i samsvar med deres unike krav.
23. Beskriv variasjonene mellom Gradient Boosting og Random Forest algoritmene.
Tilfeldig skog:
- Et stort antall beslutningstrær er samlet på slutten og er kjent som tilfeldige skoger.
- Mens gradientforsterkning produserer hvert tre uavhengig av de andre, bygger tilfeldig skog hvert tre ett om gangen.
- Flerklasse objektdeteksjon fungerer bra med tilfeldige skoger.
Gradientforsterkning:
- Mens tilfeldige skoger slutter seg til beslutningstrær på slutten av prosessen, kombinerer Gradient Boosting Machines dem fra begynnelsen.
- Hvis parametere er riktig justert, utkonkurrerer gradientforsterkning tilfeldige skoger når det gjelder resultater, men det er ikke et smart valg hvis datasettet har mange uteliggere, anomalier eller støy siden det kan føre til at modellen blir overfitt.
- Når det er ubalanserte data, slik det er i sanntidsrisikovurdering, gir gradientforsterkning gode resultater.
24. Hvorfor trenger du en forvirringsmatrise? Hva er det?
En tabell kjent som forvirringsmatrisen, noen ganger kjent som feilmatrisen, er mye brukt for å vise hvor godt en klassifiseringsmodell, eller klassifikator, presterer på et sett med testdata der de virkelige verdiene er kjent.
Det lar oss se hvordan en modell eller algoritme fungerer. Det gjør det enkelt for oss å oppdage misforståelser mellom ulike kurs.
Det fungerer som en måte å evaluere hvor godt en modell eller algoritme er utført.
En klassifiseringsmodells spådommer er satt sammen i en forvirringsmatrise. Hver klasseetiketts telleverdier ble brukt til å bryte ned det totale antallet korrekte og ukorrekte spådommer.
Den gir detaljer om feilene som klassifiseres, så vel som de forskjellige typene feil forårsaket av klassifikatorer.
25. Hva er egentlig en prinsipiell komponentanalyse?
Ved å minimere antallet variabler som er korrelert med hverandre, er målet å minimere dimensjonaliteten til datainnsamlingen. Men det er viktig å beholde mangfoldet så mye som mulig.
Variablene endres til et helt nytt sett med variabler kalt hovedkomponenter.
Disse PC-ene er ortogonale siden de er en kovariansmatrises egenvektorer.
26. Hvorfor er komponentrotasjon så avgjørende for PCA (principal component analysis)?
Rotasjon er avgjørende i PCA fordi det optimerer separasjonen mellom variansene oppnådd av hver komponent, noe som gjør komponenttolkningen enklere.
Vi krever utvidede komponenter for å uttrykke komponentvariasjon hvis komponentene ikke roteres.
27. Hvordan varierer regularisering og normalisering fra hverandre?
normalisering:
Data endres under normalisering. Du bør normalisere dataene hvis de har skalaer som er drastisk forskjellige, spesielt fra lav til høy. Juster hver kolonne slik at den grunnleggende statistikken er kompatible.
For å sikre at det ikke er tap av presisjon, kan dette være nyttig. Å oppdage signalet mens du ignorerer støyen er et av målene med modelltrening.
Det er en sjanse for overmontering hvis modellen gis full kontroll for å redusere feil.
Regulering:
Ved regularisering blir prediksjonsfunksjonen modifisert. Dette er underlagt en viss kontroll gjennom regularisering, som favoriserer enklere tilpasningsfunksjoner fremfor kompliserte.
28. Hvordan er normalisering og standardisering forskjellige fra hverandre?
De to mest brukte teknikkene for funksjonsskalering er normalisering og standardisering.
normalisering:
- Reskalering av dataene for å passe til et [0,1]-område er kjent som normalisering.
- Når alle parametere må ha samme positive skala, er normalisering nyttig, men datasettets uteliggere går tapt.
Regulering:
- Data skaleres om til å ha et gjennomsnitt på 0 og et standardavvik på 1 som en del av standardiseringsprosessen (Enhetsavvik)
29. Hva betyr egentlig "variansinflasjonsfaktor"?
Forholdet mellom modellens varians og modellens varians med kun én uavhengig variabel er kjent som variasjonsinflasjonsfaktoren (VIF).
VIF estimerer mengden multikollinearitet som er tilstede i et sett med flere regresjonsvariabler.
Varians av modellen (VIF) Modell med en uavhengig variabel varians
30. Basert på størrelsen på treningssettet, hvordan velger du en klassifisering?
En modell med høy skjevhet og lav varians gir bedre resultater for et kort treningssett siden overfitting er mindre sannsynlig. Naive Bayes er ett eksempel.
For å representere mer kompliserte interaksjoner for et stort treningssett, er en modell med lav skjevhet og høy varians å foretrekke. Logistisk regresjon er et godt eksempel.
31. Hvilken algoritme i maskinlæring omtales som «den late lærende» og hvorfor?
En treg elev, KNN er en maskinlæringsalgoritme. Fordi K-NN dynamisk beregner avstand hver gang den ønsker å klassifisere i stedet for å lære maskinlærte verdier eller variabler fra treningsdataene, lagrer den treningsdatasettet.
Dette gjør K-NN til en lat elev.
32. Hva er ROC-kurven og AUC?
Ytelsen til en klassifiseringsmodell ved alle terskler er representert grafisk av ROC-kurven. Den har sanne positive rater og falske positive ratekriterier.
Enkelt sagt er området under ROC-kurven kjent som AUC (Area Under the ROC Curve). ROC-kurvens todimensjonale areal fra (0,0) til AUC måles (1,1). For å vurdere binære klassifiseringsmodeller brukes den som en ytelsesstatistikk.
33. Hva er hyperparametre? Hva gjør dem unike fra modellparametrene?
En intern variabel i modellen er kjent som en modellparameter. Ved å bruke treningsdata blir en parameters verdi tilnærmet.
Ukjent for modellen er en hyperparameter en variabel. Verdien kan ikke bestemmes fra data, derfor brukes de ofte til å beregne modellparametere.
34. Hva betyr F1-score, tilbakekalling og presisjon?
Forvirringsmålet er metrikken som brukes for å måle effektiviteten til klassifiseringsmodellen. Følgende setninger kan brukes for å bedre forklare forvirringsberegningen:
TP: Sanne positive - Dette er de positive verdiene som ble forventet riktig. Det antyder at verdiene til den prosjekterte klassen og den faktiske klassen begge er positive.
TN: True Negatives- Dette er de ugunstige verdiene som ble nøyaktig anslått. Det antyder at både verdien av den faktiske klassen og den forventede klassen er negativ.
Disse verdiene – falske positive og falske negative – oppstår når den faktiske klassen din er forskjellig fra den forventede klassen.
Nå,
Forholdet mellom den sanne positive raten (TP) og alle observasjoner gjort i den faktiske klassen kalles tilbakekalling, også kjent som sensitivitet.
Tilbakekallingen er TP/(TP+FN).
Presisjon er et mål på den positive prediktive verdien, som sammenligner antallet positive som modellen virkelig predikerer med hvor mange korrekte positive den predikerer nøyaktig.
Presisjon er TP/(TP + FP)
Den enkleste ytelsesberegningen å forstå er nøyaktighet, som bare er andelen riktig forutsagte observasjoner i forhold til alle observasjoner.
Nøyaktigheten er lik (TP+TN)/(TP+FP+FN+TN).
Presisjon og tilbakekalling er vektet og gjennomsnittet for å gi F1-poengsummen. Som et resultat vurderer denne poengsummen både falske positive og falske negative.
F1 er ofte mer verdifull enn nøyaktighet, spesielt hvis du har en ulik klassefordeling, selv om det intuitivt ikke er så enkelt å forstå som nøyaktighet.
Den beste nøyaktigheten oppnås når kostnadene for falske positive og falske negative er sammenlignbare. Det er å foretrekke å inkludere både Precision og Recall hvis kostnadene forbundet med falske positive og falske negative er vesentlig forskjellig.
35. Hva er egentlig kryssvalidering?
En statistisk resampling-tilnærming kalt kryssvalidering i maskinlæring bruker flere datasettundersett for å trene og evaluere en maskinlæringsalgoritme over en rekke runder.
En ny batch med data som ikke ble brukt til å trene modellen, testes ved bruk av kryssvalidering for å se hvor godt modellen forutsier det. Dataovertilpasning forhindres gjennom kryssvalidering.
K-Fold Den mest brukte resamplingmetoden deler opp hele datasettet i K sett med like store størrelser. Det kalles kryssvalidering.
36. La oss si at du oppdaget at modellen din har en betydelig variasjon. Hvilken algoritme er etter din mening best egnet for å håndtere denne situasjonen?
Håndtere høy variasjon
Vi bør bruke bagging-teknikken ved problemer med store variasjoner.
Gjentatt prøvetaking av tilfeldige data vil bli brukt av bagging-algoritmen for å dele dataene inn i undergrupper. Når dataene er delt, kan vi bruke tilfeldige data og en spesifikk opplæringsprosedyre for å generere regler.
Etter det kan meningsmåling brukes til å kombinere modellens spådommer.
37. Hva skiller Ridge-regresjon fra Lasso-regresjon?
To mye brukte regulariseringsmetoder er Lasso (også kalt L1) og Ridge (noen ganger kalt L2) regresjon. De brukes for å forhindre overtilpasning av data.
For å finne den beste løsningen og minimere kompleksiteten, brukes disse teknikkene for å straffe koeffisientene. Ved å straffe summen av de absolutte verdiene til koeffisientene, fungerer Lasso-regresjonen.
Straffefunksjonen i Ridge eller L2 regresjon er utledet fra summen av kvadrater av koeffisientene.
38. Hva er viktigst: modellytelse eller modellnøyaktighet? Hvilken og hvorfor vil du favorisere den?
Dette er et villedende spørsmål, derfor bør man først forstå hva Model Performance er. Hvis ytelsen er definert som hastighet, er den avhengig av typen applikasjon; enhver applikasjon som involverer en sanntidssituasjon vil kreve høy hastighet som en avgjørende komponent.
For eksempel vil de beste søkeresultatene bli mindre verdifulle hvis søkeresultatene tar for lang tid å komme frem.
Hvis Ytelse brukes som en begrunnelse for hvorfor presisjon og tilbakekalling bør prioriteres over nøyaktighet, vil en F1-score være mer nyttig enn nøyaktighet for å demonstrere forretningssaken for ethvert datasett som er ubalansert.
39. Hvordan vil du administrere et datasett med ulikheter?
Et ubalansert datasett kan dra nytte av prøvetakingsteknikker. Prøvetaking kan gjøres enten på en under- eller oversamplet måte.
Under Sampling lar oss krympe størrelsen på majoritetsklassen for å matche minoritetsklassen, noe som bidrar til å øke hastigheten med hensyn til lagring og kjøretidskjøring, men kan også resultere i tap av verdifull data.
For å avhjelpe problemet med tap av informasjon forårsaket av oversampling, oppsamler vi minoritetsklassen; Ikke desto mindre fører dette til at vi får problemer med overtilpasning.
Ytterligere strategier inkluderer:
- Klyngebasert oversampling - Minoritets- og majoritetsklassene blir individuelt utsatt for K-betyr klyngeteknikken i denne situasjonen. Dette gjøres for å finne datasettklynger. Deretter oversamples hver klynge slik at alle klasser har samme størrelse og alle klynger i en klasse har like mange forekomster.
- SMOTE: Synthetic Minority Over-sampling Technique- Et stykke data fra minoritetsklassen brukes som eksempel, hvoretter ytterligere kunstige forekomster som er sammenlignbare med den, produseres og legges til det originale datasettet. Denne metoden fungerer godt med numeriske datapunkter.
40. Hvordan kan du skille mellom boosting og bagging?
Ensemble Techniques har versjoner kjent som bagging og boosting.
Bagasje-
For algoritmer med høy variasjon er bagging en teknikk som brukes for å redusere variansen. En slik familie av klassifikatorer som er utsatt for skjevhet er beslutningstrefamilien.
Typen data som beslutningstrær trenes på har en betydelig innvirkning på ytelsen deres. På grunn av dette, selv med svært høy finjustering, er generalisering av utfall noen ganger langt vanskeligere å oppnå i dem.
Hvis beslutningstrenes treningsdata endres, varierer resultatene betydelig.
Som en konsekvens brukes bagging, der det lages mange beslutningstrær, som hver trenes ved å bruke et utvalg av de originale dataene, og sluttresultatet er gjennomsnittet av alle disse forskjellige modellene.
Forsterkning:
Boosting er teknikken for å lage spådommer med et n-svak klassifiseringssystem der hver svak klassifikator gjør opp for manglene til sine sterkere klassifiserere. Vi refererer til en klassifikator som gir dårlige resultater på et gitt datasett som en "svak klassifiserer."
Boost er åpenbart en prosess snarere enn en algoritme. Logistisk regresjon og grunne beslutningstrær er vanlige eksempler på svake klassifiserere.
Adaboost, Gradient Boosting og XGBoost er de to mest populære boostingsalgoritmene, men det er mange flere.
41. Forklar forskjellene mellom induktiv og deduktiv læring.
Når man lærer ved eksempel fra et sett med observerte eksempler, bruker en modell induktiv læring for å komme til en generalisert konklusjon. På den annen side, med deduktiv læring, bruker modellen resultatet før den danner sitt eget.
Induktiv læring er prosessen med å trekke konklusjoner fra observasjoner.
Deduktiv læring er prosessen med å lage observasjoner basert på slutninger.
konklusjonen
Gratulerer! Dette er de 40 beste og høyere intervjuspørsmålene for maskinlæring som du nå vet svarene på. Datavitenskap og kunstig intelligens yrker vil fortsette å være etterspurt etter hvert som teknologien utvikler seg.
Kandidater som oppdaterer kunnskapen om disse banebrytende teknologiene og forbedrer ferdighetene sine, kan finne et bredt utvalg av arbeidsmuligheter med konkurransedyktig lønn.
Du kan fortsette med å svare på intervjuene nå som du har en solid forståelse av hvordan du svarer på noen av de mye stilte spørsmålene om maskinlæringsintervjuer.
Avhengig av målene dine, ta følgende trinn. Forbered deg på intervjuer ved å besøke Hashdork's Intervjuserie.
Legg igjen en kommentar