Inhoudsopgave[Zich verstoppen][Laten zien]
- 1. Leg de verschillen uit tussen machine learning, kunstmatige intelligentie en deep learning.
- 2. Beschrijf de verschillende soorten machine learning.
- 3. Wat is de afweging tussen bias en variantie?
- 4. Algoritmen voor machinaal leren zijn in de loop van de tijd aanzienlijk geëvolueerd. Hoe kiest men het juiste algoritme om te gebruiken gegeven een dataset?
- 5. Hoe verschillen covariantie en correlatie?
- 6. Wat betekent clustering in machine learning?
- 7. Wat is uw favoriete machine learning-algoritme?
- 8. Lineaire regressie in machine learning: wat is het?
- 9. Beschrijf de verschillen tussen KNN en k-means clustering.
- 10. Wat betekent “selectiebias” voor jou?
- 11. Wat is de stelling van Bayes precies?
- 12. Wat zijn in een Machine Learning-model 'trainingsset' en 'testset'?
- 13. Wat is een hypothese in machine learning?
- 14. Wat betekent overfitting van machine learning en hoe kan dit worden voorkomen?
- 15. Wat zijn Naive Bayes-classificaties precies?
- 16. Wat betekenen kostenfuncties en verliesfuncties?
- 17. Wat onderscheidt een generatief model van een discriminerend model?
- 18. Beschrijf de verschillen tussen type I- en type II-fouten.
- 19. Wat is de Ensemble-leertechniek bij machine learning?
- 20. Wat zijn parametrische modellen precies? Geef een voorbeeld.
- 21. Beschrijf collaboratieve filtering. Evenals op inhoud gebaseerde filtering?
- 22. Wat bedoel je precies met de tijdreeks?
- 23. Beschrijf de variaties tussen de algoritmen Gradient Boosting en Random Forest.
- 24. Waarom heb je een verwarringsmatrix nodig? Wat is het?
- 25. Wat is een principecomponentenanalyse precies?
- 26. Waarom is componentrotatie zo cruciaal voor PCA (principal component analysis)?
- 27. Hoe verschillen regularisatie en normalisatie van elkaar?
- 28. Waarin verschillen normalisatie en standaardisatie van elkaar?
- 29. Wat betekent "variantie-inflatiefactor" precies?
- 30. Hoe kies je een classifier op basis van de grootte van de trainingsset?
- 31. Welk algoritme in machine learning wordt de "luie leerling" genoemd en waarom?
- 32. Wat zijn de ROC-curve en AUC?
- 33. Wat zijn hyperparameters? Wat maakt ze uniek ten opzichte van de modelparameters?
- 34. Wat betekenen F1-score, herinnering en precisie?
- 35. Wat is kruisvalidatie precies?
- 36. Stel dat je ontdekt hebt dat je model een significante variantie heeft. Welk algoritme is volgens jou het meest geschikt om met deze situatie om te gaan?
- 37. Wat onderscheidt Ridge-regressie van Lasso-regressie?
- 38. Wat is belangrijker: modelprestaties of modelnauwkeurigheid? Welke en waarom zou je er de voorkeur aan geven?
- 39. Hoe zou je een dataset met ongelijkheden beheren?
- 40. Hoe kun je onderscheid maken tussen boosting en bagging?
- 41. Leg de verschillen uit tussen inductief en deductief leren.
- Conclusie
Bedrijven maken gebruik van geavanceerde technologie, zoals kunstmatige intelligentie (AI) en machine learning, om de toegankelijkheid van informatie en diensten voor individuen te vergroten.
Deze technologieën worden toegepast door een verscheidenheid aan industrieën, waaronder het bankwezen, financiën, detailhandel, productie en gezondheidszorg.
Een van de meest gewilde organisatorische rollen die AI gebruiken, is voor datawetenschappers, kunstmatige intelligentie-ingenieurs, machine learning-ingenieurs en data-analisten.
Dit bericht leidt je door een verscheidenheid aan machine learning interviewvragen, van eenvoudig tot complex, om u voor te bereiden op alle vragen die u zou kunnen stellen bij het zoeken naar uw ideale baan.
1. Leg de verschillen uit tussen machine learning, kunstmatige intelligentie en deep learning.
Kunstmatige intelligentie maakt gebruik van een verscheidenheid aan machine learning en deep learning-benaderingen waarmee computersystemen taken kunnen uitvoeren met behulp van mensachtige intelligentie met logica en regels.
Machine learning maakt gebruik van een verscheidenheid aan statistieken en Deep Learning-benaderingen om machines in staat te stellen te leren van hun eerdere prestaties en bedrevener te worden in het zelfstandig uitvoeren van bepaalde taken zonder menselijk toezicht.
Deep Learning is een verzameling algoritmen waarmee de software van zichzelf kan leren en allerlei commerciële functies kan uitvoeren, zoals spraak- en beeldherkenning.
Systemen die hun meerlaagse neurale netwerken tot grote hoeveelheden gegevens voor leren in staat zijn om aan deep learning te doen.
2. Beschrijf de verschillende soorten machine learning.
Machine learning bestaat grofweg in drie verschillende typen:
- Supervised Learning: een model maakt voorspellingen of oordelen met behulp van gelabelde of historische gegevens in gesuperviseerde machine learning. Datasets die zijn getagd of gelabeld om hun betekenis te vergroten, worden gelabelde data genoemd.
- Niet-gesuperviseerd leren: we hebben geen gelabelde gegevens voor leren zonder toezicht. In de binnenkomende gegevens kan een model patronen, eigenaardigheden en correlaties vinden.
- Reinforcement Learning: het model kan leren door versterking te gebruiken leren en de beloningen die het kreeg voor zijn eerdere gedrag.
3. Wat is de afweging tussen bias en variantie?
Overfitting is het resultaat van bias, de mate waarin een model bij de data past. Bias wordt veroorzaakt door onjuiste of te simpele aannames in uw machine learning algoritme.
Variantie verwijst naar fouten die worden veroorzaakt door complexiteit in uw ML-algoritme, waardoor gevoeligheid ontstaat voor grote mate van variantie in trainingsgegevens en overfitting.
Variantie is hoeveel een model varieert afhankelijk van input.
Met andere woorden, basismodellen zijn extreem bevooroordeeld en toch stabiel (lage variantie). Overfitting is een probleem met complexe modellen, hoewel ze toch de realiteit van het model weergeven (low bias).
Om zowel hoge variatie als hoge bias te voorkomen, is een afweging tussen bias en variantie nodig voor de beste foutenreductie.
4. Algoritmen voor machinaal leren zijn in de loop van de tijd aanzienlijk geëvolueerd. Hoe kiest men het juiste algoritme om te gebruiken gegeven een dataset?
De machine learning-techniek die alleen moet worden gebruikt, hangt af van het soort gegevens in een specifieke dataset.
Wanneer gegevens lineair zijn, wordt lineaire regressie gebruikt. De zakmethode zou beter presteren als de gegevens niet-lineariteit aangeven. We kunnen beslisbomen of SVM gebruiken als de gegevens moeten worden geëvalueerd of geïnterpreteerd voor commerciële doeleinden.
Neurale netwerken kunnen handig zijn om een nauwkeurig antwoord te krijgen als de dataset foto's, video's en audio bevat.
De keuze voor een algoritme voor een specifieke omstandigheid of dataverzameling kan niet op één enkele maatregel worden gemaakt.
Om de best passende methode te ontwikkelen, moeten we eerst de gegevens onderzoeken met behulp van verkennende gegevensanalyse (EDA) en het doel van het gebruik van de gegevensset begrijpen.
5. Hoe verschillen covariantie en correlatie?
Covariantie evalueert hoe twee variabelen met elkaar zijn verbonden en hoe de ene kan veranderen als reactie op veranderingen in de andere.
Als het resultaat positief is, geeft dit aan dat er een direct verband is tussen de variabelen en dat men zou stijgen of dalen bij een toename of afname van de basisvariabele, ervan uitgaande dat alle andere omstandigheden constant blijven.
Correlatie meet het verband tussen twee willekeurige variabelen en heeft slechts drie verschillende waarden: 1, 0 en -1.
6. Wat betekent clustering in machine learning?
Niet-gesuperviseerde leermethoden die gegevenspunten groeperen, worden clustering genoemd. Bij een verzameling van datapunten kan de clusteringtechniek worden toegepast.
Met deze strategie kunt u alle gegevenspunten groeperen op basis van hun functies.
De kenmerken en kwaliteiten van de gegevenspunten die in dezelfde categorie vallen, zijn vergelijkbaar, terwijl die van de gegevenspunten die in afzonderlijke groepen vallen, verschillend zijn.
Deze aanpak kan worden gebruikt om statistische gegevens te analyseren.
7. Wat is uw favoriete machine learning-algoritme?
Je hebt de kans om je voorkeuren en unieke talenten in deze vraag te demonstreren, evenals je uitgebreide kennis van tal van machine learning-technieken.
Hier zijn een paar typische machine learning-algoritmen om over na te denken:
- Lineaire regressie
- Logistische regressie
- Naïeve Bayes
- Beslissingsbomen
- K betekent
- Willekeurig bosalgoritme
- K-dichtstbijzijnde buur (KNN)
8. Lineaire regressie in machine learning: wat is het?
Een gesuperviseerd machine learning-algoritme is lineaire regressie.
Het wordt gebruikt in voorspellende analyse om het lineaire verband tussen de afhankelijke en onafhankelijke variabelen te bepalen.
De vergelijking van lineaire regressie is als volgt:
Y = A + BX
waar:
- De invoer of onafhankelijke variabele wordt X genoemd.
- De afhankelijke of outputvariabele is Y.
- De coëfficiënt van X is b en het snijpunt is a.
9. Beschrijf de verschillen tussen KNN en k-means clustering.
Het belangrijkste onderscheid is dat KNN (een classificatiemethode, gesuperviseerd leren) gelabelde punten nodig heeft, terwijl k-means dat niet doet (clusteringsalgoritme, niet-gesuperviseerd leren).
U kunt gelabelde gegevens classificeren in een niet-gelabeld punt door K-Nearest Neighbours te gebruiken. K-means clustering gebruikt de gemiddelde afstand tussen punten om te leren hoe u niet-gelabelde punten kunt groeperen.
10. Wat betekent “selectiebias” voor jou?
De vertekening in de steekproeffase van een experiment is te wijten aan statistische onnauwkeurigheid.
De ene steekproefgroep wordt in het experiment vaker gekozen dan de andere groepen vanwege de onnauwkeurigheid.
Als de selectiebias niet wordt erkend, kan dit leiden tot een onjuiste conclusie.
11. Wat is de stelling van Bayes precies?
Als we andere kansen kennen, kunnen we een kans bepalen met behulp van de stelling van Bayes. Het biedt met andere woorden de latere waarschijnlijkheid van een gebeurtenis op basis van eerdere informatie.
Deze stelling biedt een goede methode voor het schatten van voorwaardelijke kansen.
Bij het ontwikkelen van classificatie voorspellende modelleringsproblemen en het aanpassen van een model aan een training dataset in machinaal leren, wordt de stelling van Bayes toegepast (dwz Naive Bayes, Bayes Optimal Classifier).
12. Wat zijn in een Machine Learning-model 'trainingsset' en 'testset'?
Trainingsset:
- De trainingsset bestaat uit instanties die naar het model worden gestuurd voor analyse en leren.
- Dit zijn de gelabelde gegevens die zullen worden gebruikt om het model te trainen.
- Doorgaans wordt 70% van de totale gegevens gebruikt als trainingsgegevensset.
Testset:
- De testset wordt gebruikt om de nauwkeurigheid van het genereren van hypothesen van het model te beoordelen.
- We testen zonder gelabelde gegevens en gebruiken vervolgens labels om de resultaten te bevestigen.
- De overige 30% wordt gebruikt als testdataset.
13. Wat is een hypothese in machine learning?
Machine Learning maakt het gebruik van bestaande datasets mogelijk om een bepaalde functie die input aan output koppelt beter te begrijpen. Dit staat bekend als functiebenadering.
In dit geval moet een benadering worden gebruikt voor de onbekende doelfunctie om alle denkbare waarnemingen op basis van de gegeven situatie op de best mogelijke manier over te dragen.
Bij machine learning is een hypothese een model dat helpt bij het schatten van de doelfunctie en het voltooien van de juiste input-to-output-toewijzingen.
De selectie en het ontwerp van algoritmen maakt het mogelijk de ruimte van mogelijke hypothesen te definiëren die door een model kunnen worden weergegeven.
Voor een enkele hypothese wordt een kleine letter h (h) gebruikt, maar hoofdletter h (H) wordt gebruikt voor de hele hypotheseruimte die wordt doorzocht. We zullen deze notaties kort bekijken:
- Een hypothese (h) is een bepaald model dat het in kaart brengen van input naar output vergemakkelijkt, dat vervolgens kan worden gebruikt voor evaluatie en voorspelling.
- Een hypotheseverzameling (H) is een doorzoekbare ruimte van hypothesen die kan worden gebruikt om inputs toe te wijzen aan outputs. Het opstellen van problemen, het model en de modelconfiguratie zijn enkele voorbeelden van generieke beperkingen.
14. Wat betekent overfitting van machine learning en hoe kan dit worden voorkomen?
Wanneer een machine probeert te leren van een onvoldoende dataset, treedt overfitting op.
Als gevolg hiervan is overfitting omgekeerd gecorreleerd met het gegevensvolume. Door de kruisvalidatiebenadering kan overfitting worden vermeden voor kleine datasets. Bij deze methode wordt een dataset in twee delen gesplitst.
De dataset voor testen en trainen zal uit deze twee delen bestaan. De trainingsdataset wordt gebruikt om een model te maken, terwijl de testdataset wordt gebruikt om het model te evalueren met behulp van verschillende inputs.
Zo voorkom je overbelichting.
15. Wat zijn Naive Bayes-classificaties precies?
Verschillende classificatiemethoden vormen de classificaties van Naive Bayes. Een reeks algoritmen die bekend staat als deze classificaties, werken allemaal op hetzelfde fundamentele idee.
De veronderstelling van naïeve Bayes-classificatoren is dat de aan- of afwezigheid van een kenmerk geen invloed heeft op de aan- of afwezigheid van een ander kenmerk.
Met andere woorden, dit is wat we 'naïef' noemen, omdat het ervan uitgaat dat elk gegevenssetattribuut even belangrijk en onafhankelijk is.
Classificatie wordt gedaan met behulp van naïeve Bayes-classifiers. Ze zijn eenvoudig te gebruiken en leveren betere resultaten op dan complexere voorspellers wanneer het uitgangspunt van onafhankelijkheid waar is.
In tekstanalyse, spamfiltering en aanbevelingssystemen worden ze gebruikt.
16. Wat betekenen kostenfuncties en verliesfuncties?
De uitdrukking "verliesfunctie" verwijst naar het proces van het berekenen van verlies wanneer slechts één stuk gegevens in aanmerking wordt genomen.
Daarentegen gebruiken we de kostenfunctie om het totale aantal fouten voor tal van gegevens te bepalen. Er is geen significant onderscheid.
Met andere woorden, terwijl kostenfuncties het verschil voor de hele trainingsgegevensset samenvoegen, zijn verliesfuncties ontworpen om het verschil tussen de werkelijke en voorspelde waarden voor één record vast te leggen.
17. Wat onderscheidt een generatief model van een discriminerend model?
Een discriminerend model leert de verschillen tussen verschillende gegevenscategorieën. Een generatief model pikt verschillende datatypes op.
Bij classificatieproblemen presteren discriminerende modellen vaak beter dan andere modellen.
18. Beschrijf de verschillen tussen type I- en type II-fouten.
Valse positieven vallen onder de categorie Type I-fouten, terwijl fout-negatieven onder Type II-fouten vallen (beweren dat er niets is gebeurd terwijl dat wel het geval is).
19. Wat is de Ensemble-leertechniek bij machine learning?
Een techniek genaamd ensemble learning combineert veel machine learning-modellen om krachtigere modellen te produceren.
Een model kan om verschillende redenen worden gevarieerd. Verschillende oorzaken zijn:
- verschillende populaties
- Verschillende hypothesen
- Verschillende modelleringsmethoden
We zullen een probleem tegenkomen bij het gebruik van de trainings- en testgegevens van het model. Bias, variantie en onherleidbare fouten zijn mogelijke typen van deze fout.
Nu noemen we dit evenwicht tussen bias en variantie in het model een afweging tussen bias en variantie, en het zou altijd moeten bestaan. Deze wisselwerking wordt bereikt door het gebruik van ensembleleren.
Hoewel er verschillende ensemble-benaderingen beschikbaar zijn, zijn er twee gemeenschappelijke strategieën voor het combineren van veel modellen:
- Een native benadering, bagging genaamd, gebruikt de trainingsset om extra trainingssets te produceren.
- Boosting, een meer geavanceerde techniek: net als bij het inpakken, wordt boosting gebruikt om de ideale gewichtsformule voor een trainingsset te vinden.
20. Wat zijn parametrische modellen precies? Geef een voorbeeld.
Er zijn een beperkt aantal parameters in parametrische modellen. Om gegevens te voorspellen, hoeft u alleen maar de parameters van het model te weten.
De volgende zijn typische voorbeelden: logistische regressie, lineaire regressie en lineaire SVM's. Niet-parametrische modellen zijn flexibel omdat ze een onbeperkt aantal parameters kunnen bevatten.
De parameters van het model en de status van de geobserveerde data zijn nodig voor datavoorspellingen. Hier zijn enkele typische voorbeelden: onderwerp modellen, beslisbomen en k-dichtstbijzijnde buren.
21. Beschrijf collaboratieve filtering. Evenals op inhoud gebaseerde filtering?
Een beproefde methode om inhoudssuggesties op maat te maken, is collaboratieve filtering.
Een vorm van aanbevelingssysteem genaamd collaboratieve filtering voorspelt nieuw materiaal door gebruikersvoorkeuren in evenwicht te brengen met gedeelde interesses.
Gebruikersvoorkeuren zijn het enige waar op inhoud gebaseerde aanbevelingssystemen rekening mee houden. In het licht van de eerdere selecties van de gebruiker, worden nieuwe aanbevelingen gegeven uit gerelateerd materiaal.
22. Wat bedoel je precies met de tijdreeks?
Een tijdreeks is een verzameling getallen in oplopende volgorde. Gedurende een vooraf bepaalde tijdsperiode bewaakt het de beweging van de geselecteerde datapunten en legt het periodiek de datapunten vast.
Er is geen minimale of maximale tijdinvoer voor tijdreeksen.
Tijdreeksen worden vaak gebruikt door analisten om gegevens te analyseren in overeenstemming met hun unieke vereisten.
23. Beschrijf de variaties tussen de algoritmen Gradient Boosting en Random Forest.
Willekeurig bos:
- Een groot aantal beslisbomen wordt aan het einde samengevoegd en staat bekend als willekeurige bossen.
- Terwijl gradiëntversterking elke boom onafhankelijk van de andere produceert, bouwt willekeurig bos elke boom één voor één op.
- Multiklasse object detectie werkt goed met willekeurige bossen.
Gradiëntversterking:
- Terwijl willekeurige bossen zich aan het einde van het proces bij beslissingsbomen voegen, combineren Gradient Boosting Machines ze vanaf het begin.
- Als de parameters op de juiste manier worden aangepast, presteert gradiëntversterking beter dan willekeurige forests in termen van resultaten, maar het is geen slimme keuze als de dataset veel uitbijters, anomalieën of ruis heeft, omdat dit ertoe kan leiden dat het model overfit raakt.
- Wanneer er onevenwichtige gegevens zijn, zoals bij realtime risicobeoordeling, presteert gradiëntversterking goed.
24. Waarom heb je een verwarringsmatrix nodig? Wat is het?
Een tabel die bekend staat als de verwarringsmatrix, ook wel de foutenmatrix genoemd, wordt veel gebruikt om te laten zien hoe goed een classificatiemodel of classifier presteert op een set testgegevens waarvan de werkelijke waarden bekend zijn.
Het stelt ons in staat om te zien hoe een model of algoritme presteert. Het maakt het voor ons eenvoudig om misverstanden tussen verschillende cursussen op te sporen.
Het dient als een manier om te evalueren hoe goed een model of algoritme wordt uitgevoerd.
De voorspellingen van een classificatiemodel worden gebundeld in een verwarringsmatrix. De telwaarden van elk klasselabel werden gebruikt om het totale aantal juiste en onjuiste voorspellingen op te splitsen.
Het geeft details over de fouten die door de classifier zijn gemaakt, evenals de verschillende soorten fouten die door classifiers worden veroorzaakt.
25. Wat is een principecomponentenanalyse precies?
Door het aantal variabelen dat met elkaar gecorreleerd is te minimaliseren, is het doel om de dimensionaliteit van de gegevensverzameling te minimaliseren. Maar het is belangrijk om de diversiteit zoveel mogelijk te behouden.
De variabelen worden veranderd in een geheel nieuwe reeks variabelen die hoofdcomponenten worden genoemd.
Deze pc's zijn orthogonaal omdat ze de eigenvectoren van een covariantiematrix zijn.
26. Waarom is componentrotatie zo cruciaal voor PCA (principal component analysis)?
Rotatie is cruciaal in PCA omdat het de scheiding tussen de varianties die door elke component wordt verkregen, optimaliseert, waardoor de interpretatie van de componenten eenvoudiger wordt.
We hebben uitgebreide componenten nodig om componentvariatie uit te drukken als de componenten niet worden geroteerd.
27. Hoe verschillen regularisatie en normalisatie van elkaar?
Normalisatie:
Gegevens worden gewijzigd tijdens normalisatie. U moet de gegevens normaliseren als deze schalen hebben die drastisch verschillen, vooral van laag naar hoog. Pas elke kolom aan zodat de fundamentele statistieken allemaal compatibel zijn.
Om ervoor te zorgen dat er geen verlies aan precisie is, kan dit handig zijn. Het signaal detecteren terwijl de ruis wordt genegeerd, is een van de doelstellingen van modeltraining.
Er is een kans op overfitting als het model volledige controle krijgt om fouten te verminderen.
regularisatie:
Bij regularisatie wordt de voorspellingsfunctie gewijzigd. Dit is onderhevig aan enige controle door middel van regularisatie, die eenvoudigere aanpasfuncties verkiest boven gecompliceerde.
28. Waarin verschillen normalisatie en standaardisatie van elkaar?
De twee meest gebruikte technieken voor feature scaling zijn normalisatie en standaardisatie.
Normalisatie:
- Het opnieuw schalen van de gegevens naar een bereik van [0,1] staat bekend als normalisatie.
- Wanneer alle parameters dezelfde positieve schaal moeten hebben, is normalisatie nuttig, maar de uitbijters van de dataset gaan verloren.
regularisatie:
- Gegevens worden geherschaald om een gemiddelde van 0 en een standaarddeviatie van 1 te hebben als onderdeel van het standaardisatieproces (eenheidsvariantie)
29. Wat betekent "variantie-inflatiefactor" precies?
De verhouding van de variantie van het model tot de variantie van het model met slechts één onafhankelijke variabele staat bekend als de variatie-inflatiefactor (VIF).
VIF schat de hoeveelheid multicollineariteit die aanwezig is in een set van verschillende regressievariabelen.
Variantie van het model (VIF) Model met één onafhankelijke variabele variantie
30. Hoe kies je een classifier op basis van de grootte van de trainingsset?
Een model met hoge bias en lage variantie presteert beter voor een korte trainingsset, omdat overfitting minder waarschijnlijk is. Naïeve Bayes is een voorbeeld.
Om meer gecompliceerde interacties voor een grote trainingsset weer te geven, verdient een model met lage bias en hoge variantie de voorkeur. Logistieke regressie is een goed voorbeeld.
31. Welk algoritme in machine learning wordt de "luie leerling" genoemd en waarom?
KNN, een trage leerling, is een algoritme voor machine learning. Omdat K-NN de afstand dynamisch berekent telkens wanneer het wil classificeren in plaats van machinaal geleerde waarden of variabelen uit de trainingsgegevens te leren, onthoudt het de trainingsgegevensset.
Dit maakt K-NN een luie leerling.
32. Wat zijn de ROC-curve en AUC?
De prestatie van een classificatiemodel bij alle drempels wordt grafisch weergegeven door de ROC-curve. Het heeft criteria voor true positive rate en false positives.
Simpel gezegd, het gebied onder de ROC-curve staat bekend als AUC (Area Under the ROC Curve). Het tweedimensionale gebied van de ROC-curve van (0,0) tot AUC wordt gemeten (1,1). Voor het beoordelen van binaire classificatiemodellen wordt het gebruikt als prestatiestatistiek.
33. Wat zijn hyperparameters? Wat maakt ze uniek ten opzichte van de modelparameters?
Een interne variabele van het model staat bekend als een modelparameter. Met behulp van trainingsgegevens wordt de waarde van een parameter benaderd.
Onbekend aan het model, een hyperparameter is een variabele. De waarde kan niet worden bepaald uit gegevens, daarom worden ze vaak gebruikt om modelparameters te berekenen.
34. Wat betekenen F1-score, herinnering en precisie?
De verwarring Maatregel is de maatstaf die wordt gebruikt om de effectiviteit van het classificatiemodel te meten. De volgende zinnen kunnen worden gebruikt om de verwarringsstatistiek beter uit te leggen:
TP: True Positives - Dit zijn de positieve waarden die goed waren geanticipeerd. Het suggereert dat de waarden van de geprojecteerde klasse en de werkelijke klasse beide positief zijn.
TN: True Negatives- Dit zijn de ongunstige waarden die nauwkeurig werden voorspeld. Het suggereert dat zowel de waarde van de werkelijke klasse als de verwachte klasse negatief zijn.
Deze waarden - fout-positieven en fout-negatieven - treden op wanneer uw werkelijke klas afwijkt van de verwachte klas.
Nu,
De verhouding van de werkelijke positieve snelheid (TP) tot alle waarnemingen die in de werkelijke klas zijn gedaan, wordt recall genoemd, ook wel gevoeligheid genoemd.
De terugroepactie is TP/(TP+FN).
Precisie is een maat voor de positief voorspellende waarde, die het aantal positieven dat het model werkelijk voorspelt vergelijkt met het aantal juiste positieven dat het nauwkeurig voorspelt.
Precisie is TP/(TP + FP)
De gemakkelijkste prestatiemaatstaf om te begrijpen is nauwkeurigheid, wat slechts de verhouding is tussen goed voorspelde waarnemingen en alle waarnemingen.
Nauwkeurigheid is gelijk aan (TP+TN)/(TP+FP+FN+TN).
Precisie en terugroepactie worden gewogen en gemiddeld om de F1-score te geven. Als gevolg hiervan houdt deze score rekening met zowel valse positieven als valse negatieven.
F1 is vaak waardevoller dan nauwkeurigheid, vooral als je een ongelijke klassenverdeling hebt, zelfs als het intuïtief niet zo eenvoudig te begrijpen is als nauwkeurigheid.
De beste nauwkeurigheid wordt bereikt wanneer de kosten van valse positieven en valse negatieven vergelijkbaar zijn. Het verdient de voorkeur om zowel Precision als Recall op te nemen als de kosten die gepaard gaan met valse positieven en valse negatieven aanzienlijk verschillen.
35. Wat is kruisvalidatie precies?
Een statistische resampling-aanpak genaamd kruisvalidatie in machine learning maakt gebruik van verschillende dataset-subsets om een machine learning-algoritme te trainen en te evalueren in een aantal rondes.
Een nieuwe batch gegevens die niet is gebruikt om het model te trainen, wordt getest met behulp van kruisvalidatie om te zien hoe goed het model het voorspelt. Door kruisvalidatie wordt dataoverfitting voorkomen.
K-Fold De meest gebruikte resampling-methode splitst de hele dataset op in K-sets van gelijke grootte. Dit wordt kruisvalidatie genoemd.
36. Stel dat je ontdekt hebt dat je model een significante variantie heeft. Welk algoritme is volgens jou het meest geschikt om met deze situatie om te gaan?
Beheer van hoge variabiliteit
Voor problemen met grote variaties zouden we de opzaktechniek moeten gebruiken.
Herhaalde steekproeven van willekeurige gegevens zouden door het bagging-algoritme worden gebruikt om de gegevens in subgroepen te verdelen. Nadat de gegevens zijn verdeeld, kunnen we willekeurige gegevens en een specifieke trainingsprocedure gebruiken om regels te genereren.
Daarna zou polling kunnen worden gebruikt om de voorspellingen van het model te combineren.
37. Wat onderscheidt Ridge-regressie van Lasso-regressie?
Twee veelgebruikte regularisatiemethoden zijn Lasso (ook wel L1) en Ridge (ook wel L2) regressie genoemd. Ze worden gebruikt om overfitting van gegevens te voorkomen.
Om de beste oplossing te vinden en de complexiteit te minimaliseren, worden deze technieken gebruikt om de coëfficiënten te straffen. Door het totaal van de absolute waarden van de coëfficiënten te bestraffen, werkt de Lasso-regressie.
De straffunctie in Ridge- of L2-regressie wordt afgeleid van de kwadratensom van de coëfficiënten.
38. Wat is belangrijker: modelprestaties of modelnauwkeurigheid? Welke en waarom zou je er de voorkeur aan geven?
Dit is een misleidende vraag, dus men moet eerst begrijpen wat Model Performance is. Als prestatie wordt gedefinieerd als snelheid, hangt het af van het type toepassing; elke toepassing met een realtime situatie zou hoge snelheid als cruciaal onderdeel vereisen.
De beste zoekresultaten worden bijvoorbeeld minder waardevol als de zoekresultaten te lang op zich laten wachten.
Als Prestaties worden gebruikt als rechtvaardiging voor waarom precisie en terugroepactie prioriteit moeten krijgen boven nauwkeurigheid, dan is een F1-score nuttiger dan nauwkeurigheid bij het aantonen van de businesscase voor elke dataset die onevenwichtig is.
39. Hoe zou je een dataset met ongelijkheden beheren?
Een ongebalanceerde dataset kan baat hebben bij steekproeftechnieken. Sampling kan zowel onder als oversampled worden gedaan.
Under Sampling stelt ons in staat om de grootte van de meerderheidsklasse te verkleinen om overeen te komen met de minderheidsklasse, wat helpt bij het verhogen van de snelheid met betrekking tot opslag en runtime-uitvoering, maar ook kan leiden tot het verlies van waardevolle gegevens.
Om het probleem van informatieverlies als gevolg van oversampling te verhelpen, upsamplen we de Minority-klasse; dit zorgt er echter voor dat we te maken krijgen met problemen met overfitting.
Aanvullende strategieën zijn onder meer:
- Cluster-gebaseerde over-sampling- De minderheids- en meerderheidsklasse-instanties worden in deze situatie afzonderlijk onderworpen aan de K-means-clusteringstechniek. Dit wordt gedaan om datasetclusters te vinden. Vervolgens wordt elk cluster overbemonsterd, zodat alle klassen dezelfde grootte hebben en alle clusters binnen een klasse een gelijk aantal instanties hebben.
- SMOTE: Synthetic Minority Over-sampling Technique- Een stukje data uit de minderheidsklasse wordt als voorbeeld gebruikt, waarna aanvullende kunstmatige instanties die daarmee vergelijkbaar zijn, worden geproduceerd en toegevoegd aan de oorspronkelijke dataset. Deze methode werkt goed met numerieke gegevenspunten.
40. Hoe kun je onderscheid maken tussen boosting en bagging?
Ensemble Techniques hebben versies die bekend staan als bagging en boosting.
Zakken-
Voor algoritmen met een hoge variatie is bagging een techniek die wordt gebruikt om de variantie te verlagen. Een dergelijke familie van classifiers die vatbaar is voor vooringenomenheid is de beslisboomfamilie.
Het type gegevens waarop beslisbomen worden getraind, heeft een aanzienlijke invloed op hun prestaties. Hierdoor is generalisatie van uitkomsten, zelfs met een zeer hoge fine-tuning, soms veel moeilijker te verkrijgen.
Als de trainingsgegevens van beslisbomen worden gewijzigd, variëren de uitkomsten aanzienlijk.
Als gevolg hiervan wordt bagging gebruikt, waarin veel beslissingsbomen worden gemaakt, die elk worden getraind met behulp van een steekproef van de originele gegevens, en het eindresultaat is het gemiddelde van al deze verschillende modellen.
Stimuleren:
Boosting is de techniek om voorspellingen te doen met een n-zwak classificatiesysteem waarin elke zwakke classifier de tekortkomingen van zijn sterkere classifiers compenseert. We verwijzen naar een classifier die slecht presteert op een bepaalde dataset als een 'zwakke classifier'.
Boosting is duidelijk een proces in plaats van een algoritme. Logistische regressie en ondiepe beslisbomen zijn veelvoorkomende voorbeelden van zwakke classificaties.
Adaboost, Gradient Boosting en XGBoost zijn de twee meest populaire boosting-algoritmen, maar er zijn er nog veel meer.
41. Leg de verschillen uit tussen inductief en deductief leren.
Bij het leren door voorbeeld uit een reeks waargenomen voorbeelden, gebruikt een model inductief leren om tot een algemene conclusie te komen. Aan de andere kant, bij deductief leren, gebruikt het model het resultaat voordat het zijn eigen resultaat vormt.
Inductief leren is het proces van het trekken van conclusies uit observaties.
Deductief leren is het proces van het creëren van observaties op basis van gevolgtrekkingen.
Conclusie
Gefeliciteerd! Dit zijn de top 40 en hoger interviewvragen voor machine learning waarop u nu de antwoorden weet. Datawetenschap en kunstmatige intelligentie beroepen zullen in de vraag blijven naarmate de technologie vordert.
Kandidaten die hun kennis van deze geavanceerde technologieën bijwerken en hun vaardigheden verbeteren, kunnen een breed scala aan arbeidsmogelijkheden vinden met een competitief loon.
U kunt doorgaan met het beantwoorden van de interviews nu u een goed begrip hebt van hoe u kunt antwoorden op enkele van de veelgestelde vragen over machine learning-interviews.
Afhankelijk van je doelen, zet je de volgende stap. Bereid je voor op interviews door Hashdork's te bezoeken Interview serie.
Laat een reactie achter