Die über 40 wichtigsten Interviewfragen zum maschinellen Lernen (2024)

Inhaltsverzeichnis[Ausblenden][Zeigen]

1. Erklären Sie die Unterschiede zwischen maschinellem Lernen, künstlicher Intelligenz und Deep Learning.
2. Bitte beschreiben Sie die verschiedenen Arten des maschinellen Lernens.
3. Was ist der Kompromiss zwischen Bias und Varianz?
4. Algorithmen für maschinelles Lernen haben sich im Laufe der Zeit erheblich weiterentwickelt. Wie wählt man den richtigen Algorithmus zur Nutzung eines gegebenen Datensatzes aus?
5. Wie unterscheiden sich Kovarianz und Korrelation?
6. Was bedeutet Clustering beim maschinellen Lernen?
7. Was ist Ihr bevorzugter Algorithmus für maschinelles Lernen?
8. Lineare Regression beim maschinellen Lernen: Was ist das?
9. Beschreiben Sie die Unterschiede zwischen KNN und k-Means-Clustering.
10. Was bedeutet „Auswahlverzerrung“ für Sie?
11. Was genau ist der Satz von Bayes?
12. Was sind in einem maschinellen Lernmodell „Trainingssatz“ und „Testsatz“?
13. Was ist eine Hypothese beim maschinellen Lernen?
14. Was bedeutet Machine Learning Overfitting und wie kann es verhindert werden?
15. Was genau sind Naive-Bayes-Klassifikatoren?
16. Was bedeuten Kostenfunktionen und Verlustfunktionen?
17. Was unterscheidet ein generatives Modell von einem diskriminativen Modell?
18. Beschreiben Sie die Unterschiede zwischen Fehlern vom Typ I und Typ II.
19. Was ist beim maschinellen Lernen die Ensemble-Lerntechnik?
20. Was genau sind parametrische Modelle? Geben Sie eine Instanz an.
21. Beschreiben Sie das kollaborative Filtern. Sowie inhaltsbasierte Filterung?
22. Was genau meinen Sie mit der Zeitreihe?
23. Beschreiben Sie die Variationen zwischen den Algorithmen Gradient Boosting und Random Forest.
24. Warum brauchen Sie eine Konfusionsmatrix? Was ist es?
25. Was genau ist eine Hauptkomponentenanalyse?
26. Warum ist die Komponentenrotation so entscheidend für die PCA (Hauptkomponentenanalyse)?
27. Wie unterscheiden sich Regularisierung und Normalisierung?
28. Wie unterscheiden sich Normalisierung und Standardisierung?
29. Was genau bedeutet „Varianz-Inflationsfaktor“?
30. Wie wählen Sie basierend auf der Größe des Trainingssatzes einen Klassifikator aus?
31. Welcher Algorithmus beim maschinellen Lernen wird als „Lazy Learner“ bezeichnet und warum?
32. Was sind die ROC-Kurve und die AUC?
33. Was sind Hyperparameter? Was macht sie von den Modellparametern einzigartig?
34. Was bedeuten F1 Score, Recall und Precision?
35. Was genau ist Kreuzvalidierung?
36. Angenommen, Sie haben festgestellt, dass Ihr Modell eine erhebliche Varianz aufweist. Welcher Algorithmus ist Ihrer Meinung nach am besten geeignet, um mit dieser Situation umzugehen?
37. Was unterscheidet die Ridge-Regression von der Lasso-Regression?
38. Was ist wichtiger: Modellleistung oder Modellgenauigkeit? Welches und warum wirst du es bevorzugen?
39. Wie würden Sie einen Datensatz mit Ungleichungen handhaben?
40. Wie kann man zwischen Boosten und Bagging unterscheiden?
41. Erklären Sie die Unterschiede zwischen induktivem und deduktivem Lernen.
Zusammenfassung

Unternehmen nutzen modernste Technologien wie künstliche Intelligenz (KI) und maschinelles Lernen, um den Zugang zu Informationen und Diensten für Einzelpersonen zu verbessern.

Diese Technologien werden von einer Vielzahl von Branchen übernommen, darunter Banken, Finanzen, Einzelhandel, Fertigung und Gesundheitswesen.

Eine der gefragtesten organisatorischen Rollen, die KI nutzen, sind Datenwissenschaftler, Ingenieure für künstliche Intelligenz, Ingenieure für maschinelles Lernen und Datenanalysten.

Dieser Beitrag führt Sie durch eine Vielzahl von Maschinelles Lernen Interviewfragen, von einfach bis komplex, um Ihnen zu helfen, sich auf alle Fragen vorzubereiten, die Ihnen bei der Suche nach Ihrem idealen Job gestellt werden könnten.

1. Erklären Sie die Unterschiede zwischen maschinellem Lernen, künstlicher Intelligenz und Deep Learning.

Künstliche Intelligenz verwendet eine Vielzahl von maschinellen Lern- und Deep-Learning-Ansätzen, die es Computersystemen ermöglichen, Aufgaben unter Verwendung menschenähnlicher Intelligenz mit Logik und Regeln auszuführen.

Maschinelles Lernen verwendet eine Vielzahl von Statistiken und Deep-Learning-Ansätzen, damit Maschinen aus ihrer vorherigen Leistung lernen und bestimmte Aufgaben ohne menschliche Aufsicht selbstständig erledigen können.

Deep Learning ist eine Sammlung von Algorithmen, die es der Software ermöglichen, von sich selbst zu lernen und eine Vielzahl von kommerziellen Funktionen wie Sprach- und Bilderkennung auszuführen.

Systeme, die ihre Vielschichtigkeit freilegen Neuronale Netze Unmengen von Daten zum Lernen sind in der Lage, Deep Learning zu betreiben.

2. Bitte beschreiben Sie die verschiedenen Arten des maschinellen Lernens.

Maschinelles Lernen existiert im Großen und Ganzen in drei verschiedenen Arten:

Überwachtes Lernen: Ein Modell erstellt Vorhersagen oder Urteile unter Verwendung von gekennzeichneten oder historischen Daten beim überwachten maschinellen Lernen. Als gelabelte Daten werden Datensätze bezeichnet, die getaggt oder gelabelt wurden, um ihre Aussagekraft zu erhöhen.
Unüberwachtes Lernen: Wir haben keine gekennzeichneten Daten für unüberwachtes Lernen. In den eingehenden Daten kann ein Modell Muster, Kuriositäten und Korrelationen finden.
Reinforcement Learning: Das Modell kann lernen durch Verstärkung Lernen und die Belohnungen, die es für sein vorheriges Verhalten erhielt.

3. Was ist der Kompromiss zwischen Bias und Varianz?

Overfitting ist das Ergebnis von Bias, d. h. dem Grad, in dem ein Modell an die Daten angepasst ist. Voreingenommenheit wird durch falsche oder zu einfache Annahmen in Ihrem verursacht maschineller Lernalgorithmus.

Varianz bezieht sich auf Fehler, die durch Komplexität in Ihrem ML-Algorithmus verursacht werden, was zu einer Empfindlichkeit gegenüber großen Varianzgraden in Trainingsdaten und Überanpassung führt.

Die Varianz gibt an, wie stark ein Modell abhängig von Eingaben variiert.

Mit anderen Worten, Basismodelle sind extrem verzerrt und dennoch stabil (geringe Varianz). Überanpassung ist ein Problem bei komplexen Modellen, obwohl sie dennoch die Realität des Modells erfassen (niedrige Verzerrung).

Um sowohl eine hohe Variation als auch eine hohe Abweichung zu verhindern, ist für die beste Fehlerreduzierung ein Kompromiss zwischen Abweichung und Varianz erforderlich.

4. Algorithmen für maschinelles Lernen haben sich im Laufe der Zeit erheblich weiterentwickelt. Wie wählt man den richtigen Algorithmus zur Nutzung eines gegebenen Datensatzes aus?

Welche maschinelle Lerntechnik verwendet werden sollte, hängt nur von der Art der Daten in einem bestimmten Datensatz ab.

Wenn die Daten linear sind, wird eine lineare Regression verwendet. Das Bagging-Verfahren würde besser abschneiden, wenn die Daten Nichtlinearität anzeigen würden. Wir können Entscheidungsbäume oder SVM verwenden, wenn die Daten für kommerzielle Zwecke ausgewertet oder interpretiert werden müssen.

Neuronale Netze können nützlich sein, um eine genaue Antwort zu erhalten, wenn der Datensatz Fotos, Videos und Audio enthält.

Die Wahl des Algorithmus für einen bestimmten Umstand oder eine bestimmte Datensammlung kann nicht nur anhand eines einzigen Maßes getroffen werden.

Für das Ziel, die Best-Fit-Methode zu entwickeln, müssen wir zunächst die Daten mittels explorativer Datenanalyse (EDA) untersuchen und das Ziel der Nutzung des Datensatzes verstehen.

5. Wie unterscheiden sich Kovarianz und Korrelation?

Die Kovarianz bewertet, wie zwei Variablen miteinander verbunden sind und wie sich eine als Reaktion auf Änderungen der anderen ändern könnte.

Wenn das Ergebnis positiv ist, zeigt dies an, dass es eine direkte Verbindung zwischen den Variablen gibt und dass eine mit einer Erhöhung oder Verringerung der Basisvariablen steigen oder fallen würde, vorausgesetzt, dass alle anderen Bedingungen konstant bleiben.

Die Korrelation misst die Verbindung zwischen zwei Zufallsvariablen und hat nur drei unterschiedliche Werte: 1, 0 und -1.

6. Was bedeutet Clustering beim maschinellen Lernen?

Unüberwachte Lernmethoden, bei denen Datenpunkte gruppiert werden, werden als Clustering bezeichnet. Bei einer Sammlung von Datenpunkten kann die Clustering-Technik angewendet werden.

Mit dieser Strategie können Sie alle Datenpunkte nach ihrer Funktion gruppieren.

Die Merkmale und Qualitäten der Datenpunkte, die in dieselbe Kategorie fallen, sind ähnlich, während die der Datenpunkte, die in separate Gruppierungen fallen, unterschiedlich sind.

Dieser Ansatz kann verwendet werden, um statistische Daten zu analysieren.

7. Was ist Ihr bevorzugter Algorithmus für maschinelles Lernen?

Bei dieser Frage haben Sie die Chance, Ihre Vorlieben und einzigartigen Talente sowie Ihr umfassendes Wissen über zahlreiche Techniken des maschinellen Lernens unter Beweis zu stellen.

Hier sind einige typische Algorithmen für maschinelles Lernen, über die Sie nachdenken sollten:

Lineare Regression
Logistische Regression
Naiver Bayes
Entscheidungsbäume
K bedeutet
Random-Forest-Algorithmus
K-nächster Nachbar (KNN)

8. Lineare Regression beim maschinellen Lernen: Was ist das?

Ein überwachter Algorithmus für maschinelles Lernen ist die lineare Regression.

Es wird in der prädiktiven Analyse verwendet, um den linearen Zusammenhang zwischen den abhängigen und unabhängigen Variablen zu bestimmen.

Die Gleichung der linearen Regression lautet wie folgt:

Y = A + BX

wo:

Die Eingabe oder unabhängige Variable heißt X.
Die abhängige oder Ausgangsvariable ist Y.
Der Koeffizient von X ist b und sein Achsenabschnitt ist a.

9. Beschreiben Sie die Unterschiede zwischen KNN und k-Means-Clustering.

Der Hauptunterschied besteht darin, dass KNN (eine Klassifizierungsmethode, überwachtes Lernen) beschriftete Punkte benötigt, während k-means dies nicht tut (Clustering-Algorithmus, nicht überwachtes Lernen).

Sie können beschriftete Daten in einen unbeschrifteten Punkt klassifizieren, indem Sie K-Nearest Neighbors verwenden. K-Means-Clustering verwendet den durchschnittlichen Abstand zwischen Punkten, um zu lernen, wie unbeschriftete Punkte gruppiert werden.

10. Was bedeutet „Auswahlverzerrung“ für Sie?

Die Verzerrung in der Probenahmephase eines Experiments ist auf statistische Ungenauigkeiten zurückzuführen.

Aufgrund der Ungenauigkeit wird eine Stichprobengruppe häufiger als die anderen Gruppen im Experiment ausgewählt.

Wenn die Auswahlverzerrung nicht anerkannt wird, könnte dies zu einer falschen Schlussfolgerung führen.

11. Was genau ist der Satz von Bayes?

Wenn uns andere Wahrscheinlichkeiten bekannt sind, können wir eine Wahrscheinlichkeit mit dem Satz von Bayes bestimmen. Es bietet mit anderen Worten die spätere Wahrscheinlichkeit eines Ereignisses basierend auf früheren Informationen.

Dieses Theorem bietet eine solide Methode zum Schätzen bedingter Wahrscheinlichkeiten.

Bei der Entwicklung von Klassifikationsvorhersagemodellierungsproblemen und der Anpassung eines Modells an ein Training Datensatz im maschinellen Lernen, wird das Theorem von Bayes angewendet (dh Naive Bayes, Bayes Optimal Classifier).

12. Was sind in einem maschinellen Lernmodell „Trainingssatz“ und „Testsatz“?

Trainingsset:

Der Trainingssatz besteht aus Instanzen, die zur Analyse und zum Lernen an das Modell gesendet werden.
Dies sind die beschrifteten Daten, die zum Trainieren des Modells verwendet werden.
Typischerweise werden 70 % der Gesamtdaten als Trainingsdatensatz verwendet.

Test-Set:

Der Testsatz wird verwendet, um die Genauigkeit der Hypothesengenerierung des Modells zu bewerten.
Wir testen ohne gekennzeichnete Daten und verwenden dann Etiketten, um die Ergebnisse zu bestätigen.
Die restlichen 30 % werden als Testdatensatz verwendet.

13. Was ist eine Hypothese beim maschinellen Lernen?

Maschinelles Lernen ermöglicht die Verwendung vorhandener Datensätze, um eine bestimmte Funktion, die Eingaben mit Ausgaben verknüpft, besser zu verstehen. Dies wird als Funktionsnäherung bezeichnet.

In diesem Fall muss für die unbekannte Zielfunktion approximiert werden, um alle denkbaren Beobachtungen basierend auf der gegebenen Situation bestmöglich zu übertragen.

Beim maschinellen Lernen ist eine Hypothese ein Modell, das beim Schätzen der Zielfunktion und beim Vervollständigen der entsprechenden Input-to-Output-Zuordnungen hilft.

Die Auswahl und das Design von Algorithmen ermöglichen die Definition des Raums möglicher Hypothesen, die durch ein Modell repräsentiert werden können.

Für eine einzelne Hypothese wird das kleine h (h) verwendet, aber das große h (H) wird für den gesamten zu durchsuchenden Hypothesenraum verwendet. Wir werden diese Notationen kurz wiederholen:

Eine Hypothese (h) ist ein bestimmtes Modell, das die Abbildung von Eingaben auf Ausgaben erleichtert, die anschließend zur Bewertung und Vorhersage verwendet werden können.
Ein Hypothesensatz (H) ist ein durchsuchbarer Hypothesenraum, der verwendet werden kann, um Eingaben Ausgaben zuzuordnen. Problemrahmen, Modell und Modellkonfiguration sind einige Beispiele für allgemeine Einschränkungen.

14. Was bedeutet Machine Learning Overfitting und wie kann es verhindert werden?

Wenn eine Maschine versucht, aus einem unzureichenden Datensatz zu lernen, kommt es zu einer Überanpassung.

Infolgedessen ist die Überanpassung umgekehrt mit dem Datenvolumen korreliert. Der Cross-Validation-Ansatz ermöglicht es, eine Überanpassung für kleine Datensätze zu vermeiden. Bei dieser Methode wird ein Datensatz in zwei Teile geteilt.

Der Datensatz zum Testen und Trainieren besteht aus diesen beiden Teilen. Das Trainings-Dataset wird verwendet, um ein Modell zu erstellen, während das Test-Dataset verwendet wird, um das Modell mit verschiedenen Eingaben zu evaluieren.

So beugen Sie einem Overfit vor.

15. Was genau sind Naive-Bayes-Klassifikatoren?

Verschiedene Klassifikationsmethoden bilden die Naive-Bayes-Klassifikatoren. Eine Reihe von Algorithmen, die als diese Klassifikatoren bekannt sind, arbeiten alle nach derselben Grundidee.

Die Annahme, die von naiven Bayes-Klassifikatoren gemacht wird, ist, dass das Vorhandensein oder Fehlen eines Merkmals keinen Einfluss auf das Vorhandensein oder Fehlen eines anderen Merkmals hat.

Mit anderen Worten, wir bezeichnen dies als „naiv“, da davon ausgegangen wird, dass jedes Datensatzattribut gleich signifikant und unabhängig ist.

Die Klassifizierung erfolgt mit naiven Bayes-Klassifikatoren. Sie sind einfach zu verwenden und liefern bessere Ergebnisse als komplexere Prädiktoren, wenn die Unabhängigkeitsprämisse zutrifft.

Sie werden in Textanalysen, Spamfiltern und Empfehlungssystemen eingesetzt.

16. Was bedeuten Kostenfunktionen und Verlustfunktionen?

Der Ausdruck „Verlustfunktion“ bezieht sich auf den Prozess der Verlustberechnung, wenn nur ein Datenelement berücksichtigt wird.

Im Gegensatz dazu verwenden wir die Kostenfunktion, um die Gesamtzahl der Fehler für zahlreiche Daten zu bestimmen. Es besteht keine signifikante Unterscheidung.

Mit anderen Worten, während Kostenfunktionen die Differenz für den gesamten Trainingsdatensatz aggregieren, sind Verlustfunktionen so konzipiert, dass sie die Differenz zwischen den tatsächlichen und den vorhergesagten Werten für einen einzelnen Datensatz erfassen.

17. Was unterscheidet ein generatives Modell von einem diskriminativen Modell?

Ein diskriminatives Modell lernt die Unterschiede zwischen mehreren Datenkategorien. Ein generatives Modell greift verschiedene Datentypen auf.

Bei Klassifizierungsproblemen übertreffen diskriminative Modelle häufig andere Modelle.

18. Beschreiben Sie die Unterschiede zwischen Fehlern vom Typ I und Typ II.

Falsch positive Ergebnisse fallen unter die Kategorie der Fehler vom Typ I, während falsch negative Ergebnisse unter die Fehler vom Typ II fallen (behaupten, dass nichts passiert ist, obwohl dies tatsächlich der Fall ist).

19. Was ist beim maschinellen Lernen die Ensemble-Lerntechnik?

Eine Technik namens Ensemble-Lernen mischt viele maschinelle Lernmodelle, um leistungsfähigere Modelle zu erzeugen.

Ein Modell kann aus verschiedenen Gründen variiert werden. Mehrere Ursachen sind:

Verschiedene Populationen
Verschiedene Hypothesen
Verschiedene Modellierungsmethoden

Bei der Verwendung der Trainings- und Testdaten des Modells wird ein Problem auftreten. Bias, Varianz und irreduzible Fehler sind mögliche Arten dieses Fehlers.

Nun, wir nennen dieses Gleichgewicht zwischen Bias und Varianz im Modell einen Bias-Varianz-Trade-off, und es sollte immer bestehen. Dieser Kompromiss wird durch die Verwendung von Ensemble-Lernen erreicht.

Obwohl verschiedene Ensemble-Ansätze verfügbar sind, gibt es zwei gängige Strategien zum Kombinieren vieler Modelle:

Ein nativer Ansatz namens Bagging verwendet den Trainingssatz, um zusätzliche Trainingssätze zu erstellen.
Boosting, eine ausgefeiltere Technik: Ähnlich wie Bagging wird Boosting verwendet, um die ideale Gewichtsformel für einen Trainingssatz zu finden.

20. Was genau sind parametrische Modelle? Geben Sie eine Instanz an.

Es gibt eine begrenzte Anzahl von Parametern in parametrischen Modellen. Um Daten vorherzusagen, müssen Sie lediglich die Parameter des Modells kennen.

Die folgenden sind typische Beispiele: logistische Regression, lineare Regression und lineare SVMs. Nichtparametrische Modelle sind flexibel, da sie eine unbegrenzte Anzahl von Parametern enthalten können.

Für Datenvorhersagen werden die Parameter des Modells und der Status der beobachteten Daten benötigt. Hier einige typische Beispiele: Themenmodelle, Entscheidungsbäume und k-nächste Nachbarn.

21. Beschreiben Sie das kollaborative Filtern. Sowie inhaltsbasierte Filterung?

Eine bewährte Methode, um maßgeschneiderte Inhaltsvorschläge zu erstellen, ist das kollaborative Filtern.

Eine Form von Empfehlungssystem namens Collaborative Filtering sagt frisches Material voraus, indem es Benutzerpräferenzen mit gemeinsamen Interessen in Einklang bringt.

Benutzerpräferenzen sind das einzige, was inhaltsbasierte Empfehlungssysteme berücksichtigen. Angesichts der vorherigen Auswahlen des Benutzers werden neue Empfehlungen aus verwandtem Material bereitgestellt.

22. Was genau meinen Sie mit der Zeitreihe?

Eine Zeitreihe ist eine Sammlung von Zahlen in aufsteigender Reihenfolge. Über einen vorbestimmten Zeitraum überwacht es die Bewegung der ausgewählten Datenpunkte und erfasst periodisch die Datenpunkte.

Es gibt keine minimale oder maximale Zeiteingabe für Zeitreihen.

Zeitreihen werden häufig von Analysten verwendet, um Daten gemäß ihren individuellen Anforderungen zu analysieren.

23. Beschreiben Sie die Variationen zwischen den Algorithmen Gradient Boosting und Random Forest.

Zufälliger Wald:

Am Ende werden eine Vielzahl von Entscheidungsbäumen zusammengefasst und als Random Forests bezeichnet.
Während Gradient Boosting jeden Baum unabhängig von den anderen erzeugt, baut Random Forest jeden Baum einzeln auf.
Mehrklasse Objekterkennung funktioniert gut mit zufälligen Wäldern.

Gradientenverstärkung:

Während Random Forests am Ende des Prozesses Entscheidungsbäume zusammenfügen, kombinieren Gradient Boosting Machines sie von Anfang an.
Wenn die Parameter entsprechend angepasst werden, übertrifft Gradient Boosting Random Forests in Bezug auf die Ergebnisse, aber es ist keine kluge Wahl, wenn der Datensatz viele Ausreißer, Anomalien oder Rauschen aufweist, da dies dazu führen könnte, dass das Modell überangepasst wird.
Wenn es unausgewogene Daten gibt, wie es bei der Echtzeit-Risikobewertung der Fall ist, funktioniert Gradient Boosting gut.

24. Warum brauchen Sie eine Konfusionsmatrix? Was ist es?

Eine Tabelle, die als Konfusionsmatrix, manchmal auch als Fehlermatrix bezeichnet wird, wird häufig verwendet, um zu zeigen, wie gut ein Klassifizierungsmodell oder Klassifizierer bei einem Satz von Testdaten abschneidet, für die die tatsächlichen Werte bekannt sind.

Es ermöglicht uns zu sehen, wie ein Modell oder Algorithmus funktioniert. Es macht es uns leicht, Missverständnisse zwischen verschiedenen Kursen zu erkennen.

Es dient dazu, die Leistung eines Modells oder Algorithmus zu bewerten.

Die Vorhersagen eines Klassifizierungsmodells werden in einer Konfusionsmatrix zusammengestellt. Die Zählwerte jeder Klassenbezeichnung wurden verwendet, um die Gesamtzahl richtiger und falscher Vorhersagen aufzuschlüsseln.

Es enthält Einzelheiten zu den vom Klassifikator verursachten Fehlern sowie zu den verschiedenen Arten von Fehlern, die von Klassifikatoren verursacht werden.

25. Was genau ist eine Hauptkomponentenanalyse?

Durch die Minimierung der Anzahl der miteinander korrelierten Variablen soll die Dimensionalität der Datenerhebung minimiert werden. Aber es ist wichtig, die Vielfalt so weit wie möglich zu erhalten.

Die Variablen werden in einen völlig neuen Satz von Variablen umgewandelt, die als Hauptkomponenten bezeichnet werden.

Diese PCs sind orthogonal, da sie die Eigenvektoren einer Kovarianzmatrix sind.

26. Warum ist die Komponentenrotation so entscheidend für die PCA (Hauptkomponentenanalyse)?

Die Rotation ist bei der PCA von entscheidender Bedeutung, da sie die Trennung zwischen den von jeder Komponente erhaltenen Varianzen optimiert und die Interpretation der Komponenten vereinfacht.

Wir benötigen erweiterte Komponenten, um die Komponentenvariation auszudrücken, wenn die Komponenten nicht gedreht werden.

27. Wie unterscheiden sich Regularisierung und Normalisierung?

Normalisierung:

Daten werden während der Normalisierung geändert. Sie sollten die Daten normalisieren, wenn sie Skalen aufweisen, die sich drastisch unterscheiden, insbesondere von niedrig nach hoch. Passen Sie jede Spalte so an, dass alle grundlegenden Statistiken kompatibel sind.

Um sicherzustellen, dass es zu keinem Genauigkeitsverlust kommt, kann dies nützlich sein. Das Erkennen des Signals unter Vernachlässigung des Rauschens ist eines der Ziele des Modelltrainings.

Es besteht die Möglichkeit einer Überanpassung, wenn dem Modell die vollständige Kontrolle gegeben wird, um Fehler zu reduzieren.

Regulierung:

Bei der Regularisierung wird die Vorhersagefunktion modifiziert. Dies unterliegt einer gewissen Kontrolle durch Regularisierung, die einfachere Anpassungsfunktionen gegenüber komplizierten bevorzugt.

28. Wie unterscheiden sich Normalisierung und Standardisierung?

Die beiden am weitesten verbreiteten Techniken zur Merkmalsskalierung sind Normalisierung und Standardisierung.

Normalisierung:

Die Neuskalierung der Daten auf einen [0,1]-Bereich wird als Normalisierung bezeichnet.
Wenn alle Parameter die gleiche positive Skala haben müssen, ist eine Normalisierung hilfreich, aber die Ausreißer des Datensatzes gehen verloren.

Regulierung:

Die Daten werden im Rahmen des Standardisierungsprozesses neu skaliert, um einen Mittelwert von 0 und eine Standardabweichung von 1 zu haben (Einheitenvarianz).

29. Was genau bedeutet „Varianz-Inflationsfaktor“?

Das Verhältnis der Varianz des Modells zur Varianz des Modells mit nur einer unabhängigen Variablen wird als Variation Inflation Factor (VIF) bezeichnet.

VIF schätzt die Menge an Multikollinearität, die in einem Satz von mehreren Regressionsvariablen vorhanden ist.

Varianz des Modells (VIF) Modell mit Varianz einer unabhängigen Variablen

30. Wie wählen Sie basierend auf der Größe des Trainingssatzes einen Klassifikator aus?

Ein Modell mit hoher Verzerrung und niedriger Varianz schneidet bei einem kurzen Trainingssatz besser ab, da eine Überanpassung weniger wahrscheinlich ist. Naive Bayes ist ein Beispiel.

Um kompliziertere Interaktionen für einen großen Trainingssatz darzustellen, ist ein Modell mit geringer Verzerrung und hoher Varianz vorzuziehen. Die logistische Regression ist ein gutes Beispiel.

31. Welcher Algorithmus beim maschinellen Lernen wird als „Lazy Learner“ bezeichnet und warum?

KNN ist ein träger Lerner und ein maschineller Lernalgorithmus. Da K-NN jedes Mal, wenn es klassifizieren möchte, die Entfernung dynamisch berechnet, anstatt maschinell gelernte Werte oder Variablen aus den Trainingsdaten zu lernen, speichert es den Trainingsdatensatz.

Das macht K-NN zu einem faulen Lerner.

32. Was sind die ROC-Kurve und die AUC?

Die Leistung eines Klassifizierungsmodells bei allen Schwellenwerten wird grafisch durch die ROC-Kurve dargestellt. Es gibt Kriterien für die True-Positive-Rate und die False-Positive-Rate.

Einfach ausgedrückt ist die Fläche unter der ROC-Kurve als AUC (Area Under the ROC Curve) bekannt. Der zweidimensionale Bereich der ROC-Kurve von (0,0) bis AUC wird gemessen (1,1). Zur Bewertung von binären Klassifikationsmodellen wird es als Leistungsstatistik verwendet.

33. Was sind Hyperparameter? Was macht sie von den Modellparametern einzigartig?

Eine interne Variable des Modells wird als Modellparameter bezeichnet. Unter Verwendung von Trainingsdaten wird der Wert eines Parameters angenähert.

Dem Modell unbekannt, ist ein Hyperparameter eine Variable. Der Wert kann nicht aus Daten bestimmt werden, daher werden sie häufig zur Berechnung von Modellparametern herangezogen.

34. Was bedeuten F1 Score, Recall und Precision?

Das Konfusionsmaß ist die Metrik, die verwendet wird, um die Wirksamkeit des Klassifizierungsmodells zu messen. Die folgenden Ausdrücke können verwendet werden, um die Verwirrungsmetrik besser zu erklären:

TP: True Positives – Dies sind die positiven Werte, die richtig antizipiert wurden. Dies deutet darauf hin, dass die Werte der projizierten Klasse und der tatsächlichen Klasse beide positiv sind.

TN: True Negatives – Dies sind die negativen Werte, die genau vorhergesagt wurden. Es legt nahe, dass sowohl der Wert der tatsächlichen Klasse als auch der erwartete Wert negativ sind.

Diese Werte – falsch positive und falsch negative – treten auf, wenn Ihre tatsächliche Klasse von der erwarteten Klasse abweicht.

Jetzt,

Das Verhältnis der Richtig-Positiv-Rate (TP) zu allen in der aktuellen Klasse gemachten Beobachtungen wird als Erinnerung bezeichnet, auch bekannt als Sensitivität.

Der Rückruf ist TP/(TP+FN).

Die Genauigkeit ist ein Maß für den positiven Vorhersagewert, der die Anzahl der positiven Ergebnisse, die das Modell wirklich vorhersagt, mit der Anzahl der richtigen positiven Ergebnisse vergleicht, die es genau vorhersagt.

Präzision ist TP/(TP + FP)

Die am einfachsten zu verstehende Leistungsmetrik ist die Genauigkeit, die nur das Verhältnis von richtig vorhergesagten Beobachtungen zu allen Beobachtungen ist.

Die Genauigkeit ist gleich (TP+TN)/(TP+FP+FN+TN).

Precision und Recall werden gewichtet und gemittelt, um die F1-Punktzahl zu erhalten. Daher berücksichtigt dieser Score sowohl falsch positive als auch falsch negative Ergebnisse.

F1 ist häufig wertvoller als Genauigkeit, insbesondere wenn Sie eine ungleiche Klassenverteilung haben, auch wenn es intuitiv nicht so einfach zu verstehen ist wie Genauigkeit.

Die beste Genauigkeit wird erreicht, wenn die Kosten für falsch positive und falsch negative Ergebnisse vergleichbar sind. Es ist vorzuziehen, sowohl Precision als auch Recall einzubeziehen, wenn sich die mit falsch positiven und falsch negativen Ergebnissen verbundenen Kosten erheblich unterscheiden.

35. Was genau ist Kreuzvalidierung?

Ein statistischer Resampling-Ansatz namens Kreuzvalidierung beim maschinellen Lernen verwendet mehrere Teilmengen von Datensätzen, um einen maschinellen Lernalgorithmus über mehrere Runden hinweg zu trainieren und zu bewerten.

Ein neuer Datenstapel, der nicht zum Trainieren des Modells verwendet wurde, wird mithilfe von Kreuzvalidierung getestet, um zu sehen, wie gut das Modell ihn vorhersagt. Eine Überanpassung der Daten wird durch Kreuzvalidierung verhindert.

K-Fold Die am häufigsten verwendete Resampling-Methode teilt den gesamten Datensatz in K Sätze gleicher Größe auf. Das nennt man Kreuzvalidierung.

36. Angenommen, Sie haben festgestellt, dass Ihr Modell eine erhebliche Varianz aufweist. Welcher Algorithmus ist Ihrer Meinung nach am besten geeignet, um mit dieser Situation umzugehen?

Umgang mit hoher Variabilität

Wir sollten die Bagging-Technik für Probleme mit großen Variationen verwenden.

Wiederholtes Abtasten von Zufallsdaten würde durch den Bagging-Algorithmus verwendet, um die Daten in Untergruppen zu unterteilen. Sobald die Daten aufgeteilt wurden, können wir Zufallsdaten und ein bestimmtes Trainingsverfahren verwenden, um Regeln zu generieren.

Danach könnten Abfragen verwendet werden, um die Vorhersagen des Modells zu kombinieren.

37. Was unterscheidet die Ridge-Regression von der Lasso-Regression?

Zwei weit verbreitete Regularisierungsmethoden sind die Lasso- (auch als L1 bezeichnet) und die Ridge- (manchmal auch als L2 bezeichnet) Regression. Sie werden verwendet, um die Überanpassung von Daten zu verhindern.

Um die beste Lösung zu finden und die Komplexität zu minimieren, werden diese Techniken eingesetzt, um die Koeffizienten zu bestrafen. Durch Bestrafung der Summe der Absolutwerte der Koeffizienten arbeitet die Lasso-Regression.

Die Straffunktion bei der Ridge- oder L2-Regression wird aus der Summe der Quadrate der Koeffizienten abgeleitet.

38. Was ist wichtiger: Modellleistung oder Modellgenauigkeit? Welches und warum wirst du es bevorzugen?

Dies ist eine irreführende Frage, daher sollte man zuerst verstehen, was Model Performance ist. Wenn Leistung als Geschwindigkeit definiert wird, hängt sie von der Art der Anwendung ab; Jede Anwendung, die eine Echtzeitsituation beinhaltet, würde eine hohe Geschwindigkeit als entscheidende Komponente erfordern.

Beispielsweise verlieren die besten Suchergebnisse an Wert, wenn die Abfrageergebnisse zu lange brauchen, bis sie eintreffen.

Wenn die Leistung als Begründung dafür verwendet wird, warum Präzision und Recall Vorrang vor Genauigkeit haben sollten, dann ist ein F1-Score nützlicher als Genauigkeit, um den Business Case für einen unausgeglichenen Datensatz zu demonstrieren.

39. Wie würden Sie einen Datensatz mit Ungleichungen handhaben?

Ein unausgeglichener Datensatz kann von Stichprobenverfahren profitieren. Die Abtastung kann entweder unter- oder überabgetastet erfolgen.

Under Sampling ermöglicht es uns, die Größe der Mehrheitsklasse zu verkleinern, um sie an die Minderheitsklasse anzupassen, was zu einer Erhöhung der Geschwindigkeit in Bezug auf die Speicherung und Laufzeitausführung beiträgt, aber auch zum Verlust wertvoller Daten führen kann.

Um das Problem des durch Oversampling verursachten Informationsverlusts zu beheben, führen wir ein Upsampling der Minority-Klasse durch; Dies führt jedoch dazu, dass wir auf Probleme mit der Überanpassung stoßen.

Weitere Strategien sind:

Cluster-basiertes Oversampling – Die Minority- und Majority-Klasseninstanzen werden in dieser Situation individuell der K-means-Clustering-Technik unterzogen. Dies geschieht, um Dataset-Cluster zu finden. Dann wird jeder Cluster überabgetastet, sodass alle Klassen die gleiche Größe haben und alle Cluster innerhalb einer Klasse die gleiche Anzahl von Instanzen haben.
SMOTE: Synthetic Minority Oversampling Technique – Ein Datenausschnitt aus der Minderheitsklasse wird als Beispiel verwendet, wonach zusätzliche künstliche Instanzen, die damit vergleichbar sind, erzeugt und dem ursprünglichen Datensatz hinzugefügt werden. Diese Methode funktioniert gut mit numerischen Datenpunkten.

40. Wie kann man zwischen Boosten und Bagging unterscheiden?

Ensemble-Techniken haben Versionen, die als Bagging und Boosting bekannt sind.

Absacken-

Bei Algorithmen mit hoher Variation ist Bagging eine Technik, die verwendet wird, um die Varianz zu verringern. Eine solche Familie von Klassifikatoren, die anfällig für Verzerrungen ist, ist die Familie der Entscheidungsbäume.

Die Art der Daten, mit denen Entscheidungsbäume trainiert werden, hat einen erheblichen Einfluss auf ihre Leistung. Aus diesem Grund ist selbst bei sehr hoher Feinabstimmung eine Verallgemeinerung der Ergebnisse bei ihnen manchmal viel schwieriger zu erreichen.

Wenn die Trainingsdaten von Entscheidungsbäumen geändert werden, variieren die Ergebnisse erheblich.

Infolgedessen wird Bagging verwendet, bei dem viele Entscheidungsbäume erstellt werden, von denen jeder mit einer Stichprobe der Originaldaten trainiert wird, und das Endergebnis der Durchschnitt all dieser verschiedenen Modelle ist.

Erhöhen:

Boosting ist die Technik, Vorhersagen mit einem n-schwachen Klassifikatorsystem zu treffen, bei dem jeder schwache Klassifikator die Mängel seiner stärkeren Klassifikatoren ausgleicht. Wir bezeichnen einen Klassifikator, der bei einem bestimmten Datensatz schlecht abschneidet, als „schwachen Klassifikator“.

Boosting ist offensichtlich eher ein Prozess als ein Algorithmus. Logistische Regression und flache Entscheidungsbäume sind gängige Beispiele für schwache Klassifikatoren.

Adaboost, Gradient Boosting und XGBoost sind die beiden beliebtesten Boosting-Algorithmen, es gibt jedoch noch viele weitere.

41. Erklären Sie die Unterschiede zwischen induktivem und deduktivem Lernen.

Beim Lernen anhand von Beispielen aus einer Reihe von beobachteten Beispielen verwendet ein Modell induktives Lernen, um zu einer verallgemeinerten Schlussfolgerung zu gelangen. Andererseits verwendet das Modell beim deduktiven Lernen das Ergebnis, bevor es sein eigenes bildet.

Induktives Lernen ist der Prozess, Schlussfolgerungen aus Beobachtungen zu ziehen.

Deduktives Lernen ist der Prozess des Erstellens von Beobachtungen auf der Grundlage von Schlussfolgerungen.

Zusammenfassung

Herzlichen Glückwunsch! Dies sind die Top 40 und mehr Interviewfragen für maschinelles Lernen, auf die Sie jetzt die Antworten kennen. Datenwissenschaft u künstliche Intelligenz Berufe werden mit fortschreitender Technologie auch weiterhin nachgefragt.

Kandidaten, die ihr Wissen über diese Spitzentechnologien auf den neuesten Stand bringen und ihre Fähigkeiten verbessern, finden eine Vielzahl von Beschäftigungsmöglichkeiten mit wettbewerbsfähiger Bezahlung.

Sie können nun mit der Beantwortung der Interviews fortfahren, da Sie ein solides Verständnis dafür haben, wie Sie auf einige der häufig gestellten Interviewfragen zum maschinellen Lernen antworten können.

Gehen Sie je nach Ihren Zielen wie folgt vor. Bereiten Sie sich auf Vorstellungsgespräche vor, indem Sie Hashdork's besuchen Interview-Serie.

Fragen in Vorstellungsgesprächen für maschinelles Lernen

Die über 40 wichtigsten Interviewfragen zum maschinellen Lernen