Top 40+ des questions d'entretien sur l'apprentissage automatique (2024)

Table des matières[Cacher][Montrer]

1. Expliquez les différences entre l'apprentissage automatique, l'intelligence artificielle et l'apprentissage en profondeur.
2. Veuillez décrire les différents types d'apprentissage automatique.
3. Quel est le compromis biais/variance ?
4. Les algorithmes d'apprentissage automatique ont considérablement évolué au fil du temps. Comment choisir le bon algorithme à utiliser étant donné un ensemble de données ?
5. En quoi la covariance et la corrélation diffèrent-elles ?
6. En machine learning, que signifie le clustering ?
7. Quel est votre algorithme d'apprentissage automatique préféré ?
8. Régression linéaire dans l'apprentissage automatique : qu'est-ce que c'est ?
9. Décrivez les différences entre KNN et k-means clustering.
10. Que signifie pour vous le « biais de sélection » ?
11. Quel est exactement le théorème de Bayes ?
12. Dans un modèle d'apprentissage automatique, qu'est-ce qu'un « ensemble d'entraînement » et un « ensemble de test » ?
13. Qu'est-ce qu'une hypothèse en apprentissage automatique ?
14. Que signifie le surajustement de l'apprentissage automatique et comment peut-il être évité ?
15. Que sont exactement les classificateurs Naive Bayes ?
16. Que signifient les fonctions de coût et les fonctions de perte ?
17. Qu'est-ce qui distingue un modèle génératif d'un modèle discriminant ?
18. Décrivez les variations entre les erreurs de type I et de type II.
19. En apprentissage automatique, qu'est-ce que la technique d'apprentissage d'ensemble ?
20. Que sont exactement les modèles paramétriques ? Donnez un exemple.
21. Décrire le filtrage collaboratif. Ainsi que le filtrage basé sur le contenu ?
22. Qu'entendez-vous exactement par la série chronologique ?
23. Décrivez les variations entre les algorithmes Gradient Boosting et Random Forest.
24. Pourquoi avez-vous besoin d'une matrice de confusion ? Qu'est-ce que c'est?
25. Qu'est-ce qu'une analyse en composantes principales ?
26. Pourquoi la rotation des composants est-elle si cruciale pour l'ACP (analyse en composantes principales) ?
27. En quoi la régularisation et la normalisation diffèrent-elles l'une de l'autre ?
28. En quoi la normalisation et la standardisation diffèrent-elles l'une de l'autre ?
29. Que signifie exactement « facteur d'inflation de la variance » ?
30. En fonction de la taille de l'ensemble d'apprentissage, comment choisissez-vous un classificateur ?
31. Quel algorithme d'apprentissage automatique est appelé "l'apprenant paresseux" et pourquoi ?
32. Que sont la courbe ROC et l'AUC ?
33. Que sont les hyperparamètres ? Qu'est-ce qui les rend uniques à partir des paramètres du modèle ?
34. Que signifient F1 Score, rappel et précision ?
35. Qu'est-ce que la validation croisée ?
36. Disons que vous avez découvert que votre modèle a une variance significative. Quel algorithme, selon vous, est le plus adapté pour gérer cette situation ?
37. Qu'est-ce qui distingue la régression Ridge de la régression Lasso ?
38. Qu'est-ce qui est le plus important : la performance du modèle ou la précision du modèle ? Laquelle et pourquoi allez-vous la privilégier ?
39. Comment géreriez-vous un ensemble de données avec des inégalités ?
40. Comment pouvez-vous faire la distinction entre le boosting et le bagging ?
41. Expliquez les différences entre l'apprentissage inductif et déductif.
Conclusion

Les entreprises utilisent des technologies de pointe, telles que l'intelligence artificielle (IA) et l'apprentissage automatique, pour accroître l'accessibilité des informations et des services aux individus.

Ces technologies sont adoptées par une variété d'industries, y compris la banque, la finance, la vente au détail, la fabrication et la santé.

L'un des rôles organisationnels les plus recherchés utilisant l'IA est celui des scientifiques des données, des ingénieurs en intelligence artificielle, des ingénieurs en apprentissage automatique et des analystes de données.

Cet article vous guidera à travers une variété de machine learning des questions d'entretien, des plus basiques aux plus complexes, pour vous aider à vous préparer à toutes les questions qui pourraient vous être posées lors de la recherche de votre emploi idéal.

1. Expliquez les différences entre l'apprentissage automatique, l'intelligence artificielle et l'apprentissage en profondeur.

L'intelligence artificielle utilise une variété d'approches d'apprentissage automatique et d'apprentissage en profondeur qui permettent aux systèmes informatiques d'effectuer des tâches en utilisant une intelligence de type humain avec une logique et des règles.

L'apprentissage automatique utilise une variété de statistiques et d'approches d'apprentissage en profondeur pour permettre aux machines d'apprendre de leurs performances antérieures et de devenir plus aptes à effectuer certaines tâches par elles-mêmes sans supervision humaine.

Deep Learning est une collection d'algorithmes qui permet au logiciel d'apprendre de lui-même et d'exécuter une variété de fonctions commerciales, telles que la reconnaissance vocale et d'image.

Des systèmes qui exposent leur multicouche les réseaux de neurones à de grandes quantités de données pour l'apprentissage sont capables de faire un apprentissage en profondeur.

2. Veuillez décrire les différents types d'apprentissage automatique.

L'apprentissage automatique existe en trois types différents :

Apprentissage supervisé : un modèle crée des prédictions ou des jugements à l'aide de données étiquetées ou historiques dans l'apprentissage automatique supervisé. Les ensembles de données qui ont été marqués ou étiquetés afin d'augmenter leur signification sont appelés données étiquetées.
Apprentissage non supervisé : nous n'avons pas de données étiquetées pour l'apprentissage non supervisé. Dans les données entrantes, un modèle peut trouver des modèles, des bizarreries et des corrélations.
Apprentissage par renforcement : Le modèle peut apprendre en utilisant le renforcement l'apprentissage et les récompenses qu'il a obtenues pour son comportement antérieur.

3. Quel est le compromis biais/variance ?

Le surajustement est le résultat d'un biais, qui est le degré d'ajustement d'un modèle aux données. Le biais est causé par des hypothèses incorrectes ou trop simples dans votre algorithme d'apprentissage automatique.

La variance fait référence aux erreurs causées par la complexité de votre algorithme ML, qui produit une sensibilité à de grands degrés de variance dans les données d'entraînement et au surajustement.

La variance est la mesure dans laquelle un modèle varie en fonction des entrées.

En d'autres termes, les modèles de base sont extrêmement biaisés mais stables (faible variance). Le surajustement est un problème avec les modèles complexes, bien qu'ils capturent néanmoins la réalité du modèle (faible biais).

Afin d'éviter à la fois une variation élevée et un biais élevé, un compromis entre le biais et la variance est nécessaire pour la meilleure réduction des erreurs.

4. Les algorithmes d'apprentissage automatique ont considérablement évolué au fil du temps. Comment choisir le bon algorithme à utiliser étant donné un ensemble de données ?

La technique d'apprentissage automatique à utiliser dépend uniquement du type de données dans un ensemble de données spécifique.

Lorsque les données sont linéaires, la régression linéaire est utilisée. La méthode d'ensachage fonctionnerait mieux si les données indiquaient une non-linéarité. Nous pouvons utiliser des arbres de décision ou SVM si les données doivent être évaluées ou interprétées à des fins commerciales.

Les réseaux de neurones peuvent être utiles pour obtenir une réponse précise si l'ensemble de données comprend des photos, des vidéos et de l'audio.

Le choix de l'algorithme pour une circonstance spécifique ou une collecte de données ne peut pas être fait uniquement sur une seule mesure.

Dans le but de développer la meilleure méthode d'ajustement, nous devons d'abord examiner les données à l'aide de l'analyse exploratoire des données (EDA) et comprendre l'objectif d'utilisation de l'ensemble de données.

5. En quoi la covariance et la corrélation diffèrent-elles ?

La covariance évalue comment deux variables sont connectées l'une à l'autre et comment l'une peut changer en réponse aux changements de l'autre.

Si le résultat est positif, cela indique qu'il existe un lien direct entre les variables et que l'une augmenterait ou diminuerait avec une augmentation ou une diminution de la variable de base, en supposant que toutes les autres conditions restent constantes.

La corrélation mesure le lien entre deux variables aléatoires et n'a que trois valeurs distinctes : 1, 0 et -1.

6. En machine learning, que signifie le clustering ?

Les méthodes d'apprentissage non supervisé qui regroupent des points de données sont appelées clustering. Avec une collection de points de données, la technique de regroupement peut être appliquée.

Vous pouvez regrouper tous les points de données en fonction de leurs fonctions à l'aide de cette stratégie.

Les caractéristiques et les qualités des points de données qui entrent dans la même catégorie sont similaires, tandis que celles des points de données qui entrent dans des groupes distincts sont différentes.

Cette approche peut être utilisée pour analyser des données statistiques.

7. Quel est votre algorithme d'apprentissage automatique préféré ?

Vous avez la possibilité de démontrer vos préférences et vos talents uniques dans cette question, ainsi que votre connaissance approfondie de nombreuses techniques d'apprentissage automatique.

Voici quelques algorithmes typiques d'apprentissage automatique auxquels réfléchir :

Régression linéaire
Régression logistique
Naïf Bayes
Arbres de décision
K signifie
Algorithme de forêt aléatoire
K-plus proche voisin (KNN)

8. Régression linéaire dans l'apprentissage automatique : qu'est-ce que c'est ?

Un algorithme d'apprentissage automatique supervisé est une régression linéaire.

Il est utilisé dans l'analyse prédictive pour déterminer le lien linéaire entre les variables dépendantes et indépendantes.

L'équation de la régression linéaire est la suivante :

Y = A + BX

où:

La variable d'entrée ou variable indépendante est appelée X.
La variable dépendante ou de sortie est Y.
Le coefficient de X est b et son interception est a.

9. Décrivez les différences entre KNN et k-means clustering.

La principale distinction est que KNN (une méthode de classification, apprentissage supervisé) a besoin de points étiquetés alors que k-means n'en a pas besoin (algorithme de clustering, apprentissage non supervisé).

Vous pouvez classer des données étiquetées dans un point non étiqueté à l'aide de K-Nearest Neighbors. Le clustering K-means utilise la distance moyenne entre les points pour apprendre à regrouper les points non étiquetés.

10. Que signifie pour vous le « biais de sélection » ?

Le biais dans la phase d'échantillonnage d'une expérience est dû à l'imprécision statistique.

Un groupe d'échantillons est choisi plus fréquemment que les autres groupes dans l'expérience en raison de l'imprécision.

Si le biais de sélection n'est pas reconnu, cela pourrait entraîner une conclusion erronée.

11. Quel est exactement le théorème de Bayes ?

Lorsque nous sommes conscients d'autres probabilités, nous pouvons déterminer une probabilité en utilisant le théorème de Bayes. En d'autres termes, il offre la probabilité a posteriori d'un événement sur la base d'informations préalables.

Une bonne méthode pour estimer les probabilités conditionnelles est fournie par ce théorème.

Lors du développement de problèmes de modélisation prédictive de classification et de l'ajustement d'un modèle à une formation ensemble de données en apprentissage automatique, le théorème de Bayes est appliqué (ie Naive Bayes, Bayes Optimal Classifier).

12. Dans un modèle d'apprentissage automatique, qu'est-ce qu'un « ensemble d'entraînement » et un « ensemble de test » ?

Ensemble d'entraînement:

L'ensemble de formation se compose d'instances qui sont envoyées au modèle pour analyse et apprentissage.
Ce sont les données étiquetées qui seront utilisées pour former le modèle.
En règle générale, 70 % des données totales sont utilisées comme ensemble de données d'apprentissage.

Ensemble d'essai:

L'ensemble de test est utilisé pour évaluer la précision de la génération d'hypothèses du modèle.
Nous testons sans données étiquetées, puis utilisons des étiquettes pour confirmer les résultats.
Les 30 % restants sont utilisés comme ensemble de données de test.

13. Qu'est-ce qu'une hypothèse en apprentissage automatique ?

L'apprentissage automatique permet d'utiliser des ensembles de données existants pour mieux comprendre une fonction donnée qui relie l'entrée à la sortie. C'est ce qu'on appelle l'approximation de la fonction.

Dans ce cas, une approximation doit être utilisée pour la fonction cible inconnue afin de transférer de la meilleure façon possible toutes les observations imaginables basées sur la situation donnée.

Dans l'apprentissage automatique, une hypothèse est un modèle qui aide à estimer la fonction cible et à compléter les mappages entrée-sortie appropriés.

La sélection et la conception des algorithmes permettent de définir l'espace des hypothèses possibles pouvant être représentées par un modèle.

Pour une seule hypothèse, h minuscule (h) est utilisé, mais h majuscule (H) est utilisé pour tout l'espace d'hypothèse qui est recherché. Nous allons brièvement passer en revue ces notations :

Une hypothèse (h) est un modèle particulier qui facilite le mappage de l'entrée à la sortie, qui peut ensuite être utilisé pour l'évaluation et la prédiction.
Un ensemble d'hypothèses (H) est un espace interrogeable d'hypothèses qui peut être utilisé pour mapper les entrées aux sorties. Le cadrage du problème, le modèle et la configuration du modèle sont quelques exemples de limitations génériques.

14. Que signifie le surajustement de l'apprentissage automatique et comment peut-il être évité ?

Lorsqu'une machine tente d'apprendre à partir d'un ensemble de données insuffisant, un surajustement se produit.

Par conséquent, le surajustement est inversement corrélé au volume de données. L'approche de validation croisée permet d'éviter le surajustement pour les petits ensembles de données. Un jeu de données est divisé en deux parties dans cette méthode.

L'ensemble de données pour les tests et la formation comprendra ces deux parties. L'ensemble de données d'apprentissage est utilisé pour créer un modèle, tandis que l'ensemble de données de test est utilisé pour évaluer le modèle à l'aide de différentes entrées.

Voici comment éviter le surajustement.

15. Que sont exactement les classificateurs Naive Bayes ?

Diverses méthodes de classification constituent les classificateurs Naive Bayes. Un ensemble d'algorithmes connus sous le nom de ces classificateurs fonctionnent tous sur la même idée fondamentale.

L'hypothèse faite par les classificateurs naïfs de Bayes est que la présence ou l'absence d'une caractéristique n'a aucune incidence sur la présence ou l'absence d'une autre caractéristique.

En d'autres termes, c'est ce que nous appelons "naïf" car il suppose que chaque attribut de l'ensemble de données est également significatif et indépendant.

La classification est effectuée à l'aide de classificateurs bayésiens naïfs. Ils sont simples à utiliser et produisent de meilleurs résultats que des prédicteurs plus complexes lorsque la prémisse d'indépendance est vraie.

Dans l'analyse de texte, le filtrage du spam et les systèmes de recommandation, ils sont utilisés.

16. Que signifient les fonctions de coût et les fonctions de perte ?

L'expression «fonction de perte» fait référence au processus de calcul de la perte lorsqu'un seul élément de données est pris en compte.

Au contraire, nous utilisons la fonction de coût pour déterminer le nombre total d'erreurs pour de nombreuses données. Aucune distinction significative n'existe.

En d'autres termes, alors que les fonctions de coût agrègent la différence pour l'ensemble de données d'apprentissage, les fonctions de perte sont conçues pour capturer la différence entre les valeurs réelles et prédites pour un seul enregistrement.

17. Qu'est-ce qui distingue un modèle génératif d'un modèle discriminant ?

Un modèle discriminatif apprend les différences entre plusieurs catégories de données. Un modèle génératif récupère différents types de données.

Sur les problèmes de classification, les modèles discriminants surpassent souvent les autres modèles.

18. Décrivez les variations entre les erreurs de type I et de type II.

Les faux positifs entrent dans la catégorie des erreurs de type I, tandis que les faux négatifs relèvent des erreurs de type II (affirmant que rien ne s'est passé alors que c'est le cas).

19. En apprentissage automatique, qu'est-ce que la technique d'apprentissage d'ensemble ?

Une technique appelée apprentissage d'ensemble mélange de nombreux modèles d'apprentissage automatique pour produire des modèles plus puissants.

Un modèle peut varier pour diverses raisons. Plusieurs causes sont :

Populations diverses
Diverses hypothèses
Diverses méthodes de modélisation

Nous rencontrerons un problème lors de l'utilisation des données d'entraînement et de test du modèle. Le biais, la variance et l'erreur irréductible sont des types possibles de cette erreur.

Maintenant, nous appelons cet équilibre entre biais et variance dans le modèle un compromis biais-variance, et il devrait toujours exister. Ce compromis est accompli grâce à l'utilisation de l'apprentissage d'ensemble.

Bien qu'il existe différentes approches d'ensemble disponibles, il existe deux stratégies courantes pour combiner de nombreux modèles :

Une approche native appelée bagging utilise l'ensemble d'apprentissage pour produire des ensembles d'apprentissage supplémentaires.
Le boosting, une technique plus sophistiquée : Tout comme le bagging, le boosting est utilisé pour trouver la formule de pondération idéale pour un ensemble d'entraînement.

20. Que sont exactement les modèles paramétriques ? Donnez un exemple.

Le nombre de paramètres dans les modèles paramétriques est limité. Pour prévoir des données, il vous suffit de connaître les paramètres du modèle.

Voici des exemples typiques : régression logistique, régression linéaire et SVM linéaires. Les modèles non paramétriques sont flexibles car ils peuvent contenir un nombre illimité de paramètres.

Les paramètres du modèle et l'état des données observées sont nécessaires pour les prédictions de données. Voici quelques exemples typiques : modèles de sujet, arbres de décision et k-plus proches voisins.

21. Décrire le filtrage collaboratif. Ainsi que le filtrage basé sur le contenu ?

Une méthode éprouvée pour créer des suggestions de contenu sur mesure est le filtrage collaboratif.

Une forme de système de recommandation appelée filtrage collaboratif prédit du nouveau matériel en équilibrant les préférences des utilisateurs avec des intérêts partagés.

Les préférences des utilisateurs sont la seule chose que les systèmes de recommandation basés sur le contenu prennent en compte. À la lumière des sélections précédentes de l'utilisateur, de nouvelles recommandations sont fournies à partir de documents connexes.

22. Qu'entendez-vous exactement par la série chronologique ?

Une série chronologique est un ensemble de nombres classés par ordre croissant. Sur une période de temps prédéterminée, il surveille le mouvement des points de données sélectionnés et capture périodiquement les points de données.

Il n'y a pas d'entrée de temps minimum ou maximum pour les séries chronologiques.

Les séries chronologiques sont fréquemment utilisées par les analystes pour analyser les données conformément à leurs exigences uniques.

23. Décrivez les variations entre les algorithmes Gradient Boosting et Random Forest.

Forêt aléatoire :

Un grand nombre d'arbres de décision sont regroupés à la fin et sont appelés forêts aléatoires.
Alors que l'amplification de gradient produit chaque arbre indépendamment des autres, la forêt aléatoire construit chaque arbre un à la fois.
Multiclasse détection d'objets fonctionne bien avec les forêts aléatoires.

Amplification du dégradé :

Alors que les forêts aléatoires rejoignent les arbres de décision à la fin du processus, les machines Gradient Boosting les combinent dès le début.
Si les paramètres sont correctement ajustés, l'amplification du gradient surpasse les forêts aléatoires en termes de résultats, mais ce n'est pas un choix judicieux si l'ensemble de données contient beaucoup de valeurs aberrantes, d'anomalies ou de bruit, car cela pourrait entraîner un surajustement du modèle.
Lorsqu'il y a des données déséquilibrées, comme c'est le cas dans l'évaluation des risques en temps réel, le gradient boosting fonctionne bien.

24. Pourquoi avez-vous besoin d'une matrice de confusion ? Qu'est-ce que c'est?

Un tableau connu sous le nom de matrice de confusion, parfois appelée matrice d'erreur, est largement utilisé pour montrer dans quelle mesure un modèle de classification, ou classificateur, fonctionne sur un ensemble de données de test pour lesquelles les valeurs réelles sont connues.

Cela nous permet de voir comment un modèle ou un algorithme fonctionne. Cela nous permet de repérer facilement les malentendus entre les différents cours.

Il sert à évaluer la performance d'un modèle ou d'un algorithme.

Les prédictions d'un modèle de classification sont compilées dans une matrice de confusion. Les valeurs de comptage de chaque étiquette de classe ont été utilisées pour décomposer le nombre total de prédictions correctes et incorrectes.

Il fournit des détails sur les fautes commises par le classificateur ainsi que sur les différents types d'erreurs causées par les classificateurs.

25. Qu'est-ce qu'une analyse en composantes principales ?

En minimisant le nombre de variables corrélées entre elles, l'objectif est de minimiser la dimensionnalité de la collecte de données. Mais il est important de garder la diversité autant que possible.

Les variables sont transformées en un ensemble entièrement nouveau de variables appelées composantes principales.

Ces PC sont orthogonaux puisqu'ils sont les vecteurs propres d'une matrice de covariance.

26. Pourquoi la rotation des composants est-elle si cruciale pour l'ACP (analyse en composantes principales) ?

La rotation est cruciale dans l'ACP car elle optimise la séparation entre les variances obtenues par chaque composant, ce qui simplifie l'interprétation des composants.

Nous avons besoin de composants étendus pour exprimer la variation des composants si les composants ne sont pas pivotés.

27. En quoi la régularisation et la normalisation diffèrent-elles l'une de l'autre ?

Normalisation:

Les données sont modifiées pendant la normalisation. Vous devez normaliser les données si elles ont des échelles radicalement différentes, en particulier de bas en haut. Ajustez chaque colonne afin que les statistiques fondamentales soient toutes compatibles.

Pour s'assurer qu'il n'y a pas de perte de précision, cela peut être utile. Détecter le signal tout en ignorant le bruit est l'un des objectifs de l'apprentissage du modèle.

Il y a un risque de surajustement si le modèle reçoit un contrôle complet pour réduire les erreurs.

Régularisation :

En régularisation, la fonction de prédiction est modifiée. Ceci est soumis à un certain contrôle par la régularisation, qui favorise les fonctions d'ajustement plus simples par rapport aux fonctions compliquées.

28. En quoi la normalisation et la standardisation diffèrent-elles l'une de l'autre ?

Les deux techniques les plus largement utilisées pour la mise à l'échelle des caractéristiques sont la normalisation et la standardisation.

Normalisation:

La remise à l'échelle des données pour les adapter à une plage [0,1] est connue sous le nom de normalisation.
Lorsque tous les paramètres doivent avoir la même échelle positive, la normalisation est utile, mais les valeurs aberrantes de l'ensemble de données sont perdues.

Régularisation :

Les données sont remises à l'échelle pour avoir une moyenne de 0 et un écart type de 1 dans le cadre du processus de normalisation (variance unitaire)

29. Que signifie exactement « facteur d'inflation de la variance » ?

Le rapport de la variance du modèle à la variance du modèle avec une seule variable indépendante est appelé facteur d'inflation de variation (VIF).

VIF estime la quantité de multicolinéarité présente dans un ensemble de plusieurs variables de régression.

Variance du modèle (VIF) Modèle avec une variance variable indépendante

30. En fonction de la taille de l'ensemble d'apprentissage, comment choisissez-vous un classificateur ?

Un modèle à biais élevé et à faible variance fonctionne mieux pour un ensemble d'entraînement court, car le surajustement est moins probable. Naive Bayes en est un exemple.

Afin de représenter des interactions plus compliquées pour un grand ensemble d'apprentissage, un modèle avec un faible biais et une variance élevée est préférable. La régression logistique en est un bon exemple.

31. Quel algorithme d'apprentissage automatique est appelé "l'apprenant paresseux" et pourquoi ?

Apprenant lent, KNN est un algorithme d'apprentissage automatique. Étant donné que K-NN calcule dynamiquement la distance chaque fois qu'il souhaite effectuer une classification au lieu d'apprendre des valeurs ou des variables apprises par machine à partir des données d'apprentissage, il mémorise l'ensemble de données d'apprentissage.

Cela fait de K-NN un apprenant paresseux.

32. Que sont la courbe ROC et l'AUC ?

La performance d'un modèle de classification à tous les seuils est représentée graphiquement par la courbe ROC. Il a des critères de taux de vrais positifs et de taux de faux positifs.

En termes simples, la zone sous la courbe ROC est appelée AUC (zone sous la courbe ROC). La zone bidimensionnelle de la courbe ROC de (0,0) à AUC est mesurée (1,1). Pour évaluer les modèles de classification binaire, il est utilisé comme statistique de performance.

33. Que sont les hyperparamètres ? Qu'est-ce qui les rend uniques à partir des paramètres du modèle ?

Une variable interne du modèle est appelée paramètre de modèle. À l'aide des données d'apprentissage, la valeur d'un paramètre est approximée.

Inconnu du modèle, un hyperparamètre est une variable. La valeur ne peut pas être déterminée à partir des données, elles sont donc fréquemment utilisées pour calculer les paramètres du modèle.

34. Que signifient F1 Score, rappel et précision ?

La mesure de la confusion est la métrique utilisée pour évaluer l'efficacité du modèle de classification. Les phrases suivantes peuvent être utilisées pour mieux expliquer la métrique de confusion :

TP : Vrais positifs - Ce sont les valeurs positives qui ont été anticipées correctement. Cela suggère que les valeurs de la classe projetée et de la classe réelle sont toutes deux positives.

TN : Vrais négatifs - Ce sont les valeurs négatives qui ont été prévues avec précision. Cela suggère que la valeur de la classe réelle et la classe anticipée sont négatives.

Ces valeurs (faux positifs et faux négatifs) se produisent lorsque votre classe réelle diffère de la classe anticipée.

Maintenant,

Le rapport du taux de vrais positifs (TP) à toutes les observations faites dans la classe réelle est appelé rappel, également appelé sensibilité.

Le rappel est TP/(TP+FN).

La précision est une mesure de la valeur prédictive positive, qui compare le nombre de positifs que le modèle prédit réellement au nombre de positifs corrects qu'il prédit avec précision.

La précision est TP/(TP + FP)

La mesure de performance la plus facile à comprendre est la précision, qui correspond simplement à la proportion d'observations correctement prédites par rapport à toutes les observations.

La précision est égale à (TP+TN)/(TP+FP+FN+TN).

La précision et le rappel sont pondérés et moyennés pour fournir le score F1. Par conséquent, ce score prend en compte à la fois les faux positifs et les faux négatifs.

F1 est souvent plus précieux que la précision, en particulier si vous avez une distribution de classe inégale, même si intuitivement ce n'est pas aussi simple à comprendre que la précision.

La meilleure précision est obtenue lorsque le coût des faux positifs et des faux négatifs est comparable. Il est préférable d'inclure à la fois la précision et le rappel si les coûts associés aux faux positifs et aux faux négatifs diffèrent considérablement.

35. Qu'est-ce que la validation croisée ?

Une approche de rééchantillonnage statistique appelée validation croisée dans l'apprentissage automatique utilise plusieurs sous-ensembles de données pour former et évaluer un algorithme d'apprentissage automatique sur un certain nombre de tours.

Un nouveau lot de données qui n'a pas été utilisé pour former le modèle est testé à l'aide d'une validation croisée pour voir dans quelle mesure le modèle le prédit. Le surajustement des données est évité grâce à la validation croisée.

K-Fold La méthode de rééchantillonnage la plus souvent utilisée divise l'ensemble de données en K ensembles de tailles égales. C'est ce qu'on appelle la validation croisée.

36. Disons que vous avez découvert que votre modèle a une variance significative. Quel algorithme, selon vous, est le plus adapté pour gérer cette situation ?

Gérer une forte variabilité

Nous devrions utiliser la technique du bagging pour les problèmes avec de grandes variations.

Un échantillonnage répété de données aléatoires serait utilisé par l'algorithme d'ensachage pour diviser les données en sous-groupes. Une fois les données divisées, nous pouvons utiliser des données aléatoires et une procédure de formation spécifique pour générer des règles.

Après cela, le sondage pourrait être utilisé pour combiner les prédictions du modèle.

37. Qu'est-ce qui distingue la régression Ridge de la régression Lasso ?

Deux méthodes de régularisation largement utilisées sont la régression Lasso (également appelée L1) et Ridge (parfois appelée L2). Ils sont utilisés pour éviter le surajustement des données.

Afin de découvrir la meilleure solution et de minimiser la complexité, ces techniques sont utilisées pour punir les coefficients. En pénalisant le total des valeurs absolues des coefficients, la régression Lasso opère.

La fonction de pénalité dans la régression Ridge ou L2 est dérivée de la somme des carrés des coefficients.

38. Qu'est-ce qui est le plus important : la performance du modèle ou la précision du modèle ? Laquelle et pourquoi allez-vous la privilégier ?

C'est une question trompeuse, il faut donc d'abord comprendre ce qu'est la performance du modèle. Si les performances sont définies comme la vitesse, elles dépendent du type d'application ; toute application impliquant une situation en temps réel nécessiterait une vitesse élevée comme élément crucial.

Par exemple, les meilleurs résultats de recherche deviendront moins précieux si les résultats de la requête mettent trop de temps à arriver.

Si la performance est utilisée pour justifier pourquoi la précision et le rappel doivent être prioritaires sur l'exactitude, alors un score F1 sera plus utile que l'exactitude pour démontrer l'analyse de rentabilisation de tout ensemble de données déséquilibré.

39. Comment géreriez-vous un ensemble de données avec des inégalités ?

Un ensemble de données déséquilibré peut bénéficier de techniques d'échantillonnage. L'échantillonnage peut être effectué de manière sous-échantillonnée ou sur-échantillonnée.

Le sous-échantillonnage nous permet de réduire la taille de la classe majoritaire pour qu'elle corresponde à la classe minoritaire, ce qui contribue à augmenter la vitesse en ce qui concerne le stockage et l'exécution, mais peut également entraîner la perte de données précieuses.

Afin de remédier au problème de perte d'informations causée par le suréchantillonnage, nous suréchantillonnons la classe Minorité ; néanmoins, cela nous amène à rencontrer des problèmes de surajustement.

Les stratégies supplémentaires incluent :

Suréchantillonnage basé sur les clusters - Les instances des classes minoritaire et majoritaire sont soumises individuellement à la technique de clustering K-means dans cette situation. Ceci est fait pour trouver des clusters d'ensembles de données. Ensuite, chaque cluster est suréchantillonné afin que toutes les classes aient la même taille et que tous les clusters d'une classe aient un nombre égal d'instances.
SMOTE : Technique de suréchantillonnage synthétique des minorités - Une tranche de données de la classe minoritaire est utilisée comme exemple, après quoi des instances artificielles supplémentaires qui lui sont comparables sont produites et ajoutées à l'ensemble de données d'origine. Cette méthode fonctionne bien avec les points de données numériques.

40. Comment pouvez-vous faire la distinction entre le boosting et le bagging ?

Ensemble Techniques a des versions connues sous le nom de bagging et boosting.

Ensachage-

Pour les algorithmes à forte variation, le bagging est une technique utilisée pour réduire la variance. L'une de ces familles de classificateurs sujettes aux biais est la famille des arbres de décision.

Le type de données sur lesquelles les arbres de décision sont entraînés a un impact significatif sur leurs performances. De ce fait, même avec un réglage très fin, la généralisation des résultats est parfois beaucoup plus difficile à obtenir.

Si les données de formation des arbres de décision sont modifiées, les résultats varient considérablement.

En conséquence, le bagging est utilisé, dans lequel de nombreux arbres de décision sont créés, dont chacun est formé à l'aide d'un échantillon des données d'origine, et le résultat final est la moyenne de tous ces différents modèles.

Booster :

Le boosting est la technique qui consiste à faire des prédictions avec un système de classificateurs n-faibles dans lequel chaque classificateur faible compense les déficiences de ses classificateurs les plus forts. Nous appelons un classificateur qui fonctionne mal sur un ensemble de données donné un « classificateur faible ».

Le boosting est évidemment un processus plutôt qu'un algorithme. La régression logistique et les arbres de décision superficiels sont des exemples courants de classificateurs faibles.

Adaboost, Gradient Boosting et XGBoost sont les deux algorithmes de boost les plus populaires, mais il en existe bien d'autres.

41. Expliquez les différences entre l'apprentissage inductif et déductif.

Lors de l'apprentissage par l'exemple à partir d'un ensemble d'exemples observés, un modèle utilise l'apprentissage inductif pour arriver à une conclusion généralisée. En revanche, avec l'apprentissage déductif, le modèle utilise le résultat avant de former le sien.

L'apprentissage inductif est le processus qui consiste à tirer des conclusions à partir d'observations.

L'apprentissage déductif est le processus de création d'observations basées sur des inférences.

Conclusion

Félicitations! Ce sont les 40 meilleures questions d'entrevue et plus pour l'apprentissage automatique dont vous connaissez maintenant les réponses. Science des données et intelligence artificielle les professions continueront d'être en demande à mesure que la technologie progresse.

Les candidats qui mettent à jour leurs connaissances sur ces technologies de pointe et améliorent leurs compétences peuvent trouver une grande variété de possibilités d'emploi avec un salaire compétitif.

Vous pouvez continuer à répondre aux entretiens maintenant que vous avez une solide compréhension de la façon de répondre à certaines des questions d'entretien d'apprentissage automatique les plus fréquemment posées.

En fonction de vos objectifs, suivez l'étape suivante. Préparez-vous pour des entretiens en visitant Hashdork's Série d'entrevues.

Questions d'entretien de Machine Learning

Top 40+ des questions d'entretien sur l'apprentissage automatique