Más de 40 preguntas principales de entrevistas de aprendizaje automático (2024)

Índice del contenido[Esconder][Espectáculo]

1. Explique las diferencias entre el aprendizaje automático, la inteligencia artificial y el aprendizaje profundo.
2. Describa los diferentes tipos de aprendizaje automático.
3. ¿Cuál es el equilibrio entre sesgo y varianza?
4. Los algoritmos de aprendizaje automático han evolucionado significativamente con el tiempo. ¿Cómo se elige el algoritmo correcto para utilizar dado un conjunto de datos?
5. ¿En qué se diferencian la covarianza y la correlación?
6. En aprendizaje automático, ¿qué significa agrupamiento?
7. ¿Cuál es su algoritmo de aprendizaje automático preferido?
8. Regresión lineal en aprendizaje automático: ¿qué es?
9. Describa las diferencias entre KNN y el agrupamiento de k-medias.
10. ¿Qué significa para usted “sesgo de selección”?
11. ¿Qué es exactamente el Teorema de Bayes?
12. En un modelo de aprendizaje automático, ¿qué son el 'conjunto de entrenamiento' y el 'conjunto de prueba'?
13. ¿Qué es una hipótesis en el aprendizaje automático?
14. ¿Qué significa el sobreajuste del aprendizaje automático y cómo se puede prevenir?
15. ¿Qué son exactamente los clasificadores Naive Bayes?
16. ¿Qué significan las funciones de costo y las funciones de pérdida?
17. ¿Qué distingue un modelo generativo de un modelo discriminativo?
18. Describa las variaciones entre los errores de Tipo I y Tipo II.
19. En aprendizaje automático, ¿qué es la técnica de aprendizaje Ensemble?
20. ¿Qué son exactamente los modelos paramétricos? Da un ejemplo.
21. Describa el filtrado colaborativo. ¿Además del filtrado basado en contenido?
22. ¿Qué quiere decir exactamente con la serie temporal?
23. Describa las variaciones entre los algoritmos Gradient Boost y Random Forest.
24. ¿Por qué necesita una matriz de confusión? ¿Qué es?
25. ¿Qué es exactamente un análisis de componentes principales?
26. ¿Por qué la rotación de componentes es tan crucial para PCA (análisis de componentes principales)?
27. ¿Cómo difieren la regularización y la normalización?
28. ¿En qué se diferencian la normalización y la estandarización?
29. ¿Qué significa exactamente “factor de inflación de la varianza”?
30. Según el tamaño del conjunto de entrenamiento, ¿cómo elige un clasificador?
31. ¿Qué algoritmo en el aprendizaje automático se denomina "aprendiz perezoso" y por qué?
32. ¿Qué son la curva ROC y AUC?
33. ¿Qué son los hiperparámetros? ¿Qué los hace únicos de los parámetros del modelo?
34. ¿Qué significan la puntuación, el recuerdo y la precisión de F1?
35. ¿Qué es exactamente la validación cruzada?
36. Supongamos que descubrió que su modelo tiene una variación significativa. ¿Qué algoritmo, en su opinión, es el más adecuado para manejar esta situación?
37. ¿Qué distingue a la regresión de Ridge de la regresión de Lasso?
38. ¿Qué es más importante: el rendimiento del modelo o la precisión del modelo? ¿Cuál y por qué lo preferirás?
39. ¿Cómo manejarías un conjunto de datos con desigualdades?
40. ¿Cómo puedes distinguir entre boosting y bagging?
41. Explique las diferencias entre el aprendizaje inductivo y deductivo.
Conclusión

Las empresas están utilizando tecnología de punta, como la inteligencia artificial (IA) y el aprendizaje automático, para aumentar la accesibilidad de la información y los servicios para las personas.

Estas tecnologías están siendo adoptadas por una variedad de industrias, incluidas la banca, las finanzas, el comercio minorista, la fabricación y la atención médica.

Uno de los roles organizacionales más buscados que utilizan IA es para científicos de datos, ingenieros de inteligencia artificial, ingenieros de aprendizaje automático y analistas de datos.

Esta publicación lo guiará a través de una variedad de máquina de aprendizaje preguntas de la entrevista, desde básicas hasta complejas, para ayudarlo a prepararse para cualquier pregunta que le puedan hacer al buscar su trabajo ideal.

1. Explique las diferencias entre el aprendizaje automático, la inteligencia artificial y el aprendizaje profundo.

La inteligencia artificial emplea una variedad de enfoques de aprendizaje automático y aprendizaje profundo que permiten que los sistemas informáticos realicen tareas utilizando inteligencia similar a la humana con lógica y reglas.

El aprendizaje automático utiliza una variedad de estadísticas y enfoques de aprendizaje profundo para permitir que las máquinas aprendan de su desempeño anterior y se vuelvan más hábiles para realizar ciertas tareas por su cuenta sin supervisión humana.

Deep Learning es una colección de algoritmos que permite que el software aprenda de sí mismo y lleve a cabo una variedad de funciones comerciales, como reconocimiento de voz e imágenes.

Sistemas que exponen sus múltiples capas redes neuronales grandes cantidades de datos para el aprendizaje son capaces de hacer un aprendizaje profundo.

2. Describa los diferentes tipos de aprendizaje automático.

El aprendizaje automático existe en tres tipos diferentes en términos generales:

Aprendizaje supervisado: un modelo crea predicciones o juicios utilizando datos etiquetados o históricos en el aprendizaje automático supervisado. Los conjuntos de datos que se han etiquetado o rotulado para aumentar su significado se denominan datos etiquetados.
Aprendizaje no supervisado: no tenemos datos etiquetados para el aprendizaje no supervisado. En los datos entrantes, un modelo puede encontrar patrones, rarezas y correlaciones.
Aprendizaje por refuerzo: el modelo puede aprender usando refuerzo aprendizaje y las recompensas que obtuvo por su comportamiento anterior.

3. ¿Cuál es el equilibrio entre sesgo y varianza?

El sobreajuste es el resultado del sesgo, que es el grado en que un modelo se ajusta a los datos. El sesgo es causado por suposiciones incorrectas o demasiado simples en su algoritmo de aprendizaje automático.

La varianza se refiere a los errores causados por la complejidad en su algoritmo de ML, lo que produce sensibilidad a grandes grados de variación en los datos de entrenamiento y sobreajuste.

La varianza es cuánto varía un modelo dependiendo de las entradas.

En otras palabras, los modelos básicos son extremadamente sesgados pero estables (baja varianza). El sobreajuste es un problema con los modelos complejos, aunque sin embargo capturan la realidad del modelo (sesgo bajo).

Para evitar tanto la variación alta como el alto sesgo, es necesario un equilibrio entre el sesgo y la varianza para lograr la mejor reducción de errores.

4. Los algoritmos de aprendizaje automático han evolucionado significativamente con el tiempo. ¿Cómo se elige el algoritmo correcto para utilizar dado un conjunto de datos?

La técnica de aprendizaje automático que debe utilizarse solo depende del tipo de datos en un conjunto de datos específico.

Cuando los datos son lineales, se utiliza la regresión lineal. El método de embolsado funcionaría mejor si los datos indicaran no linealidad. Podemos utilizar árboles de decisión o SVM si los datos deben evaluarse o interpretarse con fines comerciales.

Las redes neuronales pueden ser útiles para obtener una respuesta precisa si el conjunto de datos incluye fotos, videos y audio.

La elección del algoritmo para una determinada circunstancia o recopilación de datos no se puede hacer solo en una sola medida.

Con el objetivo de desarrollar el método de mejor ajuste, primero debemos examinar los datos mediante el análisis exploratorio de datos (EDA) y comprender el objetivo de utilizar el conjunto de datos.

5. ¿En qué se diferencian la covarianza y la correlación?

La covarianza evalúa cómo dos variables están conectadas entre sí y cómo una podría cambiar en respuesta a cambios en la otra.

Si el resultado es positivo, indica que existe un vínculo directo entre las variables y que una aumentaría o disminuiría con un aumento o disminución en la variable base, asumiendo que todas las demás condiciones se mantienen constantes.

La correlación mide el vínculo entre dos variables aleatorias y tiene solo tres valores distintos: 1, 0 y -1.

6. En aprendizaje automático, ¿qué significa agrupamiento?

Los métodos de aprendizaje no supervisados que agrupan puntos de datos se denominan agrupación. Con una colección de puntos de datos, se puede aplicar la técnica de agrupamiento.

Puede agrupar todos los puntos de datos según sus funciones utilizando esta estrategia.

Las características y cualidades de los puntos de datos que caen en la misma categoría son similares, mientras que las de los puntos de datos que caen en grupos separados son diferentes.

Este enfoque se puede utilizar para analizar datos estadísticos.

7. ¿Cuál es su algoritmo de aprendizaje automático preferido?

Tiene la oportunidad de demostrar sus preferencias y talentos únicos en esta pregunta, así como su amplio conocimiento de numerosas técnicas de aprendizaje automático.

Aquí hay algunos algoritmos típicos de aprendizaje automático para pensar:

Regresión lineal
Regresión logística
Bayes ingenuos
Árboles de decisión
K significa
Algoritmo de bosque aleatorio
K-vecino más cercano (KNN)

8. Regresión lineal en aprendizaje automático: ¿qué es?

Un algoritmo de aprendizaje automático supervisado es la regresión lineal.

Se emplea en el análisis predictivo para determinar la conexión lineal entre las variables dependientes e independientes.

La ecuación de la regresión lineal es la siguiente:

Y = A + BX

dónde:

La variable de entrada o independiente se llama X.
La variable dependiente o de salida es Y.
El coeficiente de X es b, y su intersección es a.

9. Describa las diferencias entre KNN y el agrupamiento de k-medias.

La distinción principal es que KNN (un método de clasificación, aprendizaje supervisado) necesita puntos etiquetados, mientras que k-means no (algoritmo de agrupamiento, aprendizaje no supervisado).

Puede clasificar los datos etiquetados en un punto sin etiqueta mediante el uso de K-vecinos más cercanos. El agrupamiento de K-medias utiliza la distancia promedio entre puntos para aprender a agrupar puntos sin etiquetar.

10. ¿Qué significa para usted “sesgo de selección”?

El sesgo en la fase de muestreo de un experimento se debe a la inexactitud estadística.

Un grupo de muestra se elige con más frecuencia que los otros grupos en el experimento como resultado de la inexactitud.

Si no se reconoce el sesgo de selección, podría dar lugar a una conclusión incorrecta.

11. ¿Qué es exactamente el Teorema de Bayes?

Cuando somos conscientes de otras probabilidades, podemos determinar una probabilidad usando el teorema de Bayes. Ofrece la probabilidad posterior de una ocurrencia basada en información previa, en otras palabras.

Este teorema proporciona un método sólido para estimar probabilidades condicionales.

Al desarrollar problemas de modelado predictivo de clasificación y ajustar un modelo a un entrenamiento conjunto de datos en aprendizaje automático, se aplica el teorema de Bayes (es decir, Naive Bayes, clasificador óptimo de Bayes).

12. En un modelo de aprendizaje automático, ¿qué son el 'conjunto de entrenamiento' y el 'conjunto de prueba'?

Conjunto de entrenamiento:

El conjunto de entrenamiento consta de instancias que se envían al modelo para su análisis y aprendizaje.
Estos son los datos etiquetados que se utilizarán para entrenar el modelo.
Por lo general, el 70 % de los datos totales se utiliza como conjunto de datos de entrenamiento.

Equipo de prueba:

El conjunto de prueba se utiliza para evaluar la precisión de generación de hipótesis del modelo.
Probamos sin datos etiquetados y luego usamos etiquetas para confirmar los resultados.
El 30% restante se utiliza como conjunto de datos de prueba.

13. ¿Qué es una hipótesis en el aprendizaje automático?

El aprendizaje automático permite el uso de conjuntos de datos existentes para comprender mejor una función determinada que vincula la entrada con la salida. Esto se conoce como aproximación de funciones.

En este caso, se debe emplear la aproximación para que la función objetivo desconocida transfiera todas las observaciones imaginables basadas en la situación dada de la mejor manera posible.

En el aprendizaje automático, una hipótesis es un modelo que ayuda a estimar la función objetivo y completar las asignaciones de entrada a salida adecuadas.

La selección y diseño de algoritmos permite definir el espacio de posibles hipótesis que pueden ser representadas por un modelo.

Para una sola hipótesis, se usa h minúscula (h), pero h mayúscula (H) se usa para todo el espacio de hipótesis que se busca. Revisaremos brevemente estas notaciones:

Una hipótesis (h) es un modelo particular que facilita el mapeo de entrada a salida, que posteriormente puede usarse para evaluación y predicción.
Un conjunto de hipótesis (H) es un espacio de búsqueda de hipótesis que se puede utilizar para asignar entradas a salidas. El encuadre de problemas, el modelo y la configuración del modelo son algunos ejemplos de limitaciones genéricas.

14. ¿Qué significa el sobreajuste del aprendizaje automático y cómo se puede prevenir?

Cuando una máquina intenta aprender de un conjunto de datos insuficiente, se produce un sobreajuste.

Como resultado, el sobreajuste está inversamente correlacionado con el volumen de datos. El enfoque de validación cruzada permite evitar el sobreajuste para conjuntos de datos pequeños. Un conjunto de datos se divide en dos partes en este método.

El conjunto de datos para pruebas y entrenamiento constará de estas dos partes. El conjunto de datos de entrenamiento se usa para crear un modelo, mientras que el conjunto de datos de prueba se usa para evaluar el modelo usando diferentes entradas.

Así es como se evita el sobreajuste.

15. ¿Qué son exactamente los clasificadores Naive Bayes?

Varios métodos de clasificación conforman los clasificadores Naive Bayes. Un conjunto de algoritmos conocidos como estos clasificadores trabajan todos sobre la misma idea fundamental.

La suposición hecha por los clasificadores ingenuos de Bayes es que la presencia o ausencia de una característica no tiene relación con la presencia o ausencia de otra característica.

En otras palabras, esto es a lo que nos referimos como "ingenuo", ya que asume que cada atributo del conjunto de datos es igualmente significativo e independiente.

La clasificación se realiza utilizando clasificadores bayesianos ingenuos. Son fáciles de usar y producen mejores resultados que predictores más complejos cuando la premisa de independencia es cierta.

Se emplean en análisis de texto, filtrado de spam y sistemas de recomendación.

16. ¿Qué significan las funciones de costo y las funciones de pérdida?

La frase "función de pérdida" se refiere al proceso de calcular la pérdida cuando solo se tiene en cuenta un dato.

Por el contrario, utilizamos la función de costo para determinar la cantidad total de errores para numerosos datos. No existe una distinción significativa.

En otras palabras, mientras que las funciones de costo agregan la diferencia para todo el conjunto de datos de entrenamiento, las funciones de pérdida están diseñadas para capturar la diferencia entre los valores reales y predichos para un solo registro.

17. ¿Qué distingue un modelo generativo de un modelo discriminativo?

Un modelo discriminativo aprende las diferencias entre varias categorías de datos. Un modelo generativo recoge diferentes tipos de datos.

En problemas de clasificación, los modelos discriminativos a menudo superan a otros modelos.

18. Describa las variaciones entre los errores de Tipo I y Tipo II.

Los falsos positivos se incluyen en la categoría de errores de tipo I, mientras que los falsos negativos se incluyen en los errores de tipo II (afirmar que no ha sucedido nada cuando en realidad sucedió).

19. En aprendizaje automático, ¿qué es la técnica de aprendizaje Ensemble?

Una técnica llamada aprendizaje conjunto combina muchos modelos de aprendizaje automático para producir modelos más potentes.

Un modelo puede ser variado por una variedad de razones. Varias causas son:

Varias Poblaciones
Varias Hipótesis
Varios métodos de modelado

Encontraremos un problema al usar los datos de prueba y entrenamiento del modelo. El sesgo, la varianza y el error irreducible son tipos posibles de este error.

Ahora, llamamos a este equilibrio entre el sesgo y la varianza en el modelo una compensación entre el sesgo y la varianza, y siempre debería existir. Esta compensación se logra mediante el uso del aprendizaje conjunto.

Aunque hay varios enfoques de conjuntos disponibles, hay dos estrategias comunes para combinar muchos modelos:

Un enfoque nativo llamado embolsado usa el conjunto de entrenamiento para producir conjuntos de entrenamiento adicionales.
Impulso, una técnica más sofisticada: al igual que el embolsado, el impulso se utiliza para encontrar la fórmula de ponderación ideal para un conjunto de entrenamiento.

20. ¿Qué son exactamente los modelos paramétricos? Da un ejemplo.

Hay una cantidad limitada de parámetros en los modelos paramétricos. Para pronosticar datos, todo lo que necesita saber son los parámetros del modelo.

Los siguientes son ejemplos típicos: regresión logística, regresión lineal y SVM lineales. Los modelos no paramétricos son flexibles ya que pueden contener un número ilimitado de parámetros.

Los parámetros del modelo y el estado de los datos observados son necesarios para las predicciones de datos. Estos son algunos ejemplos típicos: modelos de tema, árboles de decisión y k-vecinos más cercanos.

21. Describa el filtrado colaborativo. ¿Además del filtrado basado en contenido?

Un método comprobado para crear sugerencias de contenido personalizadas es el filtrado colaborativo.

Una forma de sistema de recomendación llamado filtrado colaborativo predice material nuevo al equilibrar las preferencias del usuario con los intereses compartidos.

Las preferencias de los usuarios son lo único que tienen en cuenta los sistemas de recomendación basados en contenido. A la luz de las selecciones anteriores del usuario, se proporcionan nuevas recomendaciones de material relacionado.

22. ¿Qué quiere decir exactamente con la serie temporal?

Una serie de tiempo es una colección de números en orden ascendente. Durante un período de tiempo predeterminado, monitorea el movimiento de los puntos de datos seleccionados y captura periódicamente los puntos de datos.

No hay entrada de tiempo mínimo o máximo para series de tiempo.

Los analistas utilizan con frecuencia series de tiempo para analizar datos de acuerdo con sus requisitos únicos.

23. Describa las variaciones entre los algoritmos Gradient Boost y Random Forest.

Bosque aleatorio:

Una gran cantidad de árboles de decisión se agrupan al final y se conocen como bosques aleatorios.
Mientras que el aumento de gradiente produce cada árbol independientemente de los demás, el bosque aleatorio construye cada árbol de uno en uno.
multiclase detección de objetos funciona bien con bosques aleatorios.

Aumento de gradiente:

Mientras que los bosques aleatorios se unen a los árboles de decisión al final del proceso, las máquinas de aumento de gradiente los combinan desde el principio.
Si los parámetros se ajustan adecuadamente, el aumento de gradiente supera a los bosques aleatorios en términos de resultados, pero no es una opción inteligente si el conjunto de datos tiene muchos valores atípicos, anomalías o ruido, ya que podría hacer que el modelo se sobreajuste.
Cuando hay datos desequilibrados, como ocurre en la evaluación de riesgos en tiempo real, el aumento de gradiente funciona bien.

24. ¿Por qué necesita una matriz de confusión? ¿Qué es?

Una tabla conocida como matriz de confusión, a veces conocida como matriz de error, se usa ampliamente para mostrar qué tan bien se desempeña un modelo de clasificación, o clasificador, en un conjunto de datos de prueba para los cuales se conocen los valores reales.

Nos permite ver cómo funciona un modelo o algoritmo. Nos facilita detectar malentendidos entre varios cursos.

Sirve como una forma de evaluar qué tan bien se realiza un modelo o algoritmo.

Las predicciones de un modelo de clasificación se compilan en una matriz de confusión. Los valores de conteo de cada etiqueta de clase se usaron para desglosar el número total de predicciones correctas e incorrectas.

Proporciona detalles sobre las fallas cometidas por el clasificador, así como los diferentes tipos de errores causados por los clasificadores.

25. ¿Qué es exactamente un análisis de componentes principales?

Al minimizar el número de variables que están correlacionadas entre sí, el objetivo es minimizar la dimensionalidad de la recopilación de datos. Pero es importante mantener la diversidad tanto como sea posible.

Las variables se transforman en un conjunto completamente nuevo de variables denominado componentes principales.

Estos PC son ortogonales ya que son vectores propios de una matriz de covarianza.

26. ¿Por qué la rotación de componentes es tan crucial para PCA (análisis de componentes principales)?

La rotación es crucial en PCA porque optimiza la separación entre las varianzas obtenidas por cada componente, simplificando la interpretación de los componentes.

Requerimos componentes extendidos para expresar la variación de los componentes si los componentes no están rotados.

27. ¿Cómo difieren la regularización y la normalización?

Normalización:

Los datos se modifican durante la normalización. Debe normalizar los datos si tienen escalas que son drásticamente diferentes, especialmente de menor a mayor. Ajuste cada columna para que las estadísticas fundamentales sean todas compatibles.

Para asegurarse de que no hay pérdida de precisión, esto puede ser útil. Detectar la señal ignorando el ruido es uno de los objetivos del entrenamiento de modelos.

Existe la posibilidad de sobreajuste si se le da al modelo un control completo para reducir el error.

Regularización:

En la regularización, la función de predicción se modifica. Esto está sujeto a cierto control a través de la regularización, lo que favorece las funciones de ajuste más simples sobre las complicadas.

28. ¿En qué se diferencian la normalización y la estandarización?

Las dos técnicas más utilizadas para el escalado de características son la normalización y la estandarización.

Normalización:

Cambiar la escala de los datos para adaptarse a un rango [0,1] se conoce como normalización.
Cuando todos los parámetros deben tener la misma escala positiva, la normalización es útil, pero los valores atípicos del conjunto de datos se pierden.

Regularización:

Los datos se vuelven a escalar para tener una media de 0 y una desviación estándar de 1 como parte del proceso de estandarización (varianza de la unidad)

29. ¿Qué significa exactamente “factor de inflación de la varianza”?

La relación entre la varianza del modelo y la varianza del modelo con una sola variable independiente se conoce como factor de inflación de variación (VIF).

VIF estima la cantidad de multicolinealidad presente en un conjunto de varias variables de regresión.

Varianza del modelo (VIF) Modelo con varianza de una variable independiente

30. Según el tamaño del conjunto de entrenamiento, ¿cómo elige un clasificador?

Un modelo de alto sesgo y baja varianza funciona mejor para un conjunto de entrenamiento corto, ya que es menos probable que se produzca un sobreajuste. Naive Bayes es un ejemplo.

Para representar interacciones más complicadas para un gran conjunto de entrenamiento, es preferible un modelo con bajo sesgo y alta varianza. La regresión logística es un buen ejemplo.

31. ¿Qué algoritmo en el aprendizaje automático se denomina "aprendiz perezoso" y por qué?

Un estudiante lento, KNN es un algoritmo de aprendizaje automático. Debido a que K-NN calcula dinámicamente la distancia cada vez que desea clasificar en lugar de aprender valores o variables aprendidos por máquina de los datos de entrenamiento, memoriza el conjunto de datos de entrenamiento.

Esto hace que K-NN sea un estudiante perezoso.

32. ¿Qué son la curva ROC y AUC?

El rendimiento de un modelo de clasificación en todos los umbrales se representa gráficamente mediante la curva ROC. Tiene criterios de tasa de verdaderos positivos y de tasa de falsos positivos.

En pocas palabras, el área bajo la curva ROC se conoce como AUC (Área bajo la curva ROC). Se mide el área bidimensional de la curva ROC desde (0,0) hasta AUC (1,1). Para evaluar modelos de clasificación binaria, se emplea como estadística de rendimiento.

33. ¿Qué son los hiperparámetros? ¿Qué los hace únicos de los parámetros del modelo?

Una variable interna del modelo se conoce como parámetro del modelo. Utilizando datos de entrenamiento, se aproxima el valor de un parámetro.

Desconocido para el modelo, un hiperparámetro es una variable. El valor no se puede determinar a partir de los datos, por lo que se emplean con frecuencia para calcular los parámetros del modelo.

34. ¿Qué significan la puntuación, el recuerdo y la precisión de F1?

La medida de confusión es la métrica empleada para medir la eficacia del modelo de clasificación. Las siguientes frases se pueden utilizar para explicar mejor la métrica de confusión:

TP: Verdaderos positivos: estos son los valores positivos que se anticiparon correctamente. Sugiere que los valores de la clase proyectada y la clase real son positivos.

TN: Verdaderos negativos: estos son los valores adversos que se pronosticaron con precisión. Sugiere que tanto el valor de la clase real como el de la clase anticipada son negativos.

Estos valores (falsos positivos y falsos negativos) ocurren cuando su clase real difiere de la clase anticipada.

Ahora,

La relación entre la tasa de verdaderos positivos (TP) y todas las observaciones realizadas en la clase real se denomina recuperación, también conocida como sensibilidad.

La recuperación es TP/(TP+FN).

La precisión es una medida del valor predictivo positivo, que compara la cantidad de positivos que el modelo realmente predice con la cantidad de positivos correctos que predice con precisión.

La precisión es TP/(TP + FP)

La métrica de rendimiento más fácil de entender es la precisión, que es solo la proporción de observaciones pronosticadas correctamente con respecto a todas las observaciones.

La precisión es igual a (TP+TN)/(TP+FP+FN+TN).

La precisión y la recuperación se ponderan y promedian para proporcionar la puntuación F1. Como resultado, esta puntuación considera tanto los falsos positivos como los falsos negativos.

La F1 suele ser más valiosa que la precisión, especialmente si tiene una distribución de clases desigual, incluso si intuitivamente no es tan fácil de comprender como la precisión.

La mejor precisión se logra cuando el costo de los falsos positivos y los falsos negativos es comparable. Es preferible incluir Precisión y Recuperación si los costos asociados con los falsos positivos y los falsos negativos difieren significativamente.

35. ¿Qué es exactamente la validación cruzada?

Un enfoque de remuestreo estadístico llamado validación cruzada en el aprendizaje automático emplea varios subconjuntos de conjuntos de datos para entrenar y evaluar un algoritmo de aprendizaje automático en varias rondas.

Un nuevo lote de datos que no se usó para entrenar el modelo se prueba mediante validación cruzada para ver qué tan bien lo predice el modelo. El sobreajuste de datos se evita mediante la validación cruzada.

K-Fold El método de remuestreo más utilizado divide el conjunto de datos completo en K conjuntos de tamaños iguales. Se llama validación cruzada.

36. Supongamos que descubrió que su modelo tiene una variación significativa. ¿Qué algoritmo, en su opinión, es el más adecuado para manejar esta situación?

Manejo de alta variabilidad

Deberíamos usar la técnica de ensacado para problemas con grandes variaciones.

El algoritmo de embolsado utilizaría muestreos repetidos de datos aleatorios para dividir los datos en subgrupos. Una vez que se han dividido los datos, podemos utilizar datos aleatorios y un procedimiento de entrenamiento específico para generar reglas.

Después de eso, se podría usar el sondeo para combinar las predicciones del modelo.

37. ¿Qué distingue a la regresión de Ridge de la regresión de Lasso?

Dos métodos de regularización ampliamente utilizados son la regresión Lasso (también llamada L1) y Ridge (a veces llamada L2). Se utilizan para evitar el sobreajuste de datos.

Con el fin de descubrir la mejor solución y minimizar la complejidad, estas técnicas se emplean para castigar los coeficientes. Al penalizar el total de los valores absolutos de los coeficientes, opera la regresión de Lasso.

La función de penalización en la regresión Ridge o L2 se deriva de la suma de los cuadrados de los coeficientes.

38. ¿Qué es más importante: el rendimiento del modelo o la precisión del modelo? ¿Cuál y por qué lo preferirás?

Esta es una pregunta engañosa, por lo que primero se debe entender qué es Model Performance. Si el rendimiento se define como velocidad, depende del tipo de aplicación; cualquier aplicación que involucre una situación en tiempo real requeriría alta velocidad como componente crucial.

Por ejemplo, los mejores resultados de búsqueda serán menos valiosos si los resultados de la consulta tardan demasiado en llegar.

Si se utiliza el rendimiento como justificación de por qué la precisión y la recuperación deben priorizarse por encima de la precisión, entonces una puntuación F1 será más útil que la precisión para demostrar el caso comercial de cualquier conjunto de datos que esté desequilibrado.

39. ¿Cómo manejarías un conjunto de datos con desigualdades?

Un conjunto de datos desequilibrado puede beneficiarse de las técnicas de muestreo. El muestreo se puede realizar de forma submuestreada o sobremuestreada.

Under Sampling nos permite reducir el tamaño de la clase mayoritaria para que coincida con la clase minoritaria, lo que ayuda a aumentar la velocidad con respecto al almacenamiento y la ejecución en tiempo de ejecución, pero también puede provocar la pérdida de datos valiosos.

Para remediar el problema de la pérdida de información causada por el sobremuestreo, aumentamos el muestreo de la clase Minoritario; sin embargo, esto hace que nos encontremos con problemas de sobreajuste.

Las estrategias adicionales incluyen:

Sobremuestreo basado en conglomerados: las instancias de clase mayoritaria y minoritaria se someten individualmente a la técnica de conglomerado de K-medias en esta situación. Esto se hace para encontrar grupos de conjuntos de datos. Luego, se sobremuestrea cada clúster para que todas las clases tengan el mismo tamaño y todos los clústeres dentro de una clase tengan el mismo número de instancias.
SMOTE: técnica de sobremuestreo de minorías sintéticas: se utiliza como ejemplo una porción de datos de la clase minoritaria, después de lo cual se producen instancias artificiales adicionales que son comparables y se agregan al conjunto de datos original. Este método funciona bien con puntos de datos numéricos.

40. ¿Cómo puedes distinguir entre boosting y bagging?

Las técnicas de conjunto tienen versiones conocidas como embolsado y refuerzo.

Harpillera-

Para algoritmos con una variación alta, el embolsado es una técnica utilizada para reducir la varianza. Una de esas familias de clasificadores que es propensa al sesgo es la familia de árboles de decisión.

El tipo de datos con los que se entrenan los árboles de decisión tiene un impacto significativo en su rendimiento. Debido a esto, incluso con un ajuste fino muy alto, la generalización de los resultados a veces es mucho más difícil de obtener en ellos.

Si se alteran los datos de entrenamiento de los árboles de decisión, los resultados varían sustancialmente.

Como consecuencia, se utiliza el embolsado, en el que se crean muchos árboles de decisión, cada uno de los cuales se entrena con una muestra de los datos originales, y el resultado final es el promedio de todos estos modelos diferentes.

Impulso:

El impulso es la técnica de hacer predicciones con un sistema clasificador n-débil en el que cada clasificador débil compensa las deficiencias de sus clasificadores más fuertes. Nos referimos a un clasificador que funciona mal en un conjunto de datos dado como un "clasificador débil".

El impulso es obviamente un proceso más que un algoritmo. La regresión logística y los árboles de decisión poco profundos son ejemplos comunes de clasificadores débiles.

Adaboost, Gradient Boosting y XGBoost son los dos algoritmos de impulso más populares, sin embargo, hay muchos más.

41. Explique las diferencias entre el aprendizaje inductivo y deductivo.

Al aprender con el ejemplo de un conjunto de ejemplos observados, un modelo utiliza el aprendizaje inductivo para llegar a una conclusión generalizada. En cambio, con el aprendizaje deductivo, el modelo utiliza el resultado antes de formar el suyo propio.

El aprendizaje inductivo es el proceso de sacar conclusiones de las observaciones.

El aprendizaje deductivo es el proceso de crear observaciones basadas en inferencias.

Conclusión

¡Felicitaciones! Estas son las 40 preguntas principales y superiores de la entrevista para el aprendizaje automático cuyas respuestas ahora conoce. ciencia de datos y inteligencia artificial las ocupaciones seguirán teniendo demanda a medida que avance la tecnología.

Los candidatos que actualicen su conocimiento de estas tecnologías de vanguardia y mejoren su conjunto de habilidades pueden encontrar una amplia variedad de posibilidades de empleo con salarios competitivos.

Puede continuar respondiendo las entrevistas ahora que tiene una sólida comprensión de cómo responder a algunas de las preguntas de entrevistas de aprendizaje automático más frecuentes.

Dependiendo de tus objetivos, da el siguiente paso. Prepárese para las entrevistas visitando Hashdork's Serie de entrevistas.

Preguntas de la entrevista sobre aprendizaje automático

Las más de 40 preguntas principales de entrevistas sobre aprendizaje automático