As 40+ preguntas de entrevista de aprendizaxe automática (2024)

Índice analítico[Ocultar][Mostrar]

1. Explica as diferenzas entre a aprendizaxe automática, a intelixencia artificial e a aprendizaxe profunda.
2. Describe os diferentes tipos de aprendizaxe automática.
3. Cal é a compensación de sesgo e varianza?
4. Os algoritmos de aprendizaxe automática evolucionaron significativamente ao longo do tempo. Como se elixe o algoritmo correcto para utilizar dado un conxunto de datos?
5. En que se diferencian a covarianza e a correlación?
6. Na aprendizaxe automática, que significa agrupación?
7. Cal é o teu algoritmo de aprendizaxe automática preferido?
8. Regresión lineal na aprendizaxe automática: que é?
9. Describe as diferenzas entre a agrupación KNN e k-means.
10. Que significa para ti o "sesgo de selección"?
11. Que é exactamente o teorema de Bayes?
12. Nun modelo de aprendizaxe automática, que son "conxunto de adestramento" e "conxunto de proba"?
13. Que é unha hipótese na aprendizaxe automática?
14. Que significa a sobreadaptación da aprendizaxe automática e como se pode previr?
15. Que son exactamente os clasificadores naive Bayes?
16. Que significan as funcións de custo e as funcións de perda?
17. Que distingue un modelo xenerativo dun modelo discriminativo?
18. Describe as variacións entre os erros do tipo I e do tipo II.
19. Na aprendizaxe automática, que é a técnica de aprendizaxe de Ensemble?
20. Que son exactamente os modelos paramétricos? Dar unha instancia.
21. Describe o filtrado colaborativo. Así como o filtrado baseado no contido?
22. Que queres dicir exactamente coa serie Time?
23. Describe as variacións entre os algoritmos Gradient Boosting e Random Forest.
24. Por que necesitas unha matriz de confusión? Que é?
25. Que é exactamente unha análise de compoñentes principais?
26. Por que é tan crucial a rotación de compoñentes para a PCA (análise de compoñentes principais)?
27. Como varían a regularización e a normalización?
28. En que se diferencian a normalización e a estandarización?
29. Que significa exactamente "factor de inflación da varianza"?
30. Segundo o tamaño do conxunto de adestramento, como elixes un clasificador?
31. A que algoritmo na aprendizaxe automática se denomina "aprendiz preguiceiro" e por que?
32. Que son a curva ROC e AUC?
33. Que son os hiperparámetros? Que os fai únicos a partir dos parámetros do modelo?
34. Que significan a puntuación, a lembranza e a precisión da F1?
35. Que é exactamente a validación cruzada?
36. Digamos que descubriches que o teu modelo ten unha variación significativa. Que algoritmo, na túa opinión, é máis axeitado para xestionar esta situación?
37. Que distingue a regresión de Ridge da regresión de Lasso?
38. Que é máis importante: o rendemento do modelo ou a precisión do modelo? Cal e por que favorecerá?
39. Como xestionarías un conxunto de datos con desigualdades?
40. Como podes distinguir entre impulsar e ensacar?
41. Explica as diferenzas entre aprendizaxe indutiva e dedutiva.
Conclusión

As empresas están utilizando tecnoloxía de punta, como a intelixencia artificial (IA) e a aprendizaxe automática, para aumentar a accesibilidade da información e dos servizos aos individuos.

Estas tecnoloxías están a ser adoptadas por unha variedade de industrias, incluíndo a banca, as finanzas, o comercio polo miúdo, a fabricación e a saúde.

Un dos roles organizativos máis demandados que utilizan a IA é para científicos de datos, enxeñeiros de intelixencia artificial, enxeñeiros de aprendizaxe automática e analistas de datos.

Esta publicación guiarache a través dunha variedade de aprendizaxe de máquina preguntas de entrevista, desde as básicas ata as complexas, para axudarche a prepararte para calquera dúbida que che poidas facer cando buscas o teu traballo ideal.

1. Explica as diferenzas entre a aprendizaxe automática, a intelixencia artificial e a aprendizaxe profunda.

A intelixencia artificial emprega unha variedade de enfoques de aprendizaxe automática e aprendizaxe profunda que permiten que os sistemas informáticos realicen tarefas utilizando intelixencia humana con lóxica e regras.

A aprendizaxe automática utiliza unha variedade de estatísticas e enfoques de aprendizaxe profunda para permitir que as máquinas aprendan do seu rendemento anterior e sexan máis hábiles para realizar determinadas tarefas por si mesmas sen supervisión humana.

Deep Learning é unha colección de algoritmos que permite que o software aprenda de si mesmo e realice unha variedade de funcións comerciais, como o recoñecemento de voz e imaxe.

Sistemas que expoñen a súa multicapa redes neuronales a grandes cantidades de datos para a aprendizaxe son capaces de facer unha aprendizaxe profunda.

2. Describe os diferentes tipos de aprendizaxe automática.

A aprendizaxe automática existe en tres tipos diferentes:

Aprendizaxe supervisada: un modelo crea predicións ou xuízos utilizando datos etiquetados ou históricos na aprendizaxe automática supervisada. Os conxuntos de datos que foron etiquetados ou etiquetados para aumentar o seu significado denomínanse datos etiquetados.
Aprendizaxe non supervisada: non temos datos etiquetados para a aprendizaxe sen supervisión. Nos datos entrantes, un modelo pode atopar patróns, rarezas e correlacións.
Aprendizaxe por reforzo: O modelo pode aprender usando o reforzo aprendizaxe e as recompensas que obtivo polo seu comportamento anterior.

3. Cal é a compensación de sesgo e varianza?

O sobreajuste é o resultado do sesgo, que é o grao en que un modelo se adapta aos datos. O sesgo é causado por suposicións incorrectas ou demasiado simples no teu algoritmo de aprendizaxe automática.

A varianza refírese a erros causados pola complexidade do teu algoritmo de ML, o que produce sensibilidade a grandes graos de variación nos datos de adestramento e a sobreadaptación.

A varianza é canto varía un modelo dependendo das entradas.

Noutras palabras, os modelos básicos son extremadamente sesgados pero estables (varianza baixa). O sobreajuste é un problema con modelos complexos, aínda que captan a realidade do modelo (baixo sesgo).

Para evitar unha variación elevada e un sesgo elevado, é necesario un intercambio entre sesgo e varianza para a mellor redución de erros.

4. Os algoritmos de aprendizaxe automática evolucionaron significativamente ao longo do tempo. Como se elixe o algoritmo correcto para utilizar dado un conxunto de datos?

A técnica de aprendizaxe automática que se debe utilizar só depende do tipo de datos dun conxunto de datos específico.

Cando os datos son lineais, utilízase a regresión lineal. O método de ensacado funcionaría mellor se os datos indicasen non linealidade. Podemos utilizar árbores de decisión ou SVM se os datos teñen que ser avaliados ou interpretados con fins comerciais.

As redes neuronais poden ser útiles para obter unha resposta precisa se o conxunto de datos inclúe fotos, vídeos e audio.

A elección do algoritmo para unha circunstancia específica ou a recollida de datos non se pode facer só nunha soa medida.

Co obxectivo de desenvolver o método de mellor axuste, primeiro debemos examinar os datos mediante a análise exploratoria de datos (EDA) e comprender o obxectivo de utilizar o conxunto de datos.

5. En que se diferencian a covarianza e a correlación?

A covarianza avalía como dúas variables están conectadas entre si e como pode cambiar unha en resposta aos cambios na outra.

Se o resultado é positivo, indica que existe un vínculo directo entre as variables e que unha aumentaría ou diminuiría cun aumento ou diminución da variable base, asumindo que todas as demais condicións permanecen constantes.

A correlación mide a conexión entre dúas variables aleatorias e só ten tres valores distintos: 1, 0 e -1.

6. Na aprendizaxe automática, que significa agrupación?

Os métodos de aprendizaxe non supervisados que agrupan puntos de datos chámanse agrupación. Cunha colección de puntos de datos, pódese aplicar a técnica de agrupación.

Podes agrupar todos os puntos de datos segundo as súas funcións usando esta estratexia.

As características e calidades dos puntos de datos que pertencen á mesma categoría son similares, mentres que as dos puntos de datos que se atopan en agrupacións separadas son diferentes.

Este enfoque pódese utilizar para analizar datos estatísticos.

7. Cal é o teu algoritmo de aprendizaxe automática preferido?

Tes a oportunidade de demostrar as túas preferencias e talentos únicos nesta pregunta, así como o teu amplo coñecemento de numerosas técnicas de aprendizaxe automática.

Aquí tes algúns algoritmos típicos de aprendizaxe automática nos que pensar:

Regresión lineal
Regresión loxística
Bayes inxenuo
Árbores de decisión
K significa
Algoritmo forestal aleatorio
K-veciño máis próximo (KNN)

8. Regresión lineal na aprendizaxe automática: que é?

Un algoritmo de aprendizaxe automática supervisado é a regresión lineal.

Emprégase na análise preditiva para determinar a conexión lineal entre as variables dependentes e independentes.

A ecuación da regresión lineal é a seguinte:

Y = A + BX

onde:

A entrada ou variable independente chámase X.
A variable dependente ou de saída é Y.
O coeficiente de X é b e a súa intersección é a.

9. Describe as diferenzas entre a agrupación KNN e k-means.

A distinción principal é que KNN (un método de clasificación, aprendizaxe supervisada) necesita puntos etiquetados mentres que k-means non (algoritmo de agrupación, aprendizaxe non supervisada).

Podes clasificar os datos etiquetados nun punto sen etiquetar usando K-Nearest Neighbors. A agrupación de K-means usa a distancia media entre puntos para aprender a agrupar puntos sen etiquetar.

10. Que significa para ti o "sesgo de selección"?

O sesgo na fase de mostraxe dun experimento débese á imprecisión estatística.

Un grupo de mostra escóllese con máis frecuencia que os outros grupos no experimento como resultado da imprecisión.

Se non se recoñece o sesgo de selección, pode producirse unha conclusión incorrecta.

11. Que é exactamente o teorema de Bayes?

Cando somos conscientes doutras probabilidades, podemos determinar unha probabilidade usando o teorema de Bayes. Ofrece a probabilidade posterior dunha ocorrencia baseada en información previa, noutras palabras.

Este teorema proporciona un método sólido para estimar probabilidades condicionais.

Ao desenvolver problemas de modelado preditivo de clasificación e axustar un modelo a unha formación conxunto de datos na aprendizaxe automática, aplícase o teorema de Bayes (é dicir, Naive Bayes, Bayes Optimal Classifier).

12. Nun modelo de aprendizaxe automática, que son "conxunto de adestramento" e "conxunto de proba"?

Set de adestramento:

O conxunto de formación consta de instancias que se envían ao modelo para a súa análise e aprendizaxe.
Estes son os datos etiquetados que se utilizarán para adestrar o modelo.
Normalmente, o 70% dos datos totais utilízase como conxunto de datos de adestramento.

Set de proba:

O conxunto de probas úsase para avaliar a precisión de xeración de hipótese do modelo.
Probamos sen datos etiquetados e despois utilizamos etiquetas para confirmar os resultados.
O 30% restante úsase como conxunto de datos de proba.

13. Que é unha hipótese na aprendizaxe automática?

A aprendizaxe automática permite o uso de conxuntos de datos existentes para comprender mellor unha función determinada que vincula a entrada coa saída. Isto coñécese como aproximación de funcións.

Neste caso, débese empregar a aproximación para que a función obxectivo descoñecida poida transferir da mellor maneira posible todas as observacións concebibles en función da situación dada.

Na aprendizaxe automática, unha hipótese é un modelo que axuda a estimar a función obxectivo e a completar as correspondencias de entrada a saída adecuadas.

A selección e deseño de algoritmos permiten definir o espazo de hipóteses posibles que se poden representar mediante un modelo.

Para unha única hipótese úsase h (h) minúscula, pero h maiúscula (H) úsase para todo o espazo de hipótese que se busca. Repasaremos brevemente estas notacións:

Unha hipótese (h) é un modelo particular que facilita o mapeamento de entrada a saída, que posteriormente pode ser usado para a avaliación e predición.
Un conxunto de hipóteses (H) é un espazo de busca de hipóteses que se pode usar para mapear entradas e saídas. A estrutura do problema, o modelo e a configuración do modelo son algúns exemplos de limitacións xenéricas.

14. Que significa a sobreadaptación da aprendizaxe automática e como se pode previr?

Cando unha máquina intenta aprender dun conxunto de datos insuficiente, prodúcese un sobreajuste.

Como resultado, o sobreajuste está inversamente correlacionado co volume de datos. O enfoque de validación cruzada permite evitar o sobreajuste para conxuntos de datos pequenos. Un conxunto de datos divídese en dúas partes neste método.

O conxunto de datos para probas e adestramento constará destas dúas partes. O conxunto de datos de adestramento utilízase para crear un modelo, mentres que o conxunto de datos de proba úsase para avaliar o modelo mediante diferentes entradas.

Así é como evitar o sobreajuste.

15. Que son exactamente os clasificadores naive Bayes?

Varios métodos de clasificación conforman os clasificadores naive Bayes. Un conxunto de algoritmos coñecidos como estes clasificadores traballan todos sobre a mesma idea fundamental.

A suposición que fan os inxenuos clasificadores de Bayes é que a presenza ou ausencia dunha característica non ten relación coa presenza ou ausencia doutra característica.

Noutras palabras, isto é o que chamamos "inxenuo", xa que supón que cada atributo do conxunto de datos é igualmente significativo e independente.

A clasificación realízase mediante clasificadores Bayes inxenuos. Son sinxelos de usar e producen mellores resultados que os preditores máis complexos cando a premisa de independencia é certa.

En análise de texto, filtrado de spam e sistemas de recomendación, empréganse.

16. Que significan as funcións de custo e as funcións de perda?

A frase "función de perda" refírese ao proceso de computación da perda cando só se ten en conta un dato.

Pola contra, utilizamos a función de custo para determinar a cantidade total de erros para numerosos datos. Non existe distinción significativa.

Noutras palabras, mentres que as funcións de custo agregan a diferenza para todo o conxunto de datos de adestramento, as funcións de perda están deseñadas para capturar a diferenza entre os valores reais e previstos para un único rexistro.

17. Que distingue un modelo xenerativo dun modelo discriminativo?

Un modelo discriminativo aprende as diferenzas entre varias categorías de datos. Un modelo xerativo recolle diferentes tipos de datos.

En problemas de clasificación, os modelos discriminativos adoitan superar outros modelos.

18. Describe as variacións entre os erros do tipo I e do tipo II.

Os falsos positivos entran na categoría de erros de tipo I, mentres que os falsos negativos están dentro dos erros de tipo II (afirmando que non pasou nada cando realmente o fixo).

19. Na aprendizaxe automática, que é a técnica de aprendizaxe de Ensemble?

Unha técnica chamada aprendizaxe en conxunto mestura moitos modelos de aprendizaxe automática para producir modelos máis potentes.

Un modelo pódese variar por varias razóns. Varias causas son:

Poboacións Varias
Varias hipóteses
Varios métodos de modelado

Atoparemos un problema ao usar os datos de adestramento e proba do modelo. O sesgo, a varianza e o erro irredutible son posibles tipos deste erro.

Agora, chamamos a este equilibrio entre sesgo e varianza no modelo unha compensación pola varianza, e debería existir sempre. Esta compensación realízase mediante o uso da aprendizaxe en conxunto.

Aínda que hai varios enfoques de conxunto dispoñibles, hai dúas estratexias comúns para combinar moitos modelos:

Un enfoque nativo chamado embolsado usa o conxunto de adestramento para producir conxuntos de adestramento adicionais.
Boosting, unha técnica máis sofisticada: ao igual que o ensacado, o boosting úsase para atopar a fórmula de ponderación ideal para un conxunto de adestramento.

20. Que son exactamente os modelos paramétricos? Dar unha instancia.

Hai unha cantidade limitada de parámetros nos modelos paramétricos. Para facer previsións de datos, o único que precisa saber son os parámetros do modelo.

Os seguintes son exemplos típicos: regresión loxística, regresión lineal e SVM lineais. Os modelos non paramétricos son flexibles xa que poden conter un número ilimitado de parámetros.

Os parámetros do modelo e o estado dos datos observados son necesarios para as predicións de datos. Aquí tes algúns exemplos típicos: modelos temáticos, árbores de decisión e k-veciños máis próximos.

21. Describe o filtrado colaborativo. Así como o filtrado baseado no contido?

Un método probado para crear suxestións de contido personalizadas é o filtrado colaborativo.

Unha forma de sistema de recomendación chamado filtrado colaborativo predice material novo ao equilibrar as preferencias dos usuarios con intereses compartidos.

As preferencias dos usuarios son o único que consideran os sistemas de recomendación baseados en contidos. Á vista das seleccións previas do usuario, ofrécense novas recomendacións a partir de material relacionado.

22. Que queres dicir exactamente coa serie Time?

Unha serie temporal é unha colección de números en orde ascendente. Durante un período de tempo predeterminado, supervisa o movemento dos puntos de datos seleccionados e captura periodicamente os puntos de datos.

Non hai entrada de tempo mínimo ou máximo para as series temporais.

As series de tempo son frecuentemente utilizadas polos analistas para analizar datos de acordo cos seus requisitos exclusivos.

23. Describe as variacións entre os algoritmos Gradient Boosting e Random Forest.

Bosque aleatorio:

Unha gran cantidade de árbores de decisión reúnense ao final e coñécense como bosques aleatorios.
Mentres que o aumento do gradiente produce cada árbore independentemente das outras, o bosque aleatorio constrúe cada árbore unha por vez.
Multiclase detección de obxectos funciona ben con bosques aleatorios.

Aumento do gradiente:

Mentres os bosques aleatorios únense ás árbores de decisión ao final do proceso, as máquinas de aumento de gradientes combínaos desde o principio.
Se os parámetros se axustan adecuadamente, o aumento do gradiente supera os bosques aleatorios en termos de resultados, pero non é unha opción intelixente se o conxunto de datos ten moitos valores atípicos, anomalías ou ruído, xa que podería provocar que o modelo se axuste.
Cando hai datos desequilibrados, como hai na avaliación do risco en tempo real, o aumento do gradiente funciona ben.

24. Por que necesitas unha matriz de confusión? Que é?

Unha táboa coñecida como matriz de confusión, ás veces coñecida como matriz de erros, úsase amplamente para mostrar o bo rendemento dun modelo de clasificación, ou clasificador, nun conxunto de datos de proba dos que se coñecen os valores reais.

Permítenos ver como funciona un modelo ou algoritmo. Fainos sinxelo detectar malos entendidos entre varios cursos.

Serve como unha forma de avaliar o ben que se realiza un modelo ou algoritmo.

As predicións dun modelo de clasificación recompílanse nunha matriz de confusión. Os valores de reconto de cada etiqueta de clase utilizáronse para desglosar o número total de predicións correctas e incorrectas.

Ofrece detalles sobre os fallos cometidos polo clasificador, así como os diferentes tipos de erros causados polos clasificadores.

25. Que é exactamente unha análise de compoñentes principais?

Ao minimizar o número de variables que están correlacionadas entre si, o obxectivo é minimizar a dimensionalidade da recollida de datos. Pero é importante manter a diversidade na medida do posible.

As variables cámbianse nun conxunto de variables totalmente novo chamado compoñentes principais.

Estes PC son ortogonais xa que son vectores propios dunha matriz de covarianza.

26. Por que é tan crucial a rotación de compoñentes para a PCA (análise de compoñentes principais)?

A rotación é crucial na PCA porque optimiza a separación entre as varianzas obtidas por cada compoñente, facilitando a interpretación dos compoñentes.

Esiximos compoñentes estendidos para expresar a variación dos compoñentes se os compoñentes non se xiran.

27. Como varían a regularización e a normalización?

Normalización:

Os datos altéranse durante a normalización. Debes normalizar os datos se ten escalas drasticamente diferentes, especialmente de baixa a alta. Axusta cada columna para que todas as estatísticas fundamentais sexan compatibles.

Para garantir que non haxa perda de precisión, isto pode ser útil. Detectar o sinal ignorando o ruído é un dos obxectivos do adestramento do modelo.

Hai unha posibilidade de sobreadaptación se o modelo recibe un control total para reducir o erro.

Regularización:

Na regularización, modifícase a función de predición. Isto está suxeito a certo control mediante a regularización, o que favorece as funcións de axuste máis sinxelas fronte ás complicadas.

28. En que se diferencian a normalización e a estandarización?

As dúas técnicas máis utilizadas para a escala de características son a normalización e a estandarización.

Normalización:

Reescalar os datos para adaptalos a un intervalo [0,1] coñécese como normalización.
Cando todos os parámetros deben ter a mesma escala positiva, a normalización é útil, pero pérdense os valores atípicos do conxunto de datos.

Regularización:

Os datos reescálanse para ter unha media de 0 e unha desviación estándar de 1 como parte do proceso de normalización (varianza unitaria)

29. Que significa exactamente "factor de inflación da varianza"?

A relación entre a varianza do modelo e a varianza do modelo cunha única variable independente coñécese como factor de inflación de variación (VIF).

VIF estima a cantidade de multicolinealidade presente nun conxunto de varias variables de regresión.

Varianza do modelo (VIF) Modelo cunha varianza dunha variable independente

30. Segundo o tamaño do conxunto de adestramento, como elixes un clasificador?

Un modelo de sesgo alto e baixa varianza ten un mellor rendemento para un conxunto de adestramento curto xa que é menos probable un sobreadaptado. Naive Bayes é un exemplo.

Para representar interaccións máis complicadas para un gran conxunto de adestramento, é preferible un modelo con baixo sesgo e alta varianza. A regresión loxística é un bo exemplo.

31. A que algoritmo na aprendizaxe automática se denomina "aprendiz preguiceiro" e por que?

Un alumno lento, KNN é un algoritmo de aprendizaxe automática. Dado que K-NN calcula dinámicamente a distancia cada vez que quere clasificar en lugar de aprender os valores ou variables aprendidos pola máquina dos datos de adestramento, memoriza o conxunto de datos de adestramento.

Isto fai que K-NN sexa un alumno preguiceiro.

32. Que son a curva ROC e AUC?

O rendemento dun modelo de clasificación en todos os limiares está representado graficamente pola curva ROC. Ten criterios de taxa de verdadeiro positivo e de falso positivo.

Simplemente, a área baixo a curva ROC coñécese como AUC (Área baixo a curva ROC). Mídese a área bidimensional da curva ROC desde (0,0) ata AUC (1,1). Para avaliar modelos de clasificación binaria, emprégase como estatística de rendemento.

33. Que son os hiperparámetros? Que os fai únicos a partir dos parámetros do modelo?

Unha variable interna do modelo coñécese como parámetro do modelo. Usando datos de adestramento, o valor dun parámetro é aproximado.

Descoñecido para o modelo, un hiperparámetro é unha variable. O valor non se pode determinar a partir dos datos, polo que úsanse con frecuencia para calcular os parámetros do modelo.

34. Que significan a puntuación, a lembranza e a precisión da F1?

A medida de confusión é a métrica empregada para medir a eficacia do modelo de clasificación. Pódense usar as seguintes frases para explicar mellor a métrica de confusión:

TP: verdadeiros positivos: estes son os valores positivos que se anticiparon correctamente. Suxire que os valores da clase proxectada e da clase real son ambos positivos.

TN: verdadeiros negativos: estes son os valores adversos que se prognosticaron con precisión. Suxire que tanto o valor da clase real como da clase anticipada son negativos.

Estes valores (falsos positivos e falsos negativos) prodúcense cando a túa clase real difire da clase prevista.

Agora

A relación entre a taxa de verdadeiro positivo (TP) e todas as observacións feitas na clase real chámase lembranza, tamén coñecida como sensibilidade.

O recordo é TP/(TP+FN).

A precisión é unha medida do valor preditivo positivo, que compara o número de positivos que realmente predice o modelo con cantos positivos correctos predice con precisión.

A precisión é TP/(TP + FP)

A métrica de rendemento máis fácil de entender é a precisión, que é só a proporción de observacións predidas correctamente con respecto a todas as observacións.

A precisión é igual a (TP+TN)/(TP+FP+FN+TN).

A precisión e a lembranza son ponderadas e promediadas para proporcionar a puntuación da F1. Como resultado, esta puntuación considera tanto os falsos positivos como os falsos negativos.

A F1 adoita ser máis valiosa que a precisión, especialmente se ten unha distribución de clases desigual, aínda que intuitivamente non sexa tan sinxelo de comprender como a precisión.

A mellor precisión conséguese cando o custo dos falsos positivos e dos falsos negativos é comparable. É preferible incluír Precision e Recall se os custos asociados a falsos positivos e falsos negativos difiren significativamente.

35. Que é exactamente a validación cruzada?

Un enfoque de remuestreo estatístico chamado validación cruzada na aprendizaxe automática emprega varios subconxuntos de datos para adestrar e avaliar un algoritmo de aprendizaxe automática en varias roldas.

Probáse un novo lote de datos que non se utilizou para adestrar o modelo mediante a validación cruzada para ver o ben o predice o modelo. O sobreajuste de datos impídese mediante a validación cruzada.

Dobra en K O método de remuestreo máis usado divide todo o conxunto de datos en K conxuntos de tamaños iguais. Chámase validación cruzada.

36. Digamos que descubriches que o teu modelo ten unha variación significativa. Que algoritmo, na túa opinión, é máis axeitado para xestionar esta situación?

Xestión da alta variabilidade

Debemos utilizar a técnica de ensacado para problemas con grandes variacións.

O algoritmo de ensacado utilizaría a mostraxe repetida de datos aleatorios para dividir os datos en subgrupos. Unha vez divididos os datos, podemos utilizar datos aleatorios e un procedemento de adestramento específico para xerar regras.

Despois diso, as sondaxes poderían usarse para combinar as predicións do modelo.

37. Que distingue a regresión de Ridge da regresión de Lasso?

Dous métodos de regularización moi utilizados son a regresión Lasso (tamén chamada L1) e a regresión de Ridge (ás veces chamada L2). Utilízanse para evitar o exceso de datos.

Co fin de descubrir a mellor solución e minimizar a complexidade, utilízanse estas técnicas para castigar os coeficientes. Ao penalizar o total dos valores absolutos dos coeficientes, opera a regresión Lasso.

A función de penalización na regresión de Ridge ou L2 derívase da suma de cadrados dos coeficientes.

38. Que é máis importante: o rendemento do modelo ou a precisión do modelo? Cal e por que favorecerá?

Esta é unha pregunta enganosa, polo que primeiro debes entender o que é o rendemento do modelo. Se o rendemento se define como velocidade, depende do tipo de aplicación; calquera aplicación que implique unha situación en tempo real requiriría alta velocidade como compoñente crucial.

Por exemplo, os mellores resultados da busca serán menos valiosos se os resultados da consulta tardan demasiado en chegar.

Se o rendemento se utiliza como xustificación de por que a precisión e a lembranza deben priorizarse por riba da precisión, entón unha puntuación F1 será máis útil que a precisión para demostrar o caso de negocio para calquera conxunto de datos que estea desequilibrado.

39. Como xestionarías un conxunto de datos con desigualdades?

Un conxunto de datos desequilibrado pode beneficiarse das técnicas de mostraxe. A mostraxe pódese facer de forma sub ou sobremostrada.

Under Sampling permítenos reducir o tamaño da clase maioritaria para que coincida coa clase minoritaria, o que axuda a aumentar a velocidade no que respecta ao almacenamento e a execución en tempo de execución, pero tamén pode provocar a perda de datos valiosos.

Para remediar o problema da perda de información causada pola sobremostraxe, submostramos a clase Minority; con todo, isto fai que teñamos problemas de sobreadaptación.

As estratexias adicionais inclúen:

Sobre mostraxe baseada en clústeres: nesta situación, as instancias de clase minoritaria e maioritaria están sometidas individualmente á técnica de agrupación K-means. Isto faise para atopar clústeres de conxuntos de datos. Despois, cada clúster é sobremostrado para que todas as clases teñan o mesmo tamaño e todos os clústeres dunha clase teñan o mesmo número de instancias.
SMOTE: Técnica de sobremostraxe de minorías sintéticas: utilízase como exemplo unha porción de datos da clase minoritaria, despois de que se producen instancias artificiais adicionais que son comparables a ela e engádense ao conxunto de datos orixinal. Este método funciona ben con puntos de datos numéricos.

40. Como podes distinguir entre impulsar e ensacar?

Ensemble Techniques teñen versións coñecidas como bagging e boosting.

ensacado-

Para os algoritmos cunha variación elevada, o ensacado é unha técnica que se usa para diminuír a varianza. Unha desas familias de clasificadores que é propensa a sesgos é a da árbore de decisións.

O tipo de datos nos que se adestran as árbores de decisión ten un impacto significativo no seu rendemento. Debido a isto, mesmo con un axuste moi alto, a xeneralización dos resultados ás veces é moito máis difícil de conseguir neles.

Se se alteran os datos de adestramento das árbores de decisión, os resultados varían substancialmente.

Como consecuencia, utilízase o ensacado, no que se crean moitas árbores de decisión, cada unha delas adestrada mediante unha mostra dos datos orixinais, e o resultado final é a media de todos estes modelos diferentes.

Impulso:

O impulso é a técnica de facer predicións cun sistema de clasificadores n-débiles no que cada clasificador débil compensa as deficiencias dos seus clasificadores máis fortes. Referímonos a un clasificador que funciona mal nun conxunto de datos determinado como "clasificador débil".

O impulso é obviamente un proceso máis que un algoritmo. A regresión loxística e as árbores de decisión superficial son exemplos comúns de clasificadores débiles.

Adaboost, Gradient Boosting e XGBoost son os dous algoritmos de impulso máis populares, pero hai moitos máis.

41. Explica as diferenzas entre aprendizaxe indutiva e dedutiva.

Cando se aprende co exemplo a partir dun conxunto de exemplos observados, un modelo utiliza a aprendizaxe indutiva para chegar a unha conclusión xeneralizada. Por outra banda, coa aprendizaxe dedutiva, o modelo utiliza o resultado antes de formar o seu.

A aprendizaxe indutiva é o proceso de extraer conclusións a partir das observacións.

A aprendizaxe dedutiva é o proceso de creación de observacións a partir de inferencias.

Conclusión

Parabéns! Estas son as 40 preguntas de entrevistas superiores para a aprendizaxe automática das que agora coñeces as respostas. Ciencia de datos e intelixencia artificial As ocupacións seguirán sendo demandadas a medida que avance a tecnoloxía.

Os candidatos que actualicen os seus coñecementos sobre estas tecnoloxías de punta e melloren o seu conxunto de habilidades poden atopar unha gran variedade de posibilidades de emprego cunha remuneración competitiva.

Podes continuar respondendo as entrevistas agora que tes unha comprensión sólida de como responder a algunhas das preguntas máis frecuentes das entrevistas de aprendizaxe automática.

Dependendo dos teus obxectivos, fai o seguinte paso. Prepárate para entrevistas visitando Hashdork's Serie de entrevistas.

Preguntas da entrevista de Machine Learning

As 40+ preguntas das entrevistas de Machine Learning