Conteúdo[Esconder][Mostrar]
- 1. Explique as diferenças entre aprendizado de máquina, inteligência artificial e aprendizado profundo.
- 2. Descreva os diferentes tipos de aprendizado de máquina.
- 3. Qual é o trade-off viés versus variância?
- 4. Os algoritmos de aprendizado de máquina evoluíram significativamente ao longo do tempo. Como escolher o algoritmo certo para utilizar dado um conjunto de dados?
- 5. Como a covariância e a correlação diferem?
- 6. Em aprendizado de máquina, o que significa clustering?
- 7. Qual é o seu algoritmo de aprendizado de máquina preferido?
- 8. Regressão Linear em Machine Learning: O que é?
- 9. Descreva as diferenças entre o agrupamento KNN e k-means.
- 10. O que “viés de seleção” significa para você?
- 11. O que exatamente é o Teorema de Bayes?
- 12. Em um modelo de aprendizado de máquina, o que são 'conjunto de treinamento' e 'conjunto de teste'?
- 13. O que é uma Hipótese em Aprendizado de Máquina?
- 14. O que significa overfitting de aprendizado de máquina e como ele pode ser evitado?
- 15. O que exatamente são classificadores Naive Bayes?
- 16. O que significam as Funções de Custo e as Funções de Perda?
- 17. O que distingue um modelo generativo de um modelo discriminativo?
- 18. Descreva as variações entre os erros Tipo I e Tipo II.
- 19. Em aprendizado de máquina, o que é a técnica de aprendizado Ensemble?
- 20. O que exatamente são modelos paramétricos? Dê um exemplo.
- 21. Descreva a filtragem colaborativa. Assim como a filtragem baseada em conteúdo?
- 22. O que exatamente você quer dizer com série temporal?
- 23. Descreva as variações entre os algoritmos Gradient Boosting e Random Forest.
- 24. Por que você precisa de uma matriz de confusão? O que é isso?
- 25. O que exatamente é uma análise de componentes principais?
- 26. Por que a rotação de componentes é tão crucial para PCA (análise de componentes principais)?
- 27. Como regularização e normalização variam entre si?
- 28. Qual a diferença entre normalização e padronização?
- 29. O que exatamente significa “fator de inflação de variação”?
- 30. Com base no tamanho do conjunto de treinamento, como você escolhe um classificador?
- 31. Qual algoritmo em aprendizado de máquina é chamado de “aprendizado preguiçoso” e por quê?
- 32. O que são a Curva ROC e AUC?
- 33. O que são hiperparâmetros? O que os torna exclusivos dos parâmetros do modelo?
- 34. O que significa F1 Score, recall e precisão?
- 35. O que exatamente é validação cruzada?
- 36. Digamos que você descobriu que seu modelo tem uma variação significativa. Qual algoritmo, na sua opinião, é mais adequado para lidar com essa situação?
- 37. O que distingue a regressão Ridge da regressão Lasso?
- 38. O que é mais importante: desempenho do modelo ou precisão do modelo? Qual deles e por que você vai favorecê-lo?
- 39. Como você gerenciaria um conjunto de dados com desigualdades?
- 40. Como você pode distinguir entre boosting e bagging?
- 41. Explique as diferenças entre aprendizagem indutiva e dedutiva.
- Conclusão
As empresas estão utilizando tecnologia de ponta, como inteligência artificial (IA) e aprendizado de máquina, para aumentar a acessibilidade de informações e serviços aos indivíduos.
Essas tecnologias estão sendo adotadas por uma variedade de setores, incluindo bancos, finanças, varejo, manufatura e saúde.
Uma das funções organizacionais mais procuradas que utilizam a IA é para cientistas de dados, engenheiros de inteligência artificial, engenheiros de aprendizado de máquina e analistas de dados.
Este post irá guiá-lo através de uma variedade de aprendizado de máquina perguntas da entrevista, do básico ao complexo, para ajudá-lo a se preparar para qualquer pergunta que possa ser feita ao procurar o emprego ideal.
1. Explique as diferenças entre aprendizado de máquina, inteligência artificial e aprendizado profundo.
A inteligência artificial emprega uma variedade de abordagens de aprendizado de máquina e aprendizado profundo que permitem que os sistemas de computador realizem tarefas utilizando inteligência semelhante à humana com lógica e regras.
O aprendizado de máquina usa uma variedade de estatísticas e abordagens de aprendizado profundo para permitir que as máquinas aprendam com seu desempenho anterior e se tornem mais aptas a realizar determinadas tarefas por conta própria, sem supervisão humana.
Deep Learning é uma coleção de algoritmos que permite que o software aprenda sozinho e execute uma variedade de funções comerciais, como reconhecimento de voz e imagem.
Sistemas que expõem suas multicamadas redes neurais para grandes quantidades de dados para aprendizado são capazes de fazer aprendizado profundo.
2. Descreva os diferentes tipos de aprendizado de máquina.
O aprendizado de máquina existe em três tipos diferentes amplamente:
- Aprendizado supervisionado: um modelo cria previsões ou julgamentos usando dados rotulados ou históricos no aprendizado de máquina supervisionado. Os conjuntos de dados que foram marcados ou rotulados para aumentar seu significado são chamados de dados rotulados.
- Aprendizado não supervisionado: não temos dados rotulados para aprendizado não supervisionado. Nos dados recebidos, um modelo pode encontrar padrões, esquisitices e correlações.
- Aprendizagem por Reforço: O modelo pode aprender usando reforço aprendizagem e as recompensas que obteve por seu comportamento anterior.
3. Qual é o trade-off viés versus variância?
O overfitting é um resultado do viés, que é o grau em que um modelo se ajusta aos dados. O viés é causado por suposições incorretas ou muito simples em seu algoritmo de aprendizado de máquina.
A variação refere-se a erros causados pela complexidade em seu algoritmo de ML, que produz sensibilidade a grandes graus de variação nos dados de treinamento e overfitting.
A variância é o quanto um modelo varia dependendo das entradas.
Em outras palavras, os modelos básicos são extremamente tendenciosos, porém estáveis (baixa variância). O overfitting é um problema com modelos complexos, embora eles capturem a realidade do modelo (baixo viés).
Para evitar alta variação e alto viés, é necessário um trade-off entre viés e variância para a melhor redução de erro.
4. Os algoritmos de aprendizado de máquina evoluíram significativamente ao longo do tempo. Como escolher o algoritmo certo para utilizar dado um conjunto de dados?
A técnica de aprendizado de máquina que deve ser utilizada depende apenas do tipo de dados em um conjunto de dados específico.
Quando os dados são lineares, a regressão linear é usada. O método de ensacamento teria melhor desempenho se os dados indicassem não linearidade. Podemos utilizar árvores de decisão ou SVM se os dados precisarem ser avaliados ou interpretados para fins comerciais.
As redes neurais podem ser úteis para obter uma resposta precisa se o conjunto de dados incluir fotos, vídeos e áudio.
A escolha do algoritmo para uma circunstância específica ou coleta de dados não pode ser feita apenas em uma única medida.
Para o objetivo de desenvolver o método de melhor ajuste, devemos primeiro examinar os dados usando a análise exploratória de dados (EDA) e compreender o objetivo de utilizar o conjunto de dados.
5. Como a covariância e a correlação diferem?
A covariância avalia como duas variáveis estão conectadas entre si e como uma pode mudar em resposta a mudanças na outra.
Se o resultado for positivo, indica que existe uma ligação direta entre as variáveis e que uma aumentaria ou diminuiria com o aumento ou diminuição da variável base, supondo que todas as outras condições permaneçam constantes.
A correlação mede a ligação entre duas variáveis aleatórias e possui apenas três valores distintos: 1, 0 e -1.
6. Em aprendizado de máquina, o que significa clustering?
Métodos de aprendizado não supervisionados que agrupam pontos de dados são chamados de clustering. Com uma coleção de pontos de dados, a técnica de agrupamento pode ser aplicada.
Você pode agrupar todos os pontos de dados de acordo com suas funções usando esta estratégia.
Os recursos e qualidades dos pontos de dados que se enquadram na mesma categoria são semelhantes, enquanto os dos pontos de dados que se enquadram em agrupamentos separados são diferentes.
Essa abordagem pode ser usada para analisar dados estatísticos.
7. Qual é o seu algoritmo de aprendizado de máquina preferido?
Você tem a chance de demonstrar suas preferências e talentos únicos nesta questão, bem como seu conhecimento abrangente de inúmeras técnicas de aprendizado de máquina.
Aqui estão alguns algoritmos típicos de aprendizado de máquina para pensar:
- Regressão linear
- Regressão logística
- Baías ingénuas
- Árvores de decisão
- K significa
- Algoritmo de floresta aleatória
- K-vizinho mais próximo (KNN)
8. Regressão Linear em Machine Learning: O que é?
Um algoritmo de aprendizado de máquina supervisionado é uma regressão linear.
É empregado na análise preditiva para determinar a conexão linear entre as variáveis dependentes e independentes.
A equação da regressão linear é a seguinte:
Y = A + BX
em que:
- A entrada ou variável independente é chamada X.
- A variável dependente ou de saída é Y.
- O coeficiente de X é b, e seu intercepto é a.
9. Descreva as diferenças entre o agrupamento KNN e k-means.
A principal distinção é que o KNN (um método de classificação, aprendizado supervisionado) precisa de pontos rotulados, enquanto o k-means não (algoritmo de agrupamento, aprendizado não supervisionado).
Você pode classificar dados rotulados em um ponto não rotulado usando K-Nearest Neighbors. O agrupamento K-means usa a distância média entre os pontos para aprender como agrupar pontos não rotulados.
10. O que “viés de seleção” significa para você?
O viés na fase de amostragem de um experimento é devido à imprecisão estatística.
Um grupo de amostra é escolhido com mais frequência do que os outros grupos no experimento como resultado da imprecisão.
Se o viés de seleção não for reconhecido, pode resultar em uma conclusão incorreta.
11. O que exatamente é o Teorema de Bayes?
Quando estamos cientes de outras probabilidades, podemos determinar uma probabilidade usando o Teorema de Bayes. Oferece a probabilidade posterior de uma ocorrência com base em informações prévias, ou seja.
Um método sólido para estimar probabilidades condicionais é fornecido por este teorema.
Ao desenvolver problemas de modelagem preditiva de classificação e ajustar um modelo a um treinamento conjunto de dados em aprendizado de máquina, aplica-se o teorema de Bayes (ie Naive Bayes, Bayes Optimal Classifier).
12. Em um modelo de aprendizado de máquina, o que são 'conjunto de treinamento' e 'conjunto de teste'?
Conjunto de treino:
- O conjunto de treinamento consiste em instâncias que são enviadas ao modelo para análise e aprendizado.
- Esses são os dados rotulados que serão usados para treinar o modelo.
- Normalmente, 70% do total de dados é usado como o conjunto de dados de treinamento.
Conjunto de teste:
- O conjunto de teste é usado para avaliar a precisão da geração de hipóteses do modelo.
- Testamos sem dados rotulados e, em seguida, usamos rótulos para confirmar os resultados.
- Os 30% restantes são usados como um conjunto de dados de teste.
13. O que é uma Hipótese em Aprendizado de Máquina?
O Machine Learning permite o uso de conjuntos de dados existentes para entender melhor uma determinada função que vincula a entrada à saída. Isso é conhecido como aproximação de função.
Nesse caso, a aproximação deve ser empregada para a função alvo desconhecida para transferir todas as observações concebíveis com base na situação dada da melhor maneira possível.
No aprendizado de máquina, uma hipótese é um modelo que ajuda a estimar a função de destino e completar os mapeamentos de entrada para saída apropriados.
A seleção e projeto de algoritmos permitem definir o espaço de hipóteses possíveis que podem ser representadas por um modelo.
Para uma única hipótese, h (h) minúsculo é usado, mas h maiúsculo (H) é usado para todo o espaço de hipótese que está sendo pesquisado. Analisaremos brevemente essas notações:
- Uma hipótese (h) é um modelo particular que facilita o mapeamento de entrada para saída, que pode ser usada posteriormente para avaliação e previsão.
- Um conjunto de hipóteses (H) é um espaço pesquisável de hipóteses que pode ser usado para mapear entradas para saídas. Enquadramento de problemas, modelo e configuração de modelo são alguns exemplos de limitações genéricas.
14. O que significa overfitting de aprendizado de máquina e como ele pode ser evitado?
Quando uma máquina tenta aprender com um conjunto de dados insuficiente, ocorre overfitting.
Como resultado, o overfitting é inversamente correlacionado com o volume de dados. A abordagem de validação cruzada permite que o overfitting seja evitado para pequenos conjuntos de dados. Um conjunto de dados é dividido em duas partes neste método.
O conjunto de dados para teste e treinamento consistirá dessas duas partes. O conjunto de dados de treinamento é usado para criar um modelo, enquanto o conjunto de dados de teste é usado para avaliar o modelo usando diferentes entradas.
É assim que se evita o overfitting.
15. O que exatamente são classificadores Naive Bayes?
Vários métodos de classificação compõem os classificadores Naive Bayes. Um conjunto de algoritmos conhecidos como classificadores trabalham todos com a mesma ideia fundamental.
A suposição feita por classificadores ingênuos de Bayes é que a presença ou ausência de uma característica não tem relação com a presença ou ausência de outra característica.
Em outras palavras, isso é o que chamamos de “ingênuo”, pois pressupõe que cada atributo do conjunto de dados é igualmente significativo e independente.
A classificação é feita usando classificadores Bayes ingênuos. Eles são simples de usar e produzem melhores resultados do que preditores mais complexos quando a premissa de independência é verdadeira.
Na análise de texto, filtragem de spam e sistemas de recomendação, eles são empregados.
16. O que significam as Funções de Custo e as Funções de Perda?
A frase “função de perda” refere-se ao processo de perda de computação quando apenas um dado é levado em consideração.
Ao contrário, utilizamos a função de custo para determinar a quantidade total de erros para vários dados. Não existe distinção significativa.
Em outras palavras, enquanto as funções de custo agregam a diferença para todo o conjunto de dados de treinamento, as funções de perda são projetadas para capturar a diferença entre os valores reais e previstos para um único registro.
17. O que distingue um modelo generativo de um modelo discriminativo?
Um modelo discriminativo aprende as diferenças entre várias categorias de dados. Um modelo generativo pega em diferentes tipos de dados.
Em problemas de classificação, os modelos discriminativos geralmente superam outros modelos.
18. Descreva as variações entre os erros Tipo I e Tipo II.
Os falsos positivos se enquadram na categoria de erros do Tipo I, enquanto os falsos negativos se enquadram nos erros do Tipo II (alegando que nada aconteceu quando realmente aconteceu).
19. Em aprendizado de máquina, o que é a técnica de aprendizado Ensemble?
Uma técnica chamada ensemble learning mistura muitos modelos de machine learning para produzir modelos mais potentes.
Um modelo pode ser variado por uma variedade de razões. Várias causas são:
- Várias populações
- Várias hipóteses
- Vários métodos de modelagem
Encontraremos um problema ao usar os dados de treinamento e teste do modelo. Viés, variância e erro irredutível são tipos possíveis desse erro.
Agora, chamamos esse equilíbrio entre viés e variância no modelo de trade-off viés-variância, e ele deve sempre existir. Essa troca é realizada por meio do uso do aprendizado em conjunto.
Embora existam várias abordagens de conjunto disponíveis, existem duas estratégias comuns para combinar muitos modelos:
- Uma abordagem nativa chamada ensacamento usa o conjunto de treinamento para produzir conjuntos de treinamento adicionais.
- Boosting, uma técnica mais sofisticada: Assim como o ensacamento, o boosting é usado para encontrar a fórmula de ponderação ideal para um conjunto de treinamento.
20. O que exatamente são modelos paramétricos? Dê um exemplo.
Há uma quantidade limitada de parâmetros em modelos paramétricos. Para prever dados, tudo o que você precisa saber são os parâmetros do modelo.
A seguir estão exemplos típicos: regressão logística, regressão linear e SVMs lineares. Os modelos não paramétricos são flexíveis, pois podem conter um número ilimitado de parâmetros.
Os parâmetros do modelo e o status dos dados observados são necessários para as previsões de dados. Aqui estão alguns exemplos típicos: modelos de tópicos, árvores de decisão e k-vizinhos mais próximos.
21. Descreva a filtragem colaborativa. Assim como a filtragem baseada em conteúdo?
Um método testado e comprovado para criar sugestões de conteúdo personalizadas é a filtragem colaborativa.
Uma forma de sistema de recomendação chamada filtragem colaborativa prevê material novo, equilibrando as preferências do usuário com interesses compartilhados.
As preferências do usuário são a única coisa que os sistemas de recomendação baseados em conteúdo consideram. À luz das seleções anteriores do usuário, novas recomendações são fornecidas a partir de material relacionado.
22. O que exatamente você quer dizer com série temporal?
Uma série temporal é uma coleção de números em ordem crescente. Durante um período de tempo predeterminado, ele monitora o movimento dos pontos de dados selecionados e captura periodicamente os pontos de dados.
Não há entrada de tempo mínimo ou máximo para séries temporais.
As séries temporais são frequentemente usadas por analistas para analisar dados de acordo com seus requisitos exclusivos.
23. Descreva as variações entre os algoritmos Gradient Boosting e Random Forest.
Floresta aleatória:
- Um grande número de árvores de decisão são agrupadas no final e são conhecidas como florestas aleatórias.
- Enquanto o aumento de gradiente produz cada árvore independentemente das outras, a floresta aleatória constrói cada árvore uma de cada vez.
- Multiclasse detecção de objetos funciona bem com florestas aleatórias.
Aumento de gradiente:
- Enquanto as florestas aleatórias unem as árvores de decisão no final do processo, as máquinas de aumento de gradiente as combinam desde o início.
- Se os parâmetros forem ajustados adequadamente, o aumento de gradiente supera as florestas aleatórias em termos de resultados, mas não é uma escolha inteligente se o conjunto de dados tiver muitos valores discrepantes, anomalias ou ruídos, pois isso pode fazer com que o modelo se torne superajustado.
- Quando há dados desequilibrados, como há na avaliação de risco em tempo real, o aumento do gradiente funciona bem.
24. Por que você precisa de uma matriz de confusão? O que é isso?
Uma tabela conhecida como matriz de confusão, também conhecida como matriz de erro, é amplamente usada para mostrar o desempenho de um modelo de classificação, ou classificador, em um conjunto de dados de teste para os quais os valores reais são conhecidos.
Ele nos permite ver como um modelo ou algoritmo funciona. Isso torna simples para nós identificar mal-entendidos entre vários cursos.
Ele serve como uma maneira de avaliar o quão bem um modelo ou algoritmo é executado.
As previsões de um modelo de classificação são compiladas em uma matriz de confusão. Os valores de contagem de cada rótulo de classe foram usados para dividir o número total de previsões corretas e incorretas.
Ele fornece detalhes sobre as falhas feitas pelo classificador, bem como os diferentes tipos de erros causados pelos classificadores.
25. O que exatamente é uma análise de componentes principais?
Ao minimizar o número de variáveis correlacionadas entre si, o objetivo é minimizar a dimensionalidade da coleta de dados. Mas é importante manter a diversidade tanto quanto possível.
As variáveis são transformadas em um conjunto inteiramente novo de variáveis chamado componentes principais.
Esses PCs são ortogonais, pois são autovetores de uma matriz de covariância.
26. Por que a rotação de componentes é tão crucial para PCA (análise de componentes principais)?
A rotação é crucial na PCA porque otimiza a separação entre as variâncias obtidas por cada componente, tornando a interpretação dos componentes mais simples.
Exigimos componentes estendidos para expressar a variação do componente se os componentes não forem girados.
27. Como regularização e normalização variam entre si?
Normalização:
Os dados são alterados durante a normalização. Você deve normalizar os dados se eles tiverem escalas drasticamente diferentes, especialmente de baixo para alto. Ajuste cada coluna para que as estatísticas fundamentais sejam todas compatíveis.
Para garantir que não haja perda de precisão, isso pode ser útil. Detectar o sinal ignorando o ruído é um dos objetivos do treinamento do modelo.
Existe uma chance de overfitting se o modelo receber controle completo para reduzir o erro.
Regularização:
Na regularização, a função de previsão é modificada. Isso está sujeito a algum controle por meio de regularização, o que favorece funções de ajuste mais simples sobre funções complicadas.
28. Qual a diferença entre normalização e padronização?
As duas técnicas mais utilizadas para dimensionamento de recursos são a normalização e a padronização.
Normalização:
- Redimensionar os dados para se adequar a um intervalo [0,1] é conhecido como normalização.
- Quando todos os parâmetros devem ter a mesma escala positiva, a normalização é útil, mas os valores discrepantes do conjunto de dados são perdidos.
Regularização:
- Os dados são redimensionados para ter uma média de 0 e um desvio padrão de 1 como parte do processo de padronização (variância de unidade)
29. O que exatamente significa “fator de inflação de variação”?
A razão entre a variância do modelo e a variância do modelo com apenas uma variável independente é conhecida como fator de inflação de variação (VIF).
O VIF estima a quantidade de multicolinearidade presente em um conjunto de diversas variáveis de regressão.
Variação do modelo (VIF) Modelo com uma variação de variável independente
30. Com base no tamanho do conjunto de treinamento, como você escolhe um classificador?
Um modelo de alto viés e baixa variância tem melhor desempenho para um conjunto de treinamento curto, pois o overfitting é menos provável. Naive Bayes é um exemplo.
Para representar interações mais complicadas para um grande conjunto de treinamento, é preferível um modelo com baixo viés e alta variância. A regressão logística é um bom exemplo.
31. Qual algoritmo em aprendizado de máquina é chamado de “aprendizado preguiçoso” e por quê?
Um aprendiz lento, KNN é um algoritmo de aprendizado de máquina. Como o K-NN calcula a distância dinamicamente cada vez que deseja classificar em vez de aprender quaisquer valores ou variáveis aprendidas por máquina dos dados de treinamento, ele memoriza o conjunto de dados de treinamento.
Isso torna o K-NN um aprendiz preguiçoso.
32. O que são a Curva ROC e AUC?
O desempenho de um modelo de classificação em todos os limites é representado graficamente pela curva ROC. Tem critérios de taxa de verdadeiros positivos e de taxa de falsos positivos.
Simplificando, a área sob a curva ROC é conhecida como AUC (Area Under the ROC Curve). A área bidimensional da curva ROC de (0,0) a AUC é medida (1,1). Para avaliar os modelos de classificação binária, é empregado como estatística de desempenho.
33. O que são hiperparâmetros? O que os torna exclusivos dos parâmetros do modelo?
Uma variável interna do modelo é conhecida como parâmetro do modelo. Utilizando dados de treinamento, o valor de um parâmetro é aproximado.
Desconhecido para o modelo, um hiperparâmetro é uma variável. O valor não pode ser determinado a partir de dados, portanto, eles são frequentemente empregados para calcular os parâmetros do modelo.
34. O que significa F1 Score, recall e precisão?
A Medida de Confusão é a métrica empregada para medir a eficácia do modelo de classificação. As seguintes frases podem ser usadas para explicar melhor a métrica de confusão:
TP: Verdadeiros Positivos – Esses são os valores positivos que foram antecipados adequadamente. Isso sugere que os valores da classe projetada e da classe real são ambos positivos.
TN: Verdadeiros Negativos - Estes são os valores adversos que foram previstos com precisão. Isso sugere que tanto o valor da classe real quanto a classe prevista são negativos.
Esses valores — falsos positivos e falsos negativos — ocorrem quando sua classe real difere da classe prevista.
Agora,
A razão da taxa de verdadeiros positivos (TP) para todas as observações feitas na classe real é chamada de recall, também conhecida como sensibilidade.
A rechamada é TP/(TP+FN).
A precisão é uma medida do valor preditivo positivo, que compara o número de positivos que o modelo realmente prevê com quantos positivos corretos ele prevê com precisão.
A precisão é TP/(TP + FP)
A métrica de desempenho mais fácil de entender é a precisão, que é apenas a proporção de observações corretamente previstas para todas as observações.
A precisão é igual a (TP+TN)/(TP+FP+FN+TN).
Precisão e Recall são ponderadas e calculadas em média para fornecer o F1 Score. Como resultado, essa pontuação considera tanto falsos positivos quanto falsos negativos.
A F1 é frequentemente mais valiosa que a precisão, principalmente se você tiver uma distribuição de classes desigual, mesmo que intuitivamente não seja tão simples de compreender quanto a precisão.
A melhor precisão é alcançada quando o custo de falsos positivos e falsos negativos é comparável. É preferível incluir Precision e Recall se os custos associados a falsos positivos e falsos negativos diferirem significativamente.
35. O que exatamente é validação cruzada?
Uma abordagem de reamostragem estatística chamada validação cruzada em aprendizado de máquina emprega vários subconjuntos de conjuntos de dados para treinar e avaliar um algoritmo de aprendizado de máquina em várias rodadas.
Um novo lote de dados que não foi usado para treinar o modelo é testado usando validação cruzada para ver como o modelo o prevê. O sobreajuste de dados é evitado por meio de validação cruzada.
K-Fold O método de reamostragem mais usado divide todo o conjunto de dados em K conjuntos de tamanhos iguais. É chamado de validação cruzada.
36. Digamos que você descobriu que seu modelo tem uma variação significativa. Qual algoritmo, na sua opinião, é mais adequado para lidar com essa situação?
Gerenciando alta variabilidade
Devemos usar a técnica de ensacamento para problemas com grandes variações.
A amostragem repetida de dados aleatórios seria usada pelo algoritmo de ensacamento para dividir os dados em subgrupos. Uma vez que os dados foram divididos, podemos utilizar dados aleatórios e um procedimento de treinamento específico para gerar regras.
Depois disso, a pesquisa pode ser usada para combinar as previsões do modelo.
37. O que distingue a regressão Ridge da regressão Lasso?
Dois métodos de regularização amplamente utilizados são a regressão Lasso (também chamada de L1) e Ridge (às vezes chamada de L2). Eles são usados para evitar o overfitting de dados.
Para descobrir a melhor solução e minimizar a complexidade, essas técnicas são empregadas para punir os coeficientes. Ao penalizar o total dos valores absolutos dos coeficientes, opera a regressão de Lasso.
A função de penalidade na regressão Ridge ou L2 é derivada da soma dos quadrados dos coeficientes.
38. O que é mais importante: desempenho do modelo ou precisão do modelo? Qual deles e por que você vai favorecê-lo?
Esta é uma pergunta enganosa, portanto, deve-se primeiro entender o que é Model Performance. Se o desempenho for definido como velocidade, ele depende do tipo de aplicativo; qualquer aplicação envolvendo uma situação em tempo real exigiria alta velocidade como um componente crucial.
Por exemplo, os melhores resultados de pesquisa se tornarão menos valiosos se os resultados da consulta demorarem muito para chegar.
Se o desempenho for usado como uma justificativa para o motivo pelo qual a precisão e o recall devem ser priorizados acima da precisão, uma pontuação F1 será mais útil do que a precisão na demonstração do caso de negócios para qualquer conjunto de dados desequilibrado.
39. Como você gerenciaria um conjunto de dados com desigualdades?
Um conjunto de dados desbalanceado pode se beneficiar de técnicas de amostragem. A amostragem pode ser feita de forma sub ou superamostrada.
Under Sampling nos permite reduzir o tamanho da classe majoritária para corresponder à classe minoritária, o que ajuda a aumentar a velocidade em relação ao armazenamento e à execução em tempo de execução, mas também pode resultar na perda de dados valiosos.
Para remediar o problema de perda de informações causada por oversampling, fazemos o upsample da classe Minoritária; no entanto, isso nos leva a problemas de overfitting.
Estratégias adicionais incluem:
- Cluster-Based Over Sampling- As instâncias de classe minoritária e majoritária são individualmente submetidas à técnica de agrupamento K-means nesta situação. Isso é feito para encontrar clusters de conjuntos de dados. Então, cada cluster é superamostrado para que todas as classes tenham o mesmo tamanho e todos os clusters dentro de uma classe tenham um número igual de instâncias.
- SMOTE: Synthetic Minority Over-sampling Technique - Uma fatia de dados da classe minoritária é usada como exemplo, após a qual instâncias artificiais adicionais que são comparáveis a ela são produzidas e adicionadas ao conjunto de dados original. Este método funciona bem com pontos de dados numéricos.
40. Como você pode distinguir entre boosting e bagging?
As Técnicas de Conjunto têm versões conhecidas como ensacamento e reforço.
ensacamento-
Para algoritmos com alta variação, o bagging é uma técnica usada para diminuir a variação. Uma dessas famílias de classificadores que é propensa a vieses é a família da árvore de decisão.
O tipo de dados em que as árvores de decisão são treinadas tem um impacto significativo em seu desempenho. Por causa disso, mesmo com um ajuste fino muito alto, a generalização dos resultados às vezes é muito mais difícil de obter neles.
Se os dados de treinamento das árvores de decisão forem alterados, os resultados variam substancialmente.
Como consequência, utiliza-se o bagging, no qual são criadas muitas árvores de decisão, cada uma delas treinada usando uma amostra dos dados originais, e o resultado final é a média de todos esses diferentes modelos.
Impulsionando:
Boosting é a técnica de fazer previsões com um sistema classificador n-fraco no qual cada classificador fraco compensa as deficiências de seus classificadores mais fortes. Referimo-nos a um classificador que apresenta um desempenho ruim em um determinado conjunto de dados como um “classificador fraco”.
Boosting é obviamente um processo e não um algoritmo. A regressão logística e as árvores de decisão rasas são exemplos comuns de classificadores fracos.
Adaboost, Gradient Boosting e XGBoost são os dois algoritmos de boost mais populares, no entanto, existem muitos mais.
41. Explique as diferenças entre aprendizagem indutiva e dedutiva.
Ao aprender por exemplo a partir de um conjunto de exemplos observados, um modelo usa aprendizado indutivo para chegar a uma conclusão generalizada. Por outro lado, com a aprendizagem dedutiva, o modelo usa o resultado antes de formar o seu próprio.
A aprendizagem indutiva é o processo de tirar conclusões a partir de observações.
A aprendizagem dedutiva é o processo de criar observações baseadas em inferências.
Conclusão
Parabéns! Estas são as 40 principais perguntas da entrevista para aprendizado de máquina para as quais você agora sabe as respostas. Ciência de dados e inteligência artificial as profissões continuarão a ser procuradas à medida que a tecnologia avança.
Os candidatos que atualizam seus conhecimentos sobre essas tecnologias de ponta e aprimoram seu conjunto de habilidades podem encontrar uma ampla variedade de possibilidades de emprego com remuneração competitiva.
Você pode continuar respondendo às entrevistas agora que tem uma sólida compreensão de como responder a algumas das perguntas mais frequentes da entrevista de aprendizado de máquina.
Dependendo de seus objetivos, dê o seguinte passo. Prepare-se para entrevistas visitando o Hashdork's Série de Entrevistas.
Deixe um comentário