Le oltre 40 domande più frequenti sull'intervista sull'apprendimento automatico (2024)

Sommario[Nascondere][Spettacolo]

1. Spiega le differenze tra machine learning, intelligenza artificiale e deep learning.
2. Descrivi i diversi tipi di apprendimento automatico.
3. Qual è il compromesso tra bias e varianza?
4. Gli algoritmi di apprendimento automatico si sono evoluti in modo significativo nel tempo. Come si fa a scegliere l'algoritmo giusto da utilizzare dato un set di dati?
5. In che cosa differiscono covarianza e correlazione?
6. In machine learning, cosa significa clustering?
7. Qual è il tuo algoritmo di apprendimento automatico preferito?
8. Regressione lineare nell'apprendimento automatico: che cos'è?
9. Descrivi le differenze tra KNN e k-mean clustering.
10. Cosa significa per te "pregiudizio di selezione"?
11. Che cos'è esattamente il teorema di Bayes?
12. In un modello di apprendimento automatico, cosa sono "set di formazione" e "set di test"?
13. Che cos'è un'ipotesi nell'apprendimento automatico?
14. Cosa significa overfitting del machine learning e come può essere prevenuto?
15. Cosa sono esattamente i classificatori Naive Bayes?
16. Cosa significano le funzioni di costo e le funzioni di perdita?
17. Cosa distingue un modello generativo da un modello discriminativo?
18. Descrivere le variazioni tra gli errori di Tipo I e di Tipo II.
19. Nel machine learning, qual è la tecnica di apprendimento Ensemble?
20. Cosa sono esattamente i modelli parametrici? Fai un'istanza.
21. Descrivi il filtraggio collaborativo. Oltre al filtro basato sui contenuti?
22. Cosa intendi esattamente per serie Time?
23. Descrivi le variazioni tra gli algoritmi Gradient Boosting e Random Forest.
24. Perché hai bisogno di una matrice di confusione? Che cos'è?
25. Che cos'è esattamente un'analisi delle componenti principali?
26. Perché la rotazione dei componenti è così cruciale per la PCA (analisi dei componenti principali)?
27. In che modo la regolarizzazione e la normalizzazione variano l'una dall'altra?
28. In che modo normalizzazione e standardizzazione sono diverse l'una dall'altra?
29. Cosa si intende esattamente per “fattore di varianza inflazione”?
30. In base alle dimensioni del set di allenamento, come scegli un classificatore?
31. Quale algoritmo nell'apprendimento automatico viene definito "studente pigro" e perché?
32. Cosa sono la curva ROC e l'AUC?
33. Cosa sono gli iperparametri? Cosa li rende unici dai parametri del modello?
34. Cosa significano il punteggio F1, il richiamo e la precisione?
35. Che cos'è esattamente la convalida incrociata?
36. Supponiamo che tu abbia scoperto che il tuo modello ha una varianza significativa. Quale algoritmo, secondo te, è più adatto a gestire questa situazione?
37. Cosa distingue la regressione di Ridge dalla regressione di Lazo?
38. Che cosa è più importante: prestazioni del modello o accuratezza del modello? Quale e perché lo prediligerete?
39. Come gestiresti un set di dati con disuguaglianze?
40. Come puoi distinguere tra boosting e bagging?
41. Spiegare le differenze tra apprendimento induttivo e deduttivo.
Conclusione

Le aziende utilizzano tecnologie all'avanguardia, come l'intelligenza artificiale (AI) e l'apprendimento automatico, per aumentare l'accessibilità delle informazioni e dei servizi alle persone.

Queste tecnologie vengono adottate da una varietà di settori, tra cui quello bancario, finanziario, al dettaglio, manifatturiero e sanitario.

Uno dei ruoli organizzativi più ricercati che utilizzano l'IA è per data scientist, ingegneri dell'intelligenza artificiale, ingegneri dell'apprendimento automatico e analisti di dati.

Questo post ti guiderà attraverso una varietà di machine learning domande del colloquio, da quelle di base a quelle complesse, per aiutarti a prepararti a tutte le domande che ti potrebbero essere poste quando cerchi il tuo lavoro ideale.

1. Spiega le differenze tra machine learning, intelligenza artificiale e deep learning.

L'intelligenza artificiale utilizza una varietà di approcci di machine learning e deep learning che consentono ai sistemi informatici di svolgere attività utilizzando un'intelligenza simile a quella umana con logica e regole.

L'apprendimento automatico utilizza una varietà di statistiche e approcci di deep learning per consentire alle macchine di apprendere dalle prestazioni precedenti e diventare più abili nello svolgere determinate attività da sole senza la supervisione umana.

Deep Learning è una raccolta di algoritmi che consente al software di apprendere da se stesso ed eseguire una varietà di funzioni commerciali, come il riconoscimento vocale e delle immagini.

Sistemi che espongono il loro multistrato reti neurali a grandi quantità di dati per l'apprendimento sono in grado di eseguire il deep learning.

2. Descrivi i diversi tipi di apprendimento automatico.

L'apprendimento automatico esiste in tre diversi tipi in generale:

Apprendimento supervisionato: un modello crea previsioni o giudizi utilizzando dati etichettati o storici nell'apprendimento automatico supervisionato. I set di dati che sono stati contrassegnati o etichettati per aumentarne il significato sono indicati come dati etichettati.
Apprendimento non supervisionato: non disponiamo di dati etichettati per l'apprendimento non supervisionato. Nei dati in entrata, un modello può trovare schemi, stranezze e correlazioni.
Apprendimento per rinforzo: il modello può imparare usando il rinforzo apprendimento e le ricompense che ha ottenuto per il suo comportamento precedente.

3. Qual è il compromesso tra bias e varianza?

L'overfitting è il risultato di bias, che è il grado in cui un modello si adatta ai dati. Il pregiudizio è causato da presupposti errati o troppo semplici nel tuo algoritmo di apprendimento automatico.

La varianza si riferisce agli errori causati dalla complessità dell'algoritmo ML, che produce sensibilità a grandi gradi di varianza nei dati di addestramento e all'overfitting.

La varianza è quanto un modello varia in base agli input.

In altre parole, i modelli di base sono estremamente distorti ma stabili (bassa varianza). L'overfitting è un problema con i modelli complessi, sebbene catturino comunque la realtà del modello (bassa distorsione).

Al fine di prevenire sia un'elevata variazione che un'elevata distorsione, è necessario un compromesso tra distorsione e varianza per la migliore riduzione dell'errore.

4. Gli algoritmi di apprendimento automatico si sono evoluti in modo significativo nel tempo. Come si fa a scegliere l'algoritmo giusto da utilizzare dato un set di dati?

La tecnica di apprendimento automatico che dovrebbe essere utilizzata dipende solo dal tipo di dati in un set di dati specifico.

Quando i dati sono lineari, viene utilizzata la regressione lineare. Il metodo di insacco funzionerebbe meglio se i dati indicassero non linearità. Possiamo utilizzare alberi decisionali o SVM se i dati devono essere valutati o interpretati per scopi commerciali.

Le reti neurali potrebbero essere utili per ottenere una risposta accurata se il set di dati include foto, video e audio.

La scelta dell'algoritmo per una specifica circostanza o raccolta di dati non può essere effettuata solo su una singola misura.

Al fine di sviluppare il metodo best fit, dobbiamo prima esaminare i dati utilizzando l'analisi dei dati esplorativi (EDA) e comprendere l'obiettivo dell'utilizzo del set di dati.

5. In che cosa differiscono covarianza e correlazione?

La covarianza valuta come due variabili sono collegate tra loro e come una potrebbe cambiare in risposta ai cambiamenti nell'altra.

Se il risultato è positivo, indica che c'è un legame diretto tra le variabili e che una aumenterebbe o diminuirebbe con un aumento o una diminuzione della variabile di base, supponendo che tutte le altre condizioni rimangano costanti.

La correlazione misura il legame tra due variabili casuali e ha solo tre valori distinti: 1, 0 e -1.

6. In machine learning, cosa significa clustering?

I metodi di apprendimento senza supervisione che raggruppano i punti dati sono chiamati clustering. Con una raccolta di punti dati, è possibile applicare la tecnica del clustering.

È possibile raggruppare tutti i punti dati in base alle loro funzioni utilizzando questa strategia.

Le caratteristiche e le qualità dei punti dati che rientrano nella stessa categoria sono simili, mentre quelle dei punti dati che rientrano in raggruppamenti separati sono diverse.

Questo approccio può essere utilizzato per analizzare i dati statistici.

7. Qual è il tuo algoritmo di apprendimento automatico preferito?

Hai la possibilità di dimostrare le tue preferenze e i tuoi talenti unici in questa domanda, nonché la tua conoscenza completa di numerose tecniche di apprendimento automatico.

Ecco alcuni tipici algoritmi di apprendimento automatico a cui pensare:

Regressione lineare
Regressione logistica
Ingenuo Bayes
Alberi decisionali
K significa
Algoritmo della foresta casuale
K-vicino più vicino (KNN)

8. Regressione lineare nell'apprendimento automatico: che cos'è?

Un algoritmo di apprendimento automatico supervisionato è la regressione lineare.

Viene impiegato nell'analisi predittiva per determinare la connessione lineare tra le variabili dipendenti e indipendenti.

L'equazione della regressione lineare è la seguente:

Y = A + BX

dove:

L'input o variabile indipendente si chiama X.
La variabile dipendente o di uscita è Y.
Il coefficiente di X è b e la sua intercetta è a.

9. Descrivi le differenze tra KNN e k-mean clustering.

La distinzione principale è che KNN (un metodo di classificazione, apprendimento supervisionato) necessita di punti etichettati mentre k-mean no (algoritmo di clustering, apprendimento non supervisionato).

Puoi classificare i dati etichettati in un punto senza etichetta utilizzando K-Nearest Neighbors. Il clustering K-medie utilizza la distanza media tra i punti per imparare a raggruppare i punti senza etichetta.

10. Cosa significa per te "pregiudizio di selezione"?

La distorsione nella fase di campionamento di un esperimento è dovuta all'imprecisione statistica.

Un gruppo campione viene scelto più frequentemente rispetto agli altri gruppi nell'esperimento a causa dell'imprecisione.

Se il bias di selezione non viene riconosciuto, potrebbe risultare in una conclusione errata.

11. Che cos'è esattamente il teorema di Bayes?

Quando siamo a conoscenza di altre probabilità, possiamo determinare una probabilità usando il teorema di Bayes. In altre parole, offre la probabilità a posteriori di un'occorrenza basata su informazioni precedenti.

Un valido metodo per stimare le probabilità condizionali è fornito da questo teorema.

Quando si sviluppano problemi di modellazione predittiva di classificazione e si adatta un modello a una formazione set di dati nell'apprendimento automatico, viene applicato il teorema di Bayes (es. Naive Bayes, Bayes Optimal Classifier).

12. In un modello di apprendimento automatico, cosa sono "set di formazione" e "set di test"?

Set da allenamento:

Il set di formazione è costituito da istanze inviate al modello per l'analisi e l'apprendimento.
Questi sono i dati etichettati che verranno utilizzati per addestrare il modello.
In genere, il 70% dei dati totali viene utilizzato come set di dati di addestramento.

Set di prova:

Il set di test viene utilizzato per valutare l'accuratezza della generazione di ipotesi del modello.
Testiamo senza dati etichettati e quindi utilizziamo le etichette per confermare i risultati.
Il restante 30% viene utilizzato come set di dati di test.

13. Che cos'è un'ipotesi nell'apprendimento automatico?

Machine Learning consente l'uso di set di dati esistenti per comprendere meglio una determinata funzione che collega l'input all'output. Questo è noto come approssimazione di funzione.

In questo caso, l'approssimazione deve essere impiegata affinché la funzione bersaglio sconosciuto trasferisca tutte le osservazioni concepibili basate sulla situazione data nel miglior modo possibile.

Nell'apprendimento automatico, un'ipotesi è un modello che aiuta a stimare la funzione target e completare le appropriate mappature input-to-output.

La selezione e la progettazione di algoritmi consentono di definire lo spazio delle possibili ipotesi che possono essere rappresentate da un modello.

Per una singola ipotesi, viene utilizzata la h (h) minuscola, ma la h (H) maiuscola viene utilizzata per l'intero spazio delle ipotesi che viene cercato. Esamineremo brevemente queste notazioni:

Un'ipotesi (h) è un modello particolare che facilita la mappatura dell'input verso l'output, che può essere successivamente utilizzato per la valutazione e la previsione.
Un insieme di ipotesi (H) è uno spazio ricercabile di ipotesi che può essere utilizzato per mappare gli input sugli output. Il frame del problema, il modello e la configurazione del modello sono alcuni esempi di limitazioni generiche.

14. Cosa significa overfitting del machine learning e come può essere prevenuto?

Quando una macchina tenta di apprendere da un set di dati insufficiente, si verifica un overfitting.

Di conseguenza, l'overfitting è inversamente correlato al volume dei dati. L'approccio di convalida incrociata consente di evitare l'overfitting per piccoli set di dati. Un set di dati è diviso in due parti in questo metodo.

Il set di dati per il test e la formazione sarà composto da queste due parti. Il set di dati di addestramento viene utilizzato per creare un modello, mentre il set di dati di test viene utilizzato per valutare il modello utilizzando input diversi.

Ecco come prevenire l'overfitting.

15. Cosa sono esattamente i classificatori Naive Bayes?

Vari metodi di classificazione costituiscono i classificatori di Naive Bayes. Un insieme di algoritmi noti come questi classificatori funzionano tutti sulla stessa idea fondamentale.

Il presupposto fatto dagli ingenui classificatori di Bayes è che la presenza o l'assenza di una caratteristica non ha alcuna relazione con la presenza o l'assenza di un'altra caratteristica.

In altre parole, questo è ciò che chiamiamo "ingenuo" poiché presuppone che ogni attributo del set di dati sia ugualmente significativo e indipendente.

La classificazione viene eseguita utilizzando classificatori ingenui di Bayes. Sono semplici da usare e producono risultati migliori rispetto a predittori più complessi quando la premessa dell'indipendenza è vera.

Nell'analisi del testo, nel filtro antispam e nei sistemi di raccomandazione, vengono utilizzati.

16. Cosa significano le funzioni di costo e le funzioni di perdita?

L'espressione "funzione di perdita" si riferisce al processo di calcolo della perdita quando viene preso in considerazione un solo dato.

Al contrario, utilizziamo la funzione di costo per determinare la quantità totale di errori per numerosi dati. Non esiste alcuna distinzione significativa.

In altre parole, mentre le funzioni di costo aggregano la differenza per l'intero set di dati di addestramento, le funzioni di perdita sono progettate per acquisire la differenza tra i valori effettivi e previsti per un singolo record.

17. Cosa distingue un modello generativo da un modello discriminativo?

Un modello discriminativo apprende le differenze tra diverse categorie di dati. Un modello generativo raccoglie diversi tipi di dati.

Per quanto riguarda i problemi di classificazione, i modelli discriminativi spesso superano gli altri modelli.

18. Descrivere le variazioni tra gli errori di Tipo I e di Tipo II.

I falsi positivi rientrano nella categoria degli errori di tipo I, mentre i falsi negativi rientrano negli errori di tipo II (affermando che non è successo nulla quando in realtà è successo).

19. Nel machine learning, qual è la tecnica di apprendimento Ensemble?

Una tecnica chiamata apprendimento d'insieme mescola molti modelli di apprendimento automatico per produrre modelli più potenti.

Un modello può essere variato per una serie di motivi. Diverse cause sono:

Popolazioni varie
Varie ipotesi
Vari metodi di modellazione

Incontreremo un problema durante l'utilizzo dei dati di addestramento e test del modello. Bias, varianza ed errore irriducibile sono possibili tipi di questo errore.

Ora, chiamiamo questo equilibrio tra bias e varianza nel modello un compromesso tra bias e varianza e dovrebbe sempre esistere. Questo compromesso si ottiene attraverso l'uso dell'apprendimento d'insieme.

Sebbene siano disponibili vari approcci di insieme, esistono due strategie comuni per combinare molti modelli:

Un approccio nativo chiamato bagging utilizza il set di formazione per produrre set di formazione aggiuntivi.
Boosting, una tecnica più sofisticata: proprio come il bagging, il boosting viene utilizzato per trovare la formula di ponderazione ideale per un set di allenamento.

20. Cosa sono esattamente i modelli parametrici? Fai un'istanza.

Esiste una quantità limitata di parametri nei modelli parametrici. Per prevedere i dati, tutto ciò che devi sapere sono i parametri del modello.

I seguenti sono esempi tipici: regressione logistica, regressione lineare e SVM lineari. I modelli non parametrici sono flessibili poiché possono contenere un numero illimitato di parametri.

I parametri del modello e lo stato dei dati osservati sono necessari per le previsioni dei dati. Ecco alcuni esempi tipici: modelli tematici, alberi decisionali e k-vicini più vicini.

21. Descrivi il filtraggio collaborativo. Oltre al filtro basato sui contenuti?

Un metodo collaudato per creare suggerimenti di contenuto su misura è il filtraggio collaborativo.

Una forma di sistema di raccomandazione chiamato filtro collaborativo predice materiale nuovo bilanciando le preferenze dell'utente con gli interessi condivisi.

Le preferenze dell'utente sono l'unica cosa presa in considerazione dai sistemi di raccomandazione basati sul contenuto. Alla luce delle selezioni precedenti dell'utente, nuove raccomandazioni sono fornite dal materiale correlato.

22. Cosa intendi esattamente per serie Time?

Una serie temporale è una raccolta di numeri in ordine crescente. In un periodo di tempo predeterminato, monitora il movimento dei punti dati selezionati e acquisisce periodicamente i punti dati.

Non vi è alcun input di tempo minimo o massimo per le serie temporali.

Le serie temporali sono spesso utilizzate dagli analisti per analizzare i dati in base ai loro requisiti unici.

23. Descrivi le variazioni tra gli algoritmi Gradient Boosting e Random Forest.

Foresta casuale:

Un gran numero di alberi decisionali sono raggruppati insieme alla fine e sono noti come foreste casuali.
Mentre l'aumento del gradiente produce ogni albero indipendentemente dagli altri, la foresta casuale costruisce ogni albero uno alla volta.
Multiclasse rilevamento oggetti funziona bene con foreste casuali.

Potenziamento del gradiente:

Mentre le foreste casuali si uniscono agli alberi decisionali alla fine del processo, le Gradient Boosting Machines le combinano dall'inizio.
Se i parametri vengono regolati in modo appropriato, l'aumento del gradiente supera le foreste casuali in termini di risultati, ma non è una scelta intelligente se il set di dati presenta molti valori anomali, anomalie o rumore poiché potrebbe causare un sovraadattamento del modello.
Quando ci sono dati sbilanciati, come nella valutazione del rischio in tempo reale, l'aumento del gradiente funziona bene.

24. Perché hai bisogno di una matrice di confusione? Che cos'è?

Una tabella nota come matrice di confusione, a volte nota come matrice di errore, è ampiamente utilizzata per mostrare le prestazioni di un modello di classificazione, o classificatore, su un insieme di dati di test per i quali sono noti i valori reali.

Ci consente di vedere come si comporta un modello o un algoritmo. Ci rende semplice individuare le incomprensioni tra i vari corsi.

Serve come un modo per valutare quanto bene viene eseguito un modello o un algoritmo.

Le previsioni di un modello di classificazione vengono compilate in una matrice di confusione. I valori di conteggio di ciascuna etichetta di classe sono stati utilizzati per scomporre il numero totale di previsioni corrette e errate.

Fornisce dettagli sugli errori commessi dal classificatore e sui diversi tipi di errori causati dai classificatori.

25. Che cos'è esattamente un'analisi delle componenti principali?

Riducendo al minimo il numero di variabili correlate tra loro, l'obiettivo è ridurre al minimo la dimensionalità della raccolta dei dati. Ma è importante mantenere la diversità il più possibile.

Le variabili vengono modificate in un insieme completamente nuovo di variabili chiamate componenti principali.

Questi PC sono ortogonali poiché sono autovettori di una matrice di covarianza.

26. Perché la rotazione dei componenti è così cruciale per la PCA (analisi dei componenti principali)?

La rotazione è fondamentale in PCA perché ottimizza la separazione tra le varianze ottenute da ciascun componente, semplificando l'interpretazione dei componenti.

Abbiamo bisogno di componenti estesi per esprimere la variazione dei componenti se i componenti non vengono ruotati.

27. In che modo la regolarizzazione e la normalizzazione variano l'una dall'altra?

Normalizzazione:

I dati vengono alterati durante la normalizzazione. Dovresti normalizzare i dati se hanno scale drasticamente diverse, specialmente da bassa ad alta. Regola ogni colonna in modo che le statistiche fondamentali siano tutte compatibili.

Per garantire che non vi sia perdita di precisione, questo può essere utile. Rilevare il segnale ignorando il rumore è uno degli obiettivi dell'addestramento del modello.

C'è una possibilità di overfitting se al modello viene dato il controllo completo per ridurre l'errore.

Regolarizzazione:

Nella regolarizzazione, la funzione di previsione viene modificata. Questo è soggetto a un certo controllo attraverso la regolarizzazione, che favorisce le funzioni di adattamento più semplici rispetto a quelle complicate.

28. In che modo normalizzazione e standardizzazione sono diverse l'una dall'altra?

Le due tecniche più utilizzate per il ridimensionamento delle funzionalità sono la normalizzazione e la standardizzazione.

Normalizzazione:

Il ridimensionamento dei dati per adattarsi a un intervallo [0,1] è noto come normalizzazione.
Quando tutti i parametri devono avere la stessa scala positiva, la normalizzazione è utile, ma i valori anomali del set di dati vengono persi.

Regolarizzazione:

I dati vengono ridimensionati per avere una media di 0 e una deviazione standard di 1 come parte del processo di standardizzazione (varianza unitaria)

29. Cosa si intende esattamente per “fattore di varianza inflazione”?

Il rapporto tra la varianza del modello e la varianza del modello con una sola variabile indipendente è noto come fattore di inflazione di variazione (VIF).

VIF stima la quantità di multicollinearità presente in un insieme di diverse variabili di regressione.

Varianza del modello (VIF) Modello con una varianza indipendente

30. In base alle dimensioni del set di allenamento, come scegli un classificatore?

Un modello ad alta distorsione e bassa varianza offre prestazioni migliori per un set di allenamento breve poiché è meno probabile un overfitting. Naive Bayes è un esempio.

Per rappresentare interazioni più complicate per un grande set di allenamento, è preferibile un modello con bassa distorsione e alta varianza. La regressione logistica è un buon esempio.

31. Quale algoritmo nell'apprendimento automatico viene definito "studente pigro" e perché?

Uno studente lento, KNN è un algoritmo di apprendimento automatico. Poiché K-NN calcola dinamicamente la distanza ogni volta che desidera classificare invece di apprendere valori o variabili appresi automaticamente dai dati di addestramento, memorizza il set di dati di addestramento.

Questo rende K-NN uno studente pigro.

32. Cosa sono la curva ROC e l'AUC?

La performance di un modello di classificazione a tutte le soglie è rappresentata graficamente dalla curva ROC. Ha criteri di tasso di vero positivo e di tasso di falso positivo.

In poche parole, l'area sotto la curva ROC è nota come AUC (Area Under the ROC Curve). Viene misurata l'area bidimensionale della curva ROC da (0,0) a AUC (1,1). Per valutare i modelli di classificazione binaria, viene utilizzato come statistica delle prestazioni.

33. Cosa sono gli iperparametri? Cosa li rende unici dai parametri del modello?

Una variabile interna del modello è nota come parametro del modello. Utilizzando i dati di addestramento, il valore di un parametro viene approssimato.

Sconosciuto al modello, un iperparametro è una variabile. Il valore non può essere determinato dai dati, quindi vengono spesso utilizzati per calcolare i parametri del modello.

34. Cosa significano il punteggio F1, il richiamo e la precisione?

La misura di confusione è la metrica utilizzata per misurare l'efficacia del modello di classificazione. Le seguenti frasi possono essere utilizzate per spiegare meglio la metrica di confusione:

TP: Veri positivi – Questi sono i valori positivi che sono stati previsti correttamente. Suggerisce che i valori della classe proiettata e della classe effettiva siano entrambi positivi.

TN: Veri negativi: questi sono i valori negativi che sono stati accuratamente previsti. Suggerisce che sia il valore della classe effettiva che quello previsto sono negativi.

Questi valori, falsi positivi e falsi negativi, si verificano quando la classe effettiva è diversa dalla classe prevista.

Adesso,

Il rapporto tra il tasso di vero positivo (TP) e tutte le osservazioni fatte nella classe effettiva è chiamato ricordo, noto anche come sensibilità.

Il richiamo è TP/(TP+FN).

La precisione è una misura del valore predittivo positivo, che confronta il numero di positivi realmente previsti dal modello con quanti positivi corretti prevede accuratamente.

La precisione è TP/(TP + FP)

La metrica delle prestazioni più semplice da comprendere è l'accuratezza, che è solo la proporzione delle osservazioni correttamente previste rispetto a tutte le osservazioni.

La precisione è uguale a (TP+TN)/(TP+FP+FN+TN).

Precisione e Recall sono ponderati e calcolati in media per fornire il punteggio F1. Di conseguenza, questo punteggio considera sia i falsi positivi che i falsi negativi.

F1 è spesso più prezioso dell'accuratezza, in particolare se si dispone di una distribuzione di classi disuguale, anche se intuitivamente non è così semplice da comprendere come l'accuratezza.

La migliore accuratezza si ottiene quando il costo dei falsi positivi e dei falsi negativi è comparabile. È preferibile includere sia Precisione che Recall se i costi associati ai falsi positivi e ai falsi negativi differiscono in modo significativo.

35. Che cos'è esattamente la convalida incrociata?

Un approccio di ricampionamento statistico chiamato convalida incrociata nell'apprendimento automatico utilizza diversi sottoinsiemi di set di dati per addestrare e valutare un algoritmo di apprendimento automatico in una serie di round.

Un nuovo batch di dati che non è stato utilizzato per addestrare il modello viene testato utilizzando la convalida incrociata per vedere quanto bene lo prevede il modello. L'overfitting dei dati viene impedito tramite la convalida incrociata.

K-Fold Il metodo di ricampionamento più utilizzato divide l'intero set di dati in K set di dimensioni uguali. Si chiama convalida incrociata.

36. Supponiamo che tu abbia scoperto che il tuo modello ha una varianza significativa. Quale algoritmo, secondo te, è più adatto a gestire questa situazione?

Gestione dell'elevata variabilità

Dovremmo usare la tecnica del bagging per problemi con grandi variazioni.

Il campionamento ripetuto di dati casuali verrebbe utilizzato dall'algoritmo di bagging per dividere i dati in sottogruppi. Una volta che i dati sono stati divisi, possiamo utilizzare dati casuali e una procedura di addestramento specifica per generare regole.

Successivamente, il polling potrebbe essere utilizzato per combinare le previsioni del modello.

37. Cosa distingue la regressione di Ridge dalla regressione di Lazo?

Due metodi di regolarizzazione ampiamente utilizzati sono la regressione Lasso (chiamata anche L1) e Ridge (a volte chiamata L2). Sono utilizzati per prevenire l'overfitting dei dati.

Per scoprire la soluzione migliore e ridurre al minimo la complessità, queste tecniche vengono utilizzate per punire i coefficienti. Penalizzando il totale dei valori assoluti dei coefficienti, opera la regressione Lazo.

La funzione di penalità nella regressione Ridge o L2 è derivata dalla somma dei quadrati dei coefficienti.

38. Che cosa è più importante: prestazioni del modello o accuratezza del modello? Quale e perché lo prediligerete?

Questa è una domanda ingannevole, quindi si dovrebbe prima capire cos'è la Model Performance. Se la prestazione è definita come velocità, allora dipende dal tipo di applicazione; qualsiasi applicazione che coinvolga una situazione in tempo reale richiederebbe l'alta velocità come componente cruciale.

Ad esempio, i migliori risultati di ricerca diventeranno meno preziosi se i risultati della query impiegano troppo tempo per arrivare.

Se le prestazioni vengono utilizzate come giustificazione del motivo per cui la precisione e il richiamo dovrebbero avere la priorità rispetto all'accuratezza, un punteggio F1 sarà più utile dell'accuratezza nel dimostrare il business case per qualsiasi set di dati sbilanciato.

39. Come gestiresti un set di dati con disuguaglianze?

Un set di dati sbilanciato può trarre vantaggio dalle tecniche di campionamento. Il campionamento può essere eseguito in modo sotto o sovracampionato.

Under Sampling ci consente di ridurre le dimensioni della classe maggioritaria in modo che corrisponda alla classe minoritaria, il che aiuta ad aumentare la velocità per quanto riguarda l'archiviazione e l'esecuzione in fase di esecuzione, ma può anche comportare la perdita di dati preziosi.

Al fine di porre rimedio al problema della perdita di informazioni causata dal sovracampionamento, eseguiamo il sovracampionamento della classe Minority; tuttavia, questo ci fa incontrare problemi di overfitting.

Ulteriori strategie includono:

Sovracampionamento basato su cluster: in questa situazione le istanze delle classi di minoranza e di maggioranza sono individualmente soggette alla tecnica di clustering K-mean. Questo viene fatto per trovare i cluster di set di dati. Quindi, ogni cluster viene sovracampionato in modo che tutte le classi abbiano la stessa dimensione e tutti i cluster all'interno di una classe abbiano un numero uguale di istanze.
SMOTE: tecnica di sovracampionamento della minoranza sintetica: come esempio viene utilizzata una fetta di dati della classe di minoranza, dopodiché vengono prodotte e aggiunte al set di dati originale ulteriori istanze artificiali paragonabili ad essa. Questo metodo funziona bene con punti dati numerici.

40. Come puoi distinguere tra boosting e bagging?

Le tecniche di ensemble hanno versioni conosciute come bagging e boosting.

insacco-

Per algoritmi con una variazione elevata, il bagging è una tecnica utilizzata per ridurre la varianza. Una di queste famiglie di classificatori che è soggetta a pregiudizi è la famiglia dell'albero decisionale.

Il tipo di dati su cui vengono addestrati gli alberi decisionali ha un impatto significativo sulle loro prestazioni. Per questo motivo, anche con una messa a punto molto elevata, la generalizzazione dei risultati a volte è molto più difficile da ottenere in essi.

Se i dati di addestramento degli alberi decisionali vengono modificati, i risultati variano notevolmente.

Di conseguenza, viene utilizzato il bagging, in cui vengono creati molti alberi decisionali, ognuno dei quali viene addestrato utilizzando un campione dei dati originali e il risultato finale è la media di tutti questi diversi modelli.

Potenziamento:

Il boosting è la tecnica per fare previsioni con un sistema di classificazione n-debole in cui ogni classificatore debole compensa le carenze dei suoi classificatori più forti. Ci riferiamo a un classificatore che funziona male su un determinato set di dati come un "classificatore debole".

Il potenziamento è ovviamente un processo piuttosto che un algoritmo. La regressione logistica e gli alberi decisionali superficiali sono esempi comuni di classificatori deboli.

Adaboost, Gradient Boosting e XGBoost sono i due algoritmi di potenziamento più popolari, tuttavia ce ne sono molti altri.

41. Spiegare le differenze tra apprendimento induttivo e deduttivo.

Quando si apprende con l'esempio da una serie di esempi osservati, un modello utilizza l'apprendimento induttivo per arrivare a una conclusione generalizzata. D'altra parte, con l'apprendimento deduttivo, il modello utilizza il risultato prima di formarne uno proprio.

L'apprendimento induttivo è il processo per trarre conclusioni dalle osservazioni.

L'apprendimento deduttivo è il processo di creazione di osservazioni basate su inferenze.

Conclusione

Congratulazioni! Queste sono le prime 40 domande del colloquio per l'apprendimento automatico di cui ora conosci le risposte. Scienza dei dati e intelligenza artificiale le occupazioni continueranno ad essere richieste man mano che la tecnologia avanza.

I candidati che aggiornano la loro conoscenza di queste tecnologie all'avanguardia e migliorano le loro competenze possono trovare un'ampia varietà di possibilità di lavoro con una retribuzione competitiva.

Puoi procedere con la risposta alle interviste ora che hai una solida comprensione di come rispondere ad alcune delle domande più frequenti del colloquio di apprendimento automatico.

A seconda dei tuoi obiettivi, fai il passaggio seguente. Preparati per le interviste visitando Hashdork's Serie di interviste.

Domande per l'intervista sull'apprendimento automatico

Le oltre 40 domande più frequenti sull'intervista sull'apprendimento automatico