Table di cuntinutu[Piattà][Mostra]
- 1. Spiegà e sfarenze trà l'apprendimentu machine, l'intelligenza artificiale è l'apprendimentu prufondu.
- 2. Please discrìviri i sfarenti tippi di machine learning.
- 3. Chì ghjè u bias versus variance trade-off ?
- 4. L'algoritmi d'apprendimentu automaticu anu evolutu significativamente cù u tempu. Cumu si sceglie l'algoritmu ghjustu à utilizà datu un set di dati?
- 5. Cumu a covarianza è a correlazione sò diffirenti?
- 6. In l'apprendimentu machine, chì significa clustering ?
- 7. Chì ghjè u vostru algoritmu d'apprendimentu machine preferitu?
- 8. Regressione Linear in Machine Learning: Cosa hè?
- 9. Descrive e sfarenze trà KNN è k-means clustering.
- 10. Chì significa per voi "bias di selezzione"?
- 11. Chì ghjè esattamente u Teorema di Bayes ?
- 12. In un Modellu di Machine Learning, chì sò "Set di furmazione" è "Setu di prova"?
- 13. Chì ghjè una ipotesi in Machine Learning ?
- 14. Chì significà u overfitting machine learning, è cumu pò esse impeditu ?
- 15. Chì sò esattamente i classificatori Naive Bayes ?
- 16. Chì significanu Funzioni di costu è Funzioni di perdita ?
- 17. Chì distingue un mudellu generativu da un mudellu discriminativu ?
- 18. Descrivite e variazioni trà l'errore di u tipu I è u tipu II.
- 19. In machine learning, chì hè a tecnica di apprendimentu Ensemble?
- 20. Chì sò esattamente mudelli parametrici ? Dà un esempiu.
- 21. Descrive u filtru cullaburazione. In quantu à u filtru basatu in cuntenutu?
- 22. Chì veramente voli dì a serie Time ?
- 23. Describe i variazioni trà l'algoritmi Gradient Boosting è Random Forest.
- 24. Perchè avete bisognu di una matrice di cunfusione ? Chi hè què?
- 25. Cosa hè esattamente un analisi cumpunenti principiu?
- 26. Perchè a rotazione di cumpunenti hè cusì cruciale per PCA (analisi di cumpunenti principali)?
- 27. Cumu varianu a regularizazione è a nurmalizazione l’una di l’altru ?
- 28. In quantu a nurmalizazione è a standardizazione sò diffirenti l'una di l'altru ?
- 29. Chì significà esattamente "fattore di inflazione di varianza"?
- 30. Basatu nantu à a dimensione di u gruppu di furmazione, cumu sceglite un classificatore?
- 31. Chì l'algoritmu in l'apprendimentu di machine hè chjamatu "alumni pigro" è perchè?
- 32. Chì sò a curva ROC è AUC ?
- 33. Chì sò iperparametri ? Chì li rende unichi da i paràmetri di u mudellu?
- 34. Chì significà F1 Score, ricurdà è precisione ?
- 35. Chì hè esattamente a validazione incruciata ?
- 36. Dicemu chì avete scupertu chì u vostru mudellu hà una varianza significativa. Chì l'algoritmu, in u vostru parè, hè più adattatu per trattà sta situazione?
- 37. Chì distingue a regressione Ridge da a regressione Lasso ?
- 38. Chì hè più impurtante: prestazione di mudellu o precisione di mudellu ? Qualessu è perchè vi favurite?
- 39. Cumu gestione un dataset cù inuguaglianze ?
- 40. Cumu si distingue trà boosting è bagging ?
- 41. Spiegà e sfarenze trà l’apprendimentu induttivu è deduttivu.
- cunchiusioni
L'imprese utilizanu tecnulugia di punta, cum'è l'intelligenza artificiale (AI) è l'apprendimentu automaticu, per aumentà l'accessibilità di l'infurmazioni è di i servizii à l'individui.
Sti tecnulugii sò aduttati da una varietà di industrii, cumpresi banca, finanza, retail, manufacturing è sanità.
Unu di i ruoli organizzativi più ricercati chì utilizanu AI hè per i scientisti di dati, ingegneri di intelligenza artificiale, ingegneri di apprendimentu automaticu è analisti di dati.
Stu post vi guidarà attraversu una varietà di machine learning dumande d'entrevista, da basi à cumplessu, per aiutà à preparà tutte e dumande chì pudete esse dumandatu quandu cercate u vostru travagliu ideale.
1. Spiegà e sfarenze trà l'apprendimentu machine, l'intelligenza artificiale è l'apprendimentu prufondu.
L'intelligenza artificiale impiega una varietà di apprendimentu automaticu è approcci di apprendimentu profondu chì permettenu à i sistemi informatici di realizà compiti chì utilizanu l'intelligenza umana cù logica è regule.
L'apprendimentu di a macchina usa una varietà di statistiche è approcci di Deep Learning per permette à e macchine di amparà da e so prestazioni precedenti è diventanu più abili à fà certe attività da sè senza supervisione umana.
Deep Learning hè una cullizzioni di algoritmi chì permette à u software di amparà da ellu stessu è di realizà una varietà di funzioni cummirciali, cum'è a ricunniscenza di voce è di stampa.
Sistemi chì espone i so multilayered Redes neuronali à vaste quantità di dati per l'apprendimentu sò capaci di fà un apprendimentu prufondu.
2. Please discrìviri i sfarenti tippi di machine learning.
L'apprendimentu automaticu esiste in trè tippi diffirenti in generale:
- Apprendimentu Supervisatu: Un mudellu crea predizioni o ghjudizii utilizendu dati etichettati o storichi in l'apprendimentu automaticu supervisatu. I setti di dati chì sò stati marcati o etichettati per aumentà u so significatu sò chjamati dati etichettati.
- Apprendimentu senza supervisione: Ùn avemu micca dati etichettati per l'apprendimentu senza supervisione. In i dati entranti, un mudellu pò truvà mudelli, stranezze è correlazioni.
- Apprendimentu di rinforzu: U mudellu pò amparà cù u rinfurzamentu l'apprendimentu è a ricumpensa chì hà ricevutu per u so cumpurtamentu precedente.
3. Chì ghjè u bias versus variance trade-off ?
Overfitting hè u risultatu di preghjudiziu, chì hè u gradu à quale un mudellu si adatta à e dati. U bias hè causatu da supposizioni sbagliate o troppu simplici in u vostru algoritmu di apprendimentu machine.
A varianza si riferisce à l'errori causati da a cumplessità in u vostru algoritmu ML, chì produce sensibilità à grandi gradi di varianza in dati di furmazione è overfitting.
A varianza hè quantu un mudellu varieghja dipende da l'inputs.
In altre parolle, i mudelli basi sò estremamente biased ma stabile (bassa varianza). L'overfitting hè un prublema cù mudelli cumplessi, ancu s'ellu si capiscenu a realità di u mudellu (bassu preghjudiziu).
Per prevene l'alta variazione è l'altu preghjudiziu, un trade-off trà bias è varianza hè necessariu per a megliu riduzione di l'errore.
4. L'algoritmi d'apprendimentu automaticu anu evolutu significativamente cù u tempu. Cumu si sceglie l'algoritmu ghjustu à utilizà datu un set di dati?
A tecnica di apprendimentu automaticu chì deve esse aduprata dipende solu da u tipu di dati in un set di dati specificu.
Quandu i dati sò lineari, a regressione lineare hè aduprata. U metudu di l'insaccatura rende megliu se i dati indicanu a non-linearità. Pudemu aduprà l'arbureti di decisione o SVM se i dati anu da esse evaluati o interpretati per scopi cummerciale.
E rete neurali ponu esse utili per ottene una risposta precisa se u dataset include foto, video è audio.
L'scelta di l'algoritmu per una circustanza specifica o cullizzioni di dati ùn pò esse fatta solu nantu à una sola misura.
Per u scopu di sviluppà u metudu più adattatu, duvemu prima esaminà e dati utilizendu l'analisi di dati esploratori (EDA) è capisce u scopu di utilizà u set di dati.
5. Cumu a covarianza è a correlazione sò diffirenti?
A covarianza valuta cumu duie variàbili sò cunnessi l'una cù l'altru è cumu si pò cambià in risposta à i cambiamenti in l'altru.
Se u risultatu hè pusitivu, indica chì ci hè un ligame direttu trà e variàbili è chì unu avaria o diminuite cù un incrementu o diminuzione di a variàbbili di basa, assumendu chì tutti l'altri cundizioni sò custanti.
A correlazione misura u ligame trà duie variàbili aleatorii è hà solu trè valori distinti: 1, 0 è -1.
6. In l'apprendimentu machine, chì significa clustering ?
I metudi di apprendimentu senza supervisione chì raggruppanu i punti di dati sò chjamati clustering. Cù una cullizzioni di punti di dati, a tecnica di clustering pò esse applicata.
Pudete aggrupà tutti i punti di dati secondu e so funzioni cù sta strategia.
E caratteristiche è e qualità di i punti di dati chì falanu in a listessa categuria sò simili, mentre chì quelli di i punti di dati chì falanu in gruppi separati sò diffirenti.
Stu approcciu pò esse usatu per analizà e dati statistichi.
7. Chì ghjè u vostru algoritmu d'apprendimentu machine preferitu?
Avete a pussibilità di dimustrà e vostre preferenze è i talenti unichi in questa quistione, è ancu a vostra cunniscenza cumpleta di numerosi tecnichi d'apprendimentu di macchina.
Eccu alcuni algoritmi tipici di apprendimentu di machine à pensà:
- Regressione lineare
- Regressione logistica
- Bayes ingenu
- Decision tree
- K significa
- Algoritmu di furesta casuale
- K-Nearest neighbor (KNN)
8. Regressione Linear in Machine Learning: Cosa hè?
Un algoritmu di apprendimentu automaticu supervisatu hè una regressione lineare.
Hè impiegatu in l'analisi predittivu per determinà a cunnessione lineale trà e variàbili dipendenti è indipendenti.
L'equazioni di regressione lineare hè a siguenti:
Y = A + BX
induve:
- L'input o variabile indipendente hè chjamatu X.
- A variabile dipendente o di output hè Y.
- U coefficient di X hè b, è a so intercetta hè a.
9. Descrive e sfarenze trà KNN è k-means clustering.
A distinzione primaria hè chì KNN (un metudu di classificazione, apprendimentu supervisatu) hà bisognu di punti marcati mentre k-means ùn hà micca (algoritmu di clustering, apprendimentu senza supervisione).
Pudete classificà e dati etichettati in un puntu senza etichetta utilizendu K-Nearest Neighbors. U clustering K-means usa a distanza media trà i punti per amparà cumu aggrupà punti senza etichetta.
10. Chì significa per voi "bias di selezzione"?
U preghjudiziu in a fase di campionamentu di un esperimentu hè dovutu à l'imprecisione statistica.
Un gruppu di mostra hè sceltu più freti chì l'altri gruppi in l'esperimentu per via di l'imprecisione.
Se u preghjudiziu di selezzione ùn hè micca ricunnisciutu, pò esse risultatu in una cunclusione incorrecta.
11. Chì ghjè esattamente u Teorema di Bayes ?
Quandu avemu cunnisciutu altre probabilità, pudemu determinà una probabilità cù u Teorema di Bayes. Offre a probabilità a posteriori di un avvenimentu basatu annantu à l'infurmazioni prima, in altre parolle.
Un metudu sonu per a stima di probabilità cundiziunali hè furnitu da stu teorema.
Quandu si sviluppanu prublemi di mudeli predittivi di classificazione è adattanu un mudellu à una furmazione dataset in machine learning, u teorema di Bayes hè applicatu (ie Naive Bayes, Bayes Optimal Classifier).
12. In un Modellu di Machine Learning, chì sò "Set di furmazione" è "Setu di prova"?
Set di furmazione:
- U settore di furmazione hè custituitu di istanze chì sò mandati à u mudellu per l'analisi è l'apprendimentu.
- Eccu i dati etichettati chì seranu utilizati per furmà u mudellu.
- Di genere, u 70% di i dati totali sò usati cum'è dataset di furmazione.
Test Set:
- U set di test hè utilizatu per valutà a precisione di generazione di l'ipotesi di u mudellu.
- Testemu senza dati etichettati è dopu aduprà etichette per cunfirmà i risultati.
- U 30% restante hè utilizatu cum'è un set di dati di prova.
13. Chì ghjè una ipotesi in Machine Learning ?
Machine Learning permette l'usu di datasets esistenti per capisce megliu una funzione data chì liga l'input à l'output. Questu hè cunnisciutu cum'è l'approssimazione di a funzione.
In questu casu, l'approssimazione deve esse impiegata per a funzione di destinazione scunnisciuta per trasferisce tutte l'osservazioni cuncepibili basate nantu à a situazione data in u megliu modu pussibule.
In l'apprendimentu automaticu, una ipotesi hè un mudellu chì aiuta à stimà a funzione di destinazione è cumpiendu i mappings input-to-output adattati.
A selezzione è u disignu di l'algoritmi permettenu a definizione di u spaziu di pussibuli ipotesi chì ponu esse rapprisintati da un mudellu.
Per una sola ipotesi, h minuscule (h) hè aduprata, ma a capitale h (H) hè usata per tuttu u spaziu di l'ipotesi chì hè cercatu. Avemu da esaminà brevemente queste notazioni:
- Una ipotesi (h) hè un mudellu particulari chì facilita a mappatura di l'input à l'output, chì pò esse aduprata in seguitu per a valutazione è a prediczione.
- Un inseme di ipotesi (H) hè un spaziu di ricerca di ipotesi chì ponu esse utilizati per mape inputs à outputs. Issue framing, mudellu è cunfigurazione di mudellu sò uni pochi esempi di limitazioni generiche.
14. Chì significà u overfitting machine learning, è cumu pò esse impeditu ?
Quandu una macchina tenta di amparà da un insufficiente dataset, si verifica un overfitting.
In u risultatu, l'overfitting hè inversamente correlatu cù u voluminu di dati. L'approcciu di validazione incruciata permette di evità l'overfitting per i picculi datasets. Un dataset hè divisu in dui parti in stu metudu.
U dataset per a prova è a furmazione serà custituitu da sti dui parti. U dataset di furmazione hè utilizatu per creà un mudellu, mentre chì u dataset di prova hè utilizatu per evaluà u mudellu cù inputs differenti.
Questu hè cumu per prevene l'overfitting.
15. Chì sò esattamente i classificatori Naive Bayes ?
Diversi metudi di classificazione custituiscenu i classificatori Naive Bayes. Un inseme di algoritmi cunnisciuti cum'è questi classificatori travaglianu tutti nantu à a listessa idea fundamentale.
L'assunzione fatta da i classificatori ingenui di Bayes hè chì a presenza o l'assenza di una funzione ùn hà micca impattu nantu à a presenza o l'assenza di una altra caratteristica.
In altre parolle, questu hè ciò chì avemu riferitu cum'è "ingenu" postu chì face l'assunzione chì ogni attributu di dataset hè ugualmente significativu è indipendente.
A classificazione hè fatta cù classificatori Bayes ingenu. Sò simplici d'utilizà è pruduce risultati megliu cà predittori più cumplessi quandu a premessa di l'indipendenza hè vera.
In l'analisi di testu, filtru spam è sistemi di ricunniscenza, sò impiegati.
16. Chì significanu Funzioni di costu è Funzioni di perdita ?
A frasa "funzione di perdita" si riferisce à u prucessu di perdita di l'informatica quandu un solu pezzu di dati hè pigliatu in contu.
À u cuntrariu, utilizemu a funzione di costu per determinà a quantità tutale di sbagli per numerosi dati. Ùn ci hè micca una distinzione significativa.
In altre parolle, mentre chì e funzioni di costu aggregate a diffarenza per tuttu u set di dati di furmazione, e funzioni di perdita sò pensate per catturà a diffarenza trà i valori attuali è previsti per un unicu record.
17. Chì distingue un mudellu generativu da un mudellu discriminativu ?
Un mudellu discriminativu ampara e differenze trà parechje categurie di dati. Un mudellu generativu piglia diversi tipi di dati.
Nantu à i prublemi di classificazione, i mudelli discriminatori spessu superanu altri mudelli.
18. Descrivite e variazioni trà l'errore di u tipu I è u tipu II.
I falsi pusitivi cadenu sottu à a categuria di l'errori di u tipu I, mentri i falsi negativi sò sottu à l'errori di u tipu II (pretendendu chì nunda hè accadutu quandu hè veramente).
19. In machine learning, chì hè a tecnica di apprendimentu Ensemble?
Una tecnica chjamata apprendimentu d'inseme mischja parechji mudelli di apprendimentu di macchina per pruduce mudelli più potenti.
Un mudellu pò esse variatu per una varietà di motivi. Diversi causi sò:
- Populazioni varii
- Varie ipotesi
- Diversi metudi di mudellu
Truveremu un prublema durante l'usu di i dati di furmazione è di prova di u mudellu. U preghjudiziu, a varianza è l'errore irreductible sò pussibuli tipi di stu sbagliu.
Avà, chjamemu questu equilibriu trà preghjudiziu è varianza in u mudellu un trade-off bias-variance, è deve esse sempre. Stu trade-off hè realizatu per mezu di l'usu di l'apprendimentu di l'ensemble.
Ancu s'ellu ci sò parechji approcci d'inseme dispunibili, ci sò duie strategie cumuni per cumminà parechji mudelli:
- Un approcciu nativu chjamatu bagging usa u settore di furmazione per pruduce setti di furmazione supplementari.
- Boosting, una tecnica più sofisticata: Assai cum'è bagging, boosting hè utilizatu per truvà a formula di ponderazione ideale per un set di furmazione.
20. Chì sò esattamente mudelli parametrici ? Dà un esempiu.
Ci hè una quantità limitata di parametri in mudelli parametrici. Per previsione di dati, tuttu ciò chì avete bisognu di sapè sò i paràmetri di u mudellu.
I seguenti sò esempi tipici: regressione logistica, regressione lineale è SVM lineari. I mudelli non parametrici sò flessibili, postu chì ponu cuntene un numeru illimitatu di parametri.
I paràmetri di u mudellu è u statutu di e dati osservati sò richiesti per e previsioni di dati. Eccu alcuni esempi tipici: mudelli di tematiche, arburi di decisione, è k-vicini più vicini.
21. Descrive u filtru cullaburazione. In quantu à u filtru basatu in cuntenutu?
Un metudu pruvatu è veru per creà suggerimenti di cuntenutu adattatu hè u filtru cullaburazione.
Una forma di sistema di ricunniscenza chjamata filtrazione cullaburazione predice materiale frescu equilibrendu e preferenze di l'utilizatori cù interessi cumuni.
E preferenze di l'utilizatori sò l'unicu ciò chì i sistemi di ricunniscenza basati in cuntenutu cunzidenu. In vista di e selezioni precedenti di l'utilizatori, novi cunsiglii sò furniti da materiale cunnessu.
22. Chì veramente voli dì a serie Time ?
Una serie temporale hè una cullizzioni di numeri in ordine crescente. In un periodu di tempu predeterminatu, monitoreghja u muvimentu di i punti di dati selezziunati è cattura periodicamente i punti di dati.
Ùn ci hè micca un input di tempu minimu o massimu per a serie temporale.
A serie temporale hè spessu usata da l'analista per analizà e dati in cunfurmità cù i so bisogni unichi.
23. Describe i variazioni trà l'algoritmi Gradient Boosting è Random Forest.
Random Forest:
- Un gran numaru d'arburi di decisione sò riuniti inseme à a fine è sò cunnisciuti cum'è fureste aleatorii.
- Mentre chì a crescita di gradiente produce ogni arbre indipindentamente di l'altri, u boscu aleatoriu custruisce ogni arbre unu à un tempu.
- Multiclasse rilevazione d'ogetti funziona bè cù e fureste aleatorii.
Amplificazione di gradiente:
- Mentre i fureste Random si uniscenu à l'arburi di decisione à a fine di u prucessu, Gradient Boosting Machines li combina da u principiu.
- Se i paràmetri sò adattati in modu adattatu, u gradient boosting supera i fureste aleatorii in termini di risultati, ma ùn hè micca una scelta intelligente se u settore di dati hà assai outliers, anomalie, o rumore postu chì puderia causà u mudellu per diventà overfit.
- Quandu ci sò dati sbilanciati, cum'è in a valutazione di u risicu in tempu reale, l'incrementu di gradiente funziona bè.
24. Perchè avete bisognu di una matrice di cunfusione ? Chi hè què?
Una tavula cunnisciuta cum'è a matrice di cunfusione, à qualchì volta cunnisciuta cum'è a matrice d'errore, hè largamente usata per dimustrà quantu bè un mudellu di classificazione, o classificatore, eseguisce nantu à un inseme di dati di teste per quale i valori veri sò cunnisciuti.
Ci permette di vede cumu si comporta un mudellu o un algoritmu. Ci hè simplice per noi di scopre i malintesi trà i vari corsi.
Serve cum'è una manera di valutà quantu un mudellu o un algoritmu hè realizatu.
E predizioni di un mudellu di classificazione sò compilate in una matrice di cunfusione. I valori di cunti di ogni etichetta di classi sò stati usati per scumpressà u numeru tutale di prediczioni currette è sbagliate.
Fornisce dettagli nantu à i difetti fatti da u classificatore è ancu i diversi tipi d'errori causati da i classificatori.
25. Cosa hè esattamente un analisi cumpunenti principiu?
Per minimizzà u numeru di variàbili chì sò correlati l'una cù l'altru, u scopu hè di minimizzà a dimensionalità di a cullizzioni di dati. Ma hè impurtante di mantene a diversità quantu pussibule.
I variàbili sò cambiati in un settore completamente novu di variàbili chjamati cumpunenti principali.
Questi PC sò ortogonali postu chì sò vettori propri di una matrice di covarianza.
26. Perchè a rotazione di cumpunenti hè cusì cruciale per PCA (analisi di cumpunenti principali)?
A rotazione hè cruciale in PCA perchè ottimizza a separazione trà e varianze ottenute da ogni cumpunente, facendu l'interpretazione di cumpunenti più simplice.
Avemu bisognu di cumpunenti estesi per sprime a variazione di cumpunenti se i cumpunenti ùn sò micca rotati.
27. Cumu varianu a regularizazione è a nurmalizazione l’una di l’altru ?
Normalizazione:
I dati sò alterati durante a normalizazione. Tu avissi a nurmalizà i dati s'ellu hà scale chì sò drasticamenti differente, soprattuttu da bassu à altu. Aghjustate ogni colonna per chì e statistiche fundamentali sò tutte cumpatibili.
Per assicurà chì ùn ci hè micca perdita di precisione, questu pò esse utile. A rilevazione di u segnu mentre ignurà u rumore hè unu di l'ugettivi di a furmazione di mudelli.
Ci hè una chance di overfitting se u mudellu hè datu un cuntrollu cumpletu per riduce l'errore.
Regularization:
In a regularizazione, a funzione di prediczione hè mudificata. Questu hè sottumessu à un certu cuntrollu attraversu a regularizazione, chì favurizeghja e funzioni di adattazione più simplici nantu à e complicate.
28. In quantu a nurmalizazione è a standardizazione sò diffirenti l'una di l'altru ?
I dui tecnichi più utilizati per a scala di funziunalità sò a normalizazione è a standardizazione.
Normalizazione:
- Rescaling the data to suit a [0,1] range is known as normalization.
- Quandu tutti i paràmetri anu da avè a listessa scala pusitiva, a nurmalizazione hè utile, ma l'outliers di u set di dati sò persi.
Regularization:
- I dati sò ridimensionati per avè una media di 0 è una deviazione standard di 1 cum'è parte di u prucessu di standardizazione (varianza unità)
29. Chì significà esattamente "fattore di inflazione di varianza"?
U rapportu di a varianza di u mudellu à a varianza di u mudellu cù una sola variable indipindente hè cunnisciuta cum'è u factor d'inflazione di variazione (VIF).
VIF stima a quantità di multicolinearità presente in un inseme di parechje variabili di regressione.
Varianza di u mudellu (VIF) Model with One Variable Variable Indipendente
30. Basatu nantu à a dimensione di u gruppu di furmazione, cumu sceglite un classificatore?
Un mudellu di preghjudiziu elevatu, di varianza bassa rende megliu per un gruppu di furmazione corta postu chì l'overfitting hè menu prubabile. Naive Bayes hè un esempiu.
Per rapprisintà interazzione più complicata per un grande gruppu di furmazione, un mudellu cù preghjudiziu bassu è alta varianza hè preferibile. A regressione logistica hè un bon esempiu.
31. Chì l'algoritmu in l'apprendimentu di machine hè chjamatu "alumni pigro" è perchè?
Un studiente lento, KNN hè un algoritmu di apprendimentu machine. Perchè K-NN calcula dinamicamente a distanza ogni volta chì vole classificà invece d'amparà qualsiasi valori o variabili appresi da a macchina da i dati di furmazione, memorizeghja u dataset di furmazione.
Questu facenu K-NN un studiente pigro.
32. Chì sò a curva ROC è AUC ?
U rendiment di un mudellu di classificazione à tutti i soglia hè rapprisintatu gràficamente da a curva ROC. Hà un veru tassu pusitivu è un criteriu di tassu falsi pusitivu.
Simply put, l'area sottu a curva ROC hè cunnisciuta cum'è AUC (Area Under the ROC Curve). L'area bidimensionale di a curva ROC da (0,0) à AUC hè misurata (1,1). Per valutà mudelli di classificazione binari, hè impiegatu cum'è statistiche di rendiment.
33. Chì sò iperparametri ? Chì li rende unichi da i paràmetri di u mudellu?
Una variabile interna di u mudellu hè cunnisciuta cum'è un paràmetru di mudellu. Utilizendu dati di furmazione, u valore di un paràmetru hè apprussimatu.
Unknown à u mudellu, un hyperparameter hè una variàbbili. U valore ùn pò esse determinatu da i dati, cusì sò spessu impiegati per calculà i paràmetri di u mudellu.
34. Chì significà F1 Score, ricurdà è precisione ?
A misura di cunfusione hè a metrica impiegata per calibre l'efficacità di u mudellu di classificazione. E seguenti frasi ponu esse usate per spiegà megliu a metrica di cunfusione:
TP: True Positives - Quessi sò i valori pusitivi chì anu anticipatu bè. Suggerisce chì i valori di a classa prughjettata è a classa attuale sò tramindui pusitivi.
TN: True Negatives- Quessi sò i valori avversi chì sò stati previsti accuratamente. Suggerisce chì u valore di a classa attuale è a classa anticipata sò negativi.
Questi valori - falsi pusitivi è falsi negativi - si trovanu quandu a vostra classa attuale difiere da a classa anticipata.
Avà,
U rapportu di u veru ritmu pusitivu (TP) à tutte l'osservazioni fatte in a classa attuale hè chjamatu recall, cunnisciutu ancu sensibilità.
U ricurdamentu hè TP/(TP+FN).
A precisione hè una misura di u valore predittivu pusitivu, chì paraguna u numeru di pusitivi chì u mudellu predice veramente à quanti pusitivi curretti predice accuratamente.
A precisione hè TP/(TP + FP)
A metrica di rendimentu più faciule per capiscenu hè a precisione, chì hè solu a proporzione di l'osservazioni prediche bè à tutte l'osservazioni.
A precisione hè uguale à (TP+TN)/(TP+FP+FN+TN).
A precisione è a ricumpensa sò ponderate è mediate per furnisce u Score F1. In u risultatu, sta puntuazione cunsidereghja i falsi pusitivi è falsi negativi.
F1 hè spessu più preziosa di l'accuratezza, particularmente s'ellu avete una distribuzione di classi ineguali, ancu s'è intuitivamente ùn hè micca cusì simplice di capiscenu cum'è precisione.
A megliu precisione hè ottenuta quandu u costu di falsi pusitivi è falsi negativi hè paragunabili. Hè preferibile include Precisione è Recall se i costi assuciati cù falsi pusitivi è falsi negativi sò significativamente diffirenti.
35. Chì hè esattamente a validazione incruciata ?
Un approcciu di resampling statisticu chjamatu validazione incrociata in l'apprendimentu di a macchina impiega parechji subsets di dataset per furmà è valutà un algoritmu di apprendimentu di macchina in una quantità di round.
Un novu batch di dati chì ùn era micca usatu per furmà u mudellu hè pruvatu cù validazione incruciata per vede quantu u mudellu predice. L'overfitting di dati hè impeditu da a validazione incruciata.
K-Fold U metudu di resampling più spessu usatu divide l'insieme di dati sanu in K insemi di dimensioni uguali. Hè chjamatu cross-validation.
36. Dicemu chì avete scupertu chì u vostru mudellu hà una varianza significativa. Chì l'algoritmu, in u vostru parè, hè più adattatu per trattà sta situazione?
Gestisce una alta variabilità
Duvemu aduprà a tecnica di bagging per i prublemi cù grande variazioni.
U campionamentu ripetutu di dati aleatorii seria utilizatu da l'algoritmu di bagging per dividisce e dati in sottogruppi. Una volta chì i dati sò stati divisi, pudemu utilizà dati aleatorii è una prucedura di furmazione specifica per generà regule.
Dopu questu, u sondaghju puderia esse usatu per cumminà e previsioni di u mudellu.
37. Chì distingue a regressione Ridge da a regressione Lasso ?
Dui metudi di regularizazione largamente utilizati sò a regressione Lasso (chjamata ancu L1) è Ridge (qualchì volta chjamata L2). Sò usati per impediscenu l'overfitting di dati.
Per scopre a megliu suluzione è minimizzà a cumplessità, queste tecniche sò impiegate per punisce i coefficienti. Per penalizà u tutale di i valori assoluti di i coefficienti, a regressione Lasso opera.
A funzione di penalità in a regressione Ridge o L2 hè derivata da a somma di i quadrati di i coefficienti.
38. Chì hè più impurtante: prestazione di mudellu o precisione di mudellu ? Qualessu è perchè vi favurite?
Questa hè una quistione ingannosa, cusì unu deve prima capisce ciò chì hè u Performance Model. Se u rendiment hè definitu cum'è rapidità, allora si basa nantu à u tipu d'applicazione; ogni applicazione chì implica una situazione in tempu reale necessitava una alta velocità cum'è un cumpunente cruciale.
Per esempiu, i migliori risultati di ricerca diventeranu menu preziosi se i risultati di a Query piglianu troppu tempu per arrivà.
Se u Performance hè aduprata cum'è una ghjustificazione per quessa chì a precisione è u ricordu deve esse priorità sopra à a precisione, allora un puntuatu F1 serà più utile chì a precisione per dimustrà u casu cummerciale per qualsiasi settore di dati chì hè sbilanciatu.
39. Cumu gestione un dataset cù inuguaglianze ?
Un dataset sbilanciatu pò prufittà di tecniche di campionamentu. U campionamentu pò esse fattu in una moda sottu o sopra campionu.
Under Sampling ci permette di riduzzione di a dimensione di a classa majuranza per currisponde à a classa minoritaria, chì aiuta à aumentà a velocità in quantu à l'almacenamiento è l'esekzione in run-time, ma pò ancu risultatu in a perdita di dati preziosi.
In ordine per rimedià u prublema di perdita di infurmazione causata da oversampling, avemu upsample a classa Minurità; in ogni casu, questu ci porta à curriri in prublemi di overfitting.
Strategie supplementari includenu:
- Cluster-Based Over Sampling- L'istanze di classi minoritarie è di majuranza sò individualmente sottumessi à a tecnica di clustering K-means in questa situazione. Questu hè fattu per truvà clusters di dataset. Allora, ogni cluster hè oversampled in modu chì tutte e classi anu a listessa dimensione è tutti i clusters in una classe anu un uguale numeru di casi.
- SMOTE: Synthetic Minority Over-Sampling Technique- Una fetta di dati da a classa minoritaria hè aduprata cum'è un esempiu, dopu à quale istanze artificiali supplementari chì sò paragunabili à questu sò prudutte è aghjunte à u dataset originale. Stu metudu travaglia bè cù punti dati numerichi.
40. Cumu si distingue trà boosting è bagging ?
Ensemble Techniques hannu versioni canusciutu comu bagging e boosting.
insaccatura-
Per l'algoritmi cù una variazione alta, u bagging hè una tecnica utilizata per calà a varianza. Una tali famiglia di classificatori chì hè propensu à preghjudiziu hè a famiglia di l'arbre di decisione.
U tipu di dati chì l'arbureti di decisione sò furmati hà un impattu significativu in u so rendiment. Per via di questu, ancu cù una sintonizazione assai alta, a generalizazione di i risultati hè qualchì volta assai più difficiuli di ottene in elli.
Se i dati di furmazione di l'arbureti di decisione sò alterati, i risultati varianu sustancialmente.
In cunseguenza, u bagging hè utilizatu, in quale parechji arburi di decisione sò creati, ognuna di quale hè furmatu cù una mostra di e dati originali, è u risultatu finali hè a media di tutti questi mudelli diffirenti.
Impulsazione:
Boosting hè a tecnica di fà predizioni cù un sistema di classificatore n-debule in quale ogni classificatore debule cumpensà e carenze di i so classificatori più forti. Ci riferitemu à un classificatore chì funziona male in un determinatu settore di dati cum'è "classificatore debule".
Boosting hè ovviamente un prucessu piuttostu chè un algoritmu. A regressione logistica è l'arburi di decisione superficiale sò esempi cumuni di classificatori debuli.
Adaboost, Gradient Boosting è XGBoost sò i dui algoritmi di spinta più populari, in ogni modu, ci sò assai più.
41. Spiegà e sfarenze trà l’apprendimentu induttivu è deduttivu.
Quandu amparate per esempiu da un inseme di esempi osservati, un mudellu usa l'apprendimentu induttivu per arrivà à una cunclusione generalizata. Per d 'altra banda, cù l'apprendimentu deductive, u mudellu usa u risultatu prima di furmà u so propiu.
L'apprendimentu induttivu hè u prucessu di tirà cunclusioni da l'osservazioni.
L'apprendimentu deduttivu hè u prucessu di creà osservazioni basate nantu à inferenze.
cunchiusioni
Felicitazioni! Quessi sò i primi 40 è sopra à e dumande di l'intervista per l'apprendimentu automaticu chì avà cunnosce e risposte. Scienza di dati è ntilliggenza artificiali L'occupazione continuarà à esse dumandata cum'è l'avanzata di a tecnulugia.
I candidati chì aghjurnà a so cunniscenza di sti tecnulugii d'avanguardia è migliurà u so settore di cumpetenze ponu truvà una larga varietà di pussibulità di impiegu cù paga competitiva.
Pudete cuntinuà à risponde à l'entrevista avà chì avete una solida comprensione di cumu risponde à alcune di e dumande di l'entrevista di apprendimentu automaticu largamente fatte.
Sicondu i vostri scopi, fate u passu dopu. Preparate per l'entrevista visitendu Hashdork's Serie di interviste.
Lascia un Audiolibro