Cele mai bune 40 de întrebări la interviu de învățare automată (2024)

Cuprins[Ascunde][Spectacol]

1. Explicați diferențele dintre învățarea automată, inteligența artificială și învățarea profundă.
2. Vă rugăm să descrieți diferitele tipuri de învățare automată.
3. Care este compromisul de părtinire versus varianță?
4. Algoritmii de învățare automată au evoluat semnificativ de-a lungul timpului. Cum alegem algoritmul potrivit pentru a utiliza dat un set de date?
5. Cum diferă covarianța și corelația?
6. În învățarea automată, ce înseamnă gruparea?
7. Care este algoritmul tău preferat de învățare automată?
8. Regresia liniară în învățarea automată: ce este?
9. Descrieți diferențele dintre KNN și gruparea k-means.
10. Ce înseamnă „prejudecata de selecție” pentru tine?
11. Ce este exact teorema lui Bayes?
12. Într-un model de învățare automată, ce sunt „Setul de antrenament” și „Setul de testare”?
13. Ce este o ipoteză în învățarea automată?
14. Ce înseamnă supraadaptarea învățării automate și cum poate fi prevenită?
15. Ce sunt exact clasificatorii Naive Bayes?
16. Ce înseamnă funcțiile de cost și funcțiile de pierdere?
17. Ce deosebește un model generativ de un model discriminativ?
18. Descrieți variațiile dintre erorile de tip I și tip II.
19. În învățarea automată, ce este tehnica de învățare prin ansamblu?
20. Ce sunt mai exact modelele parametrice? Dați un exemplu.
21. Descrieți filtrarea colaborativă. La fel și filtrarea bazată pe conținut?
22. Ce anume vrei să spui prin seria Time?
23. Descrieți variațiile dintre algoritmii Gradient Boosting și Random Forest.
24. De ce ai nevoie de o matrice de confuzie? Ce este?
25. Ce este mai exact o analiză a componentelor principale?
26. De ce este rotația componentelor atât de crucială pentru PCA (analiza componentelor principale)?
27. Cum diferă regularizarea și normalizarea una de cealaltă?
28. Cum sunt normalizarea și standardizarea diferite una de cealaltă?
29. Ce înseamnă exact „factor de inflație de variație”?
30. În funcție de dimensiunea setului de antrenament, cum alegi un clasificator?
31. Ce algoritm în învățarea automată este denumit „învățat leneș” și de ce?
32. Ce sunt curba ROC și AUC?
33. Ce sunt hiperparametrii? Ce le face unice din parametrii modelului?
34. Ce înseamnă scorul F1, reamintirea și precizia?
35. Ce este mai exact validarea încrucișată?
36. Să presupunem că ai descoperit că modelul tău are o variație semnificativă. Ce algoritm, în opinia dumneavoastră, este cel mai potrivit pentru a gestiona această situație?
37. Ce diferențiază regresia Ridge de regresia Lasso?
38. Care este mai important: performanța modelului sau acuratețea modelului? Pe care și de ce îl vei favoriza?
39. Cum ați gestiona un set de date cu inegalități?
40. Cum poți face distincția între boosting și bagging?
41. Explicați diferențele dintre învățarea inductivă și deductivă.
Concluzie

Companiile folosesc tehnologie de ultimă oră, cum ar fi inteligența artificială (AI) și învățarea automată, pentru a crește accesibilitatea informațiilor și serviciilor pentru indivizi.

Aceste tehnologii sunt adoptate de o varietate de industrii, inclusiv bancare, finanțe, retail, producție și asistență medicală.

Unul dintre cele mai căutate roluri organizaționale care utilizează AI este pentru oamenii de știință de date, inginerii de inteligență artificială, inginerii de învățare automată și analiștii de date.

Această postare vă va conduce printr-o varietate de masina de învățare întrebări de interviu, de la bază la complexe, pentru a vă ajuta să vă pregătiți pentru orice întrebări vi se pot pune atunci când vă căutați jobul ideal.

1. Explicați diferențele dintre învățarea automată, inteligența artificială și învățarea profundă.

Inteligența artificială folosește o varietate de abordări de învățare automată și de învățare profundă care permit sistemelor informatice să îndeplinească sarcini utilizând inteligența umană cu logică și reguli.

Învățarea automată folosește o varietate de statistici și abordări de învățare profundă pentru a permite mașinilor să învețe din performanța lor anterioară și să devină mai abil în a îndeplini anumite sarcini pe cont propriu, fără supraveghere umană.

Deep Learning este o colecție de algoritmi care permite software-ului să învețe de la sine și să realizeze o varietate de funcții comerciale, cum ar fi recunoașterea vocii și a imaginii.

Sisteme care își expun mai multe straturi rețele neuronale la cantități mari de date pentru învățare sunt capabili să facă învățare profundă.

2. Vă rugăm să descrieți diferitele tipuri de învățare automată.

Învățarea automată există în general în trei tipuri diferite:

Învățare supravegheată: un model creează predicții sau judecăți folosind date etichetate sau istorice în învățarea automată supravegheată. Seturile de date care au fost etichetate sau etichetate pentru a le spori semnificația sunt denumite date etichetate.
Învățare nesupravegheată: nu avem date etichetate pentru învățarea nesupravegheată. În datele primite, un model poate găsi modele, ciudățenii și corelații.
Învățare prin consolidare: Modelul poate învață folosind întărirea învățarea și recompensele pe care le-a primit pentru comportamentul său anterior.

3. Care este compromisul de părtinire versus varianță?

Supraadaptarea este un rezultat al părtinirii, care este gradul în care un model se potrivește cu datele. Prejudecățile este cauzată de presupuneri incorecte sau prea simple din dvs algoritmul de învățare automată.

Varianta se referă la greșelile cauzate de complexitatea algoritmului ML, care produce sensibilitate la grade mari de variație în datele de antrenament și supraadaptare.

Varianta este cât de mult variază un model în funcție de intrări.

Cu alte cuvinte, modelele de bază sunt extrem de părtinitoare, dar stabile (varianță scăzută). Supraadaptarea este o problemă cu modelele complexe, deși ele surprind totuși realitatea modelului (prejudecata scăzută).

Pentru a preveni atât variația mare, cât și părtinirea mare, este necesar un compromis între părtinire și varianță pentru cea mai bună reducere a erorilor.

4. Algoritmii de învățare automată au evoluat semnificativ de-a lungul timpului. Cum alegem algoritmul potrivit pentru a utiliza dat un set de date?

Tehnica de învățare automată care ar trebui utilizată depinde numai de tipul de date dintr-un anumit set de date.

Când datele sunt liniare, se utilizează regresia liniară. Metoda de ambalare ar avea rezultate mai bune dacă datele ar indica neliniaritate. Putem folosi arbori de decizie sau SVM dacă datele trebuie evaluate sau interpretate în scopuri comerciale.

Rețelele neuronale ar putea fi utile pentru a obține un răspuns precis dacă setul de date include fotografii, videoclipuri și sunet.

Alegerea algoritmului pentru o anumită circumstanță sau colectarea de date nu se poate face doar pe o singură măsură.

Pentru a dezvolta metoda cea mai potrivită, trebuie mai întâi să examinăm datele utilizând analiza exploratorie a datelor (EDA) și să înțelegem scopul utilizării setului de date.

5. Cum diferă covarianța și corelația?

Covarianța evaluează modul în care două variabile sunt conectate între ele și cum se poate schimba una ca răspuns la schimbările din cealaltă.

Dacă rezultatul este pozitiv, indică faptul că există o legătură directă între variabile și că una ar crește sau scădea cu o creștere sau scădere a variabilei de bază, presupunând că toate celelalte condiții rămân constante.

Corelația măsoară legătura dintre două variabile aleatoare și are doar trei valori distincte: 1, 0 și -1.

6. În învățarea automată, ce înseamnă gruparea?

Metodele de învățare nesupravegheate care grupează punctele de date se numesc grupare. Cu o colecție de puncte de date, tehnica de grupare poate fi aplicată.

Puteți grupa toate punctele de date în funcție de funcțiile lor folosind această strategie.

Caracteristicile și calitățile punctelor de date care se încadrează în aceeași categorie sunt similare, în timp ce cele ale punctelor de date care se încadrează în grupări separate sunt diferite.

Această abordare poate fi utilizată pentru analiza datelor statistice.

7. Care este algoritmul tău preferat de învățare automată?

Aveți șansa de a vă demonstra preferințele și talentele unice în această întrebare, precum și cunoștințele dumneavoastră cuprinzătoare despre numeroase tehnici de învățare automată.

Iată câțiva algoritmi tipici de învățare automată la care să te gândești:

Regresie liniara
Regresie logistică
Bayes naiv
Copacii de decizie
K înseamnă
Algoritm forestier aleatoriu
K-cel mai apropiat vecin (KNN)

8. Regresia liniară în învățarea automată: ce este?

Un algoritm de învățare automată supravegheat este regresia liniară.

Este folosit în analiza predictivă pentru a determina legătura liniară dintre variabilele dependente și independente.

Ecuația regresiei liniare este următoarea:

Y = A + BX

în cazul în care:

Variabila de intrare sau independentă se numește X.
Variabila dependentă sau de ieșire este Y.
Coeficientul lui X este b, iar intercepta lui este a.

9. Descrieți diferențele dintre KNN și gruparea k-means.

Distincția principală este că KNN (o metodă de clasificare, învățare supravegheată) are nevoie de puncte etichetate, în timp ce k-means nu are (algoritm de grupare, învățare nesupravegheată).

Puteți clasifica datele etichetate într-un punct neetichetat utilizând K-Nearest Neighbors. Gruparea K-means utilizează distanța medie dintre puncte pentru a afla cum să grupați punctele neetichetate.

10. Ce înseamnă „prejudecata de selecție” pentru tine?

Prejudecățile în faza de eșantionare a unui experiment se datorează inexactității statistice.

Un grup de eșantion este ales mai frecvent decât celelalte grupuri din experiment ca urmare a inexactității.

Dacă părtinirea de selecție nu este recunoscută, ar putea duce la o concluzie incorectă.

11. Ce este exact teorema lui Bayes?

Când suntem conștienți de alte probabilități, putem determina o probabilitate folosind teorema lui Bayes. Oferă probabilitatea posterioară a unei apariții bazată pe informații anterioare, cu alte cuvinte.

Această teoremă oferă o metodă solidă pentru estimarea probabilităților condiționate.

Atunci când se dezvoltă probleme de modelare predictivă de clasificare și se potrivește un model la un antrenament setul de date în învățarea automată, se aplică teorema lui Bayes (adică Naive Bayes, Bayes Optimal Clasifier).

12. Într-un model de învățare automată, ce sunt „Setul de antrenament” și „Setul de testare”?

Set de antrenament:

Setul de instruire constă din instanțe care sunt trimise modelului pentru analiză și învățare.
Acestea sunt datele etichetate care vor fi folosite pentru a antrena modelul.
De obicei, 70% din totalul datelor sunt folosite ca set de date de antrenament.

Set de testare:

Setul de testare este utilizat pentru a evalua acuratețea modelului de generare a ipotezelor.
Testăm fără date etichetate și apoi folosim etichete pentru a confirma rezultatele.
Restul de 30% este folosit ca set de date de testare.

13. Ce este o ipoteză în învățarea automată?

Machine Learning permite utilizarea seturilor de date existente pentru a înțelege mai bine o anumită funcție care leagă intrarea de ieșire. Aceasta este cunoscută sub denumirea de aproximare a funcției.

În acest caz, aproximarea trebuie utilizată pentru funcția țintă necunoscută pentru a transfera toate observațiile imaginabile bazate pe situația dată în cel mai bun mod posibil.

În învățarea automată, o ipoteză este un model care ajută la estimarea funcției țintă și la completarea mapărilor corespunzătoare de la intrare la ieșire.

Selectarea și proiectarea algoritmilor permit definirea spațiului de posibile ipoteze care pot fi reprezentate printr-un model.

Pentru o singură ipoteză, se utilizează h (h) minuscule, dar h (H) majusculă este folosită pentru întreg spațiul de ipoteză care este căutat. Vom analiza pe scurt aceste notații:

O ipoteză (h) este un model particular care facilitează maparea intrării la ieșire, care poate fi utilizat ulterior pentru evaluare și predicție.
Un set de ipoteze (H) este un spațiu de căutare de ipoteze care poate fi utilizat pentru a mapa intrările la ieșiri. Încadrarea problemelor, modelul și configurația modelului sunt câteva exemple de limitări generice.

14. Ce înseamnă supraadaptarea învățării automate și cum poate fi prevenită?

Atunci când o mașină încearcă să învețe dintr-un set de date insuficient, are loc supraadaptarea.

Ca rezultat, supraadaptarea este invers corelată cu volumul de date. Abordarea de validare încrucișată permite evitarea supraajustării pentru seturile de date mici. Un set de date este împărțit în două părți în această metodă.

Setul de date pentru testare și instruire va consta din aceste două părți. Setul de date de antrenament este folosit pentru a crea un model, în timp ce setul de date de testare este folosit pentru a evalua modelul folosind diferite intrări.

Acesta este modul de prevenire a supraadaptarii.

15. Ce sunt exact clasificatorii Naive Bayes?

Diverse metode de clasificare alcătuiesc clasificatorii Naive Bayes. Un set de algoritmi cunoscuți ca acești clasificatori funcționează cu toții pe aceeași idee fundamentală.

Presupunerea făcută de clasificatorii naivi Bayes este că prezența sau absența unei caracteristici nu are nicio legătură cu prezența sau absența altei caracteristici.

Cu alte cuvinte, aceasta este ceea ce ne referim ca fiind „naiv”, deoarece presupune că fiecare atribut al setului de date este la fel de semnificativ și independent.

Clasificarea se face folosind clasificatori Bayes naivi. Sunt simplu de utilizat și produc rezultate mai bune decât predictorii mai complecși atunci când premisa independenței este adevărată.

În analiza textului, filtrarea spamului și sistemele de recomandare, acestea sunt folosite.

16. Ce înseamnă funcțiile de cost și funcțiile de pierdere?

Expresia „funcție de pierdere” se referă la procesul de calcul al pierderii atunci când este luată în considerare doar o singură bucată de date.

Dimpotrivă, utilizăm funcția de cost pentru a determina numărul total de greșeli pentru numeroase date. Nu există nicio distincție semnificativă.

Cu alte cuvinte, în timp ce funcțiile de cost cumulează diferența pentru întregul set de date de antrenament, funcțiile de pierdere sunt concepute pentru a capta diferența dintre valorile reale și cele prezise pentru o singură înregistrare.

17. Ce deosebește un model generativ de un model discriminativ?

Un model discriminativ învață diferențele dintre mai multe categorii de date. Un model generativ preia diferite tipuri de date.

În ceea ce privește problemele de clasificare, modelele discriminatorii depășesc adesea alte modele.

18. Descrieți variațiile dintre erorile de tip I și tip II.

Falsele pozitive se încadrează în categoria erorilor de tip I, în timp ce falsele negative se încadrează în erorile de tip II (pretinzând că nu s-a întâmplat nimic atunci când sa întâmplat de fapt).

19. În învățarea automată, ce este tehnica de învățare prin ansamblu?

O tehnică numită învățare prin ansamblu combină multe modele de învățare automată pentru a produce modele mai puternice.

Un model poate fi variat din mai multe motive. Mai multe cauze sunt:

Diverse Populații
Diverse Ipoteze
Diverse metode de modelare

Vom întâmpina o problemă în timp ce folosim datele de instruire și testare ale modelului. Prejudecățile, varianța și eroarea ireductibilă sunt tipuri posibile ale acestei greșeli.

Acum, numim acest echilibru între părtinire și varianță în model un compromis de părtinire-varianță și ar trebui să existe întotdeauna. Acest compromis este realizat prin utilizarea învățării ansamblului.

Deși există diverse abordări de ansamblu disponibile, există două strategii comune pentru combinarea multor modele:

O abordare nativă numită bagging folosește setul de antrenament pentru a produce seturi de antrenament suplimentare.
Boosting, o tehnică mai sofisticată: La fel ca și bagajul, boosting-ul este folosit pentru a găsi formula de greutate ideală pentru un set de antrenament.

20. Ce sunt mai exact modelele parametrice? Dați un exemplu.

Există o cantitate limitată de parametri în modelele parametrice. Pentru a prognoza datele, tot ce trebuie să știți sunt parametrii modelului.

Următoarele sunt exemple tipice: regresie logistică, regresie liniară și SVM-uri liniare. Modelele neparametrice sunt flexibile, deoarece pot conține un număr nelimitat de parametri.

Parametrii modelului și starea datelor observate sunt necesari pentru predicțiile datelor. Iată câteva exemple tipice: modele tematice, arbori de decizie și k-cei mai apropiați vecini.

21. Descrieți filtrarea colaborativă. La fel și filtrarea bazată pe conținut?

O metodă încercată și adevărată pentru a crea sugestii de conținut personalizate este filtrarea colaborativă.

O formă de sistem de recomandare numită filtrare colaborativă prevestește materiale proaspete prin echilibrarea preferințelor utilizatorilor cu interesele comune.

Preferințele utilizatorilor sunt singurul lucru pe care sistemele de recomandare bazate pe conținut iau în considerare. Având în vedere selecțiile anterioare ale utilizatorului, noi recomandări sunt furnizate din materiale aferente.

22. Ce anume vrei să spui prin seria Time?

O serie temporală este o colecție de numere în ordine crescătoare. Pe o perioadă de timp predeterminată, monitorizează mișcarea punctelor de date selectate și captează periodic punctele de date.

Nu există nicio intrare de timp minimă sau maximă pentru seriile de timp.

Seriile temporale sunt frecvent utilizate de analiști pentru a analiza datele în conformitate cu cerințele lor unice.

23. Descrieți variațiile dintre algoritmii Gradient Boosting și Random Forest.

Pădurea aleatorie:

Un număr mare de arbori de decizie sunt reuniți împreună la sfârșit și sunt cunoscuți ca păduri aleatorii.
În timp ce creșterea gradientului produce fiecare copac independent de ceilalți, pădurea aleatoare construiește fiecare copac pe rând.
Multiclasă detectarea obiectelor funcționează bine cu păduri aleatorii.

Creșterea gradientului:

În timp ce pădurile aleatorii se alătură arborilor de decizie la sfârșitul procesului, Mașinile de creștere a gradului le combină de la început.
Dacă parametrii sunt ajustați corespunzător, creșterea gradientului depășește pădurile aleatorii în ceea ce privește rezultatele, dar nu este o alegere inteligentă dacă setul de date are o mulțime de valori aberante, anomalii sau zgomot, deoarece ar putea cauza modelul să devină supraadaptat.
Când există date dezechilibrate, așa cum există în evaluarea riscului în timp real, creșterea gradientului funcționează bine.

24. De ce ai nevoie de o matrice de confuzie? Ce este?

Un tabel cunoscut sub numele de matrice de confuzie, uneori cunoscut sub numele de matrice de eroare, este utilizat pe scară largă pentru a arăta cât de bine funcționează un model de clasificare sau clasificator pe un set de date de testare pentru care sunt cunoscute valorile reale.

Ne permite să vedem cum funcționează un model sau un algoritm. Ne ajută să descoperim neînțelegeri între diferite cursuri.

Servește ca o modalitate de a evalua cât de bine este executat un model sau un algoritm.

Predicțiile unui model de clasificare sunt compilate într-o matrice de confuzie. Valorile numărului fiecărei etichete de clasă au fost folosite pentru a defalca numărul total de predicții corecte și incorecte.

Acesta oferă detalii despre defecțiunile făcute de clasificator, precum și despre diferitele tipuri de erori cauzate de clasificatori.

25. Ce este mai exact o analiză a componentelor principale?

Prin reducerea la minimum a numărului de variabile care sunt corelate între ele, scopul este de a minimiza dimensionalitatea culegerii de date. Dar este important să păstrăm diversitatea cât mai mult posibil.

Variabilele sunt schimbate într-un set complet nou de variabile numite componente principale.

Aceste PC-uri sunt ortogonale deoarece sunt vectori proprii ai unei matrice de covarianță.

26. De ce este rotația componentelor atât de crucială pentru PCA (analiza componentelor principale)?

Rotația este crucială în PCA deoarece optimizează separarea dintre variațiile obținute de fiecare componentă, simplificând interpretarea componentelor.

Avem nevoie de componente extinse pentru a exprima variația componentei dacă componentele nu sunt rotite.

27. Cum diferă regularizarea și normalizarea una de cealaltă?

Normalizare:

Datele sunt modificate în timpul normalizării. Ar trebui să normalizați datele dacă au scale care sunt drastic diferite, în special de la scăzut la ridicat. Ajustați fiecare coloană astfel încât statisticile fundamentale să fie toate compatibile.

Pentru a vă asigura că nu există nicio pierdere de precizie, acest lucru poate fi util. Detectarea semnalului ignorând zgomotul este unul dintre obiectivele antrenamentului de model.

Există șansa de supraadaptare dacă modelul primește control complet pentru a reduce eroarea.

Regularizare:

În regularizare, funcția de predicție este modificată. Acest lucru este supus unui anumit control prin regularizare, care favorizează funcțiile de montare mai simple față de cele complicate.

28. Cum sunt normalizarea și standardizarea diferite una de cealaltă?

Cele două tehnici cele mai utilizate pentru scalarea caracteristicilor sunt normalizarea și standardizarea.

Normalizare:

Redimensionarea datelor pentru a se potrivi unui interval [0,1] este cunoscută sub numele de normalizare.
Când toți parametrii trebuie să aibă aceeași scară pozitivă, normalizarea este utilă, dar valorile aberante ale setului de date se pierd.

Regularizare:

Datele sunt redimensionate pentru a avea o medie de 0 și o abatere standard de 1 ca parte a procesului de standardizare (varianță unitară)

29. Ce înseamnă exact „factor de inflație de variație”?

Raportul dintre varianța modelului și varianța modelului cu o singură variabilă independentă este cunoscut sub denumirea de factor de inflație a variației (VIF).

VIF estimează cantitatea de multicoliniaritate prezentă într-un set de mai multe variabile de regresie.

Varianta modelului (VIF) Model cu o variabilă independentă

30. În funcție de dimensiunea setului de antrenament, cum alegi un clasificator?

Un model de părtinire mare, cu variație scăzută are performanțe mai bune pentru un set de antrenament scurt, deoarece supraadaptarea este mai puțin probabilă. Naive Bayes este un exemplu.

Pentru a reprezenta interacțiuni mai complicate pentru un set mare de antrenament, este de preferat un model cu părtinire scăzută și varianță mare. Regresia logistică este un bun exemplu.

31. Ce algoritm în învățarea automată este denumit „învățat leneș” și de ce?

Un învățător lent, KNN este un algoritm de învățare automată. Deoarece K-NN calculează dinamic distanța de fiecare dată când dorește să clasifice în loc să învețe orice valori sau variabile învățate de mașină din datele de antrenament, memorează setul de date de antrenament.

Acest lucru face din K-NN un elev leneș.

32. Ce sunt curba ROC și AUC?

Performanța unui model de clasificare la toate pragurile este reprezentată grafic de curba ROC. Are criterii pentru rata pozitivă adevărată și rata pozitivă fals.

Mai simplu spus, aria de sub curba ROC este cunoscută sub numele de AUC (Area Under the ROC Curve). Aria bidimensională a curbei ROC de la (0,0) la AUC este măsurată (1,1). Pentru evaluarea modelelor de clasificare binară, acesta este folosit ca statistică de performanță.

33. Ce sunt hiperparametrii? Ce le face unice din parametrii modelului?

O variabilă internă a modelului este cunoscută ca parametru de model. Folosind datele de antrenament, valoarea unui parametru este aproximată.

Necunoscut modelului, un hiperparametru este o variabilă. Valoarea nu poate fi determinată din date, astfel încât acestea sunt utilizate frecvent pentru a calcula parametrii modelului.

34. Ce înseamnă scorul F1, reamintirea și precizia?

Măsura confuziei este metrica folosită pentru a evalua eficacitatea modelului de clasificare. Următoarele expresii pot fi folosite pentru a explica mai bine măsurarea confuziei:

TP: True Positives – Acestea sunt valorile pozitive care au fost anticipate corect. Acesta sugerează că valorile clasei proiectate și ale clasei reale sunt ambele pozitive.

TN: Adevărate negative - Acestea sunt valorile adverse care au fost prognozate cu precizie. Acesta sugerează că atât valoarea clasei actuale, cât și a clasei anticipate sunt negative.

Aceste valori — false pozitive și false negative — apar atunci când clasa dvs. reală diferă de clasa anticipată.

Acum,

Raportul dintre rata adevărată pozitivă (TP) și toate observațiile făcute în clasa reală se numește reamintire, cunoscută și sub denumirea de sensibilitate.

Rechemarea este TP/(TP+FN).

Precizia este o măsură a valorii predictive pozitive, care compară numărul de pozitive pe care modelul le prezice cu adevărat cu câte pozitive corecte prezice cu acuratețe.

Precizia este TP/(TP + FP)

Cea mai ușor de înțeles măsura de performanță este acuratețea, care este doar proporția dintre observațiile prezise corect față de toate observațiile.

Precizia este egală cu (TP+TN)/(TP+FP+FN+TN).

Precizia și Recall sunt ponderate și mediate pentru a oferi scorul F1. Ca rezultat, acest scor ia în considerare atât fals pozitive, cât și false negative.

F1 este adesea mai valoros decât acuratețea, mai ales dacă aveți o distribuție inegală a clasei, chiar dacă intuitiv nu este la fel de simplu de înțeles ca precizia.

Cea mai bună acuratețe este obținută atunci când costul fals pozitive și fals negative este comparabil. Este de preferat să se includă atât Precizia, cât și Recall dacă costurile asociate cu fals pozitive și false negative diferă semnificativ.

35. Ce este mai exact validarea încrucișată?

O abordare de reeșantionare statistică numită validare încrucișată în învățarea automată folosește mai multe subseturi de date pentru a antrena și a evalua un algoritm de învățare automată într-un număr de runde.

Un nou lot de date care nu a fost folosit pentru a antrena modelul este testat folosind validarea încrucișată pentru a vedea cât de bine îl prezice modelul. Supraadaptarea datelor este prevenită prin validare încrucișată.

K-Fold Metoda de reeșantionare folosită cel mai des împarte întregul set de date în K seturi de dimensiuni egale. Se numește validare încrucișată.

36. Să presupunem că ai descoperit că modelul tău are o variație semnificativă. Ce algoritm, în opinia dumneavoastră, este cel mai potrivit pentru a gestiona această situație?

Gestionarea variabilitatii mari

Ar trebui să folosim tehnica de ambalare pentru probleme cu variații mari.

Eșantionarea repetată a datelor aleatoare ar fi utilizată de algoritmul de însacare pentru a împărți datele în subgrupuri. Odată ce datele au fost împărțite, putem folosi date aleatorii și o procedură de antrenament specifică pentru a genera reguli.

După aceea, sondajele ar putea fi folosite pentru a combina predicțiile modelului.

37. Ce diferențiază regresia Ridge de regresia Lasso?

Două metode de regularizare utilizate pe scară largă sunt regresia Lasso (numită și L1) și regresia Ridge (uneori numită L2). Ele sunt utilizate pentru a preveni supraadaptarea datelor.

Pentru a descoperi cea mai bună soluție și a minimiza complexitatea, aceste tehnici sunt folosite pentru a pedepsi coeficienții. Prin penalizarea totalului valorilor absolute ale coeficientilor opereaza regresia Lasso.

Funcția de penalizare în regresia Ridge sau L2 este derivată din suma pătratelor coeficienților.

38. Care este mai important: performanța modelului sau acuratețea modelului? Pe care și de ce îl vei favoriza?

Aceasta este o întrebare înșelătoare, prin urmare ar trebui mai întâi să înțelegeți ce este performanța modelului. Dacă performanța este definită ca viteză, atunci se bazează pe tipul de aplicație; orice aplicație care implică o situație în timp real ar necesita viteză mare ca componentă crucială.

De exemplu, cele mai bune rezultate ale căutării vor deveni mai puțin valoroase dacă rezultatele interogării durează prea mult să ajungă.

Dacă Performanța este folosită ca o justificare a motivului pentru care precizia și reamintirea ar trebui să fie prioritizate peste acuratețe, atunci un scor F1 va fi mai util decât acuratețea în demonstrarea cazului de afaceri pentru orice set de date care este dezechilibrat.

39. Cum ați gestiona un set de date cu inegalități?

Un set de date dezechilibrat poate beneficia de tehnicile de eșantionare. Eșantionarea poate fi efectuată fie sub eșantionare, fie supraeșantionată.

Under Sampling ne permite să micșorăm dimensiunea clasei majoritare pentru a se potrivi cu clasa minoritară, ceea ce ajută la creșterea vitezei în ceea ce privește stocarea și execuția în timpul execuției, dar poate duce și la pierderea de date valoroase.

Pentru a remedia problema pierderii de informații cauzate de supraeșantionare, eșantionăm clasa Minority; cu toate acestea, acest lucru ne face să ne confruntăm cu probleme de supraadaptare.

Strategiile suplimentare includ:

Supraeșantionare bazată pe clustere - Instanțele de clasă minoritară și majoritară sunt supuse individual tehnicii de grupare K-means în această situație. Acest lucru se face pentru a găsi clustere de seturi de date. Apoi, fiecare cluster este supraeșantionat, astfel încât toate clasele să aibă aceeași dimensiune și toate clusterele dintr-o clasă să aibă un număr egal de instanțe.
SMOTE: Tehnica de supraeșantionare a minorității sintetice - O porțiune de date din clasa minoritară este folosită ca exemplu, după care sunt produse și adăugate la setul de date original, instanțe artificiale suplimentare care sunt comparabile cu aceasta. Această metodă funcționează bine cu puncte de date numerice.

40. Cum poți face distincția între boosting și bagging?

Tehnicile de ansamblu au versiuni cunoscute sub numele de bagging și boosting.

împachetare-

Pentru algoritmii cu o variație mare, bagajul este o tehnică folosită pentru a reduce varianța. O astfel de familie de clasificatori care este predispusă la părtinire este familia arborelui de decizie.

Tipul de date pe care arborii de decizie sunt instruiți are un impact semnificativ asupra performanței acestora. Din această cauză, chiar și cu o reglare foarte mare, generalizarea rezultatelor este uneori mult mai dificil de obținut în ele.

Dacă datele de antrenament ale arborilor de decizie sunt modificate, rezultatele variază substanțial.

În consecință, se folosește bagajul, în care se creează mulți arbori de decizie, fiecare dintre care este antrenat folosind un eșantion de date originale, iar rezultatul final este media tuturor acestor modele diferite.

Amplificare:

Boosting este tehnica de a face predicții cu un sistem de clasificare n-slab în care fiecare clasificator slab compensează deficiențele clasificatorilor săi mai puternici. Ne referim la un clasificator care are performanțe proaste pe un anumit set de date ca un „clasificator slab”.

Boosting-ul este, evident, mai degrabă un proces decât un algoritm. Regresia logistică și arborii de decizie superficiali sunt exemple comune de clasificatori slabi.

Adaboost, Gradient Boosting și XGBoost sunt cei mai populari doi algoritmi de amplificare, cu toate acestea, există mulți alții.

41. Explicați diferențele dintre învățarea inductivă și deductivă.

Când învață prin exemplu dintr-un set de exemple observate, un model folosește învățarea inductivă pentru a ajunge la o concluzie generalizată. Pe de altă parte, cu învățarea deductivă, modelul folosește rezultatul înainte de a-și forma propriul.

Învățarea inductivă este procesul de tragere a concluziilor din observații.

Învățarea deductivă este procesul de creare a observațiilor bazate pe inferențe.

Concluzie

Felicitări! Acestea sunt primele 40 și mai sus de întrebări de interviu pentru învățarea automată la care acum cunoașteți răspunsurile. Știința datelor și inteligență artificială ocupațiile vor continua să fie solicitate pe măsură ce tehnologia avansează.

Candidații care își actualizează cunoștințele despre aceste tehnologii de ultimă oră și își îmbunătățesc setul de abilități pot găsi o mare varietate de posibilități de angajare cu salarii competitive.

Puteți continua cu răspunsul la interviuri acum că aveți o înțelegere solidă a modului de a răspunde la unele dintre întrebările pe scară largă ale interviului de învățare automată.

În funcție de obiectivele tale, fă următorul pas. Pregătiți-vă pentru interviuri vizitând Hashdork's Seria de interviuri.

Întrebări de interviuri de învățare automată

Cele mai bune 40 de întrebări la interviu de învățare automată