Nanguna sa 40+ Mga Pangutana sa Interbyu sa Machine Learning (2024)

Kaundan[Itago][Ipakita]

1. Ipasabot ang mga kalainan tali sa machine learning, artificial intelligence, ug deep learning.
2. Palihug ihulagway ang lain-laing mga matang sa pagkat-on sa makina.
3. Unsa ang bias versus variance trade-off?
4. Ang mga algorithm sa pagkat-on sa makina miuswag pag-ayo sa paglabay sa panahon. Giunsa pagpili sa usa ang husto nga algorithm aron magamit ang gihatag nga set sa datos?
5. Sa unsang paagi magkalahi ang covariance ug correlation?
6. Sa pagkat-on sa makina, unsa ang gipasabot sa clustering?
7. Unsa ang imong gusto nga machine learning algorithm?
8. Linear Regression sa Machine Learning: Unsa Kini?
9. Ihulagway ang mga kalainan tali sa KNN ug k-means clustering.
10. Ano ang kahulugan sa imo sang “pagpili sa pagpili”?
11. Unsa man gyud ang Bayes' Theorem?
12. Sa usa ka Machine Learning Model, unsa ang 'training Set' ug 'test Set'?
13. Unsa ang usa ka Hypothesis sa Machine Learning?
14. Unsay gipasabot sa machine learning overfitting, ug sa unsang paagi kini mapugngan?
15. Unsa man gyud ang Naive Bayes classifiers?
16. Unsa ang gipasabut sa Mga Kalihokan sa Gasto ug Mga Kalihokan sa Pagkawala?
17. Unsay nagpalahi sa generative model gikan sa discriminative model?
18. Ihulagway ang mga kalainan tali sa Type I ug Type II nga mga sayop.
19. Sa pagkat-on sa makina, unsa ang teknik sa pagkat-on sa Ensemble?
20. Unsa man gyud ang parametric nga mga modelo? Paghatag ug pananglitan.
21. Ihulagway ang kolaborasyon nga pagsala. Ingon man usab ang pagsala nga nakabase sa sulud?
22. Unsa man gyud ang imong gipasabot sa serye sa Oras?
23. Ihulagway ang mga kalainan tali sa Gradient Boosting ug Random Forest nga mga algorithm.
24. Nganong kinahanglan nimo ang confusion matrix? Unsa ni?
25. Unsa man gyud ang usa ka pagtuki sa sangkap sa prinsipyo?
26. Ngano nga ang pag-rotate sa component importante kaayo sa PCA (principal component analysis)?
27. Sa unsang paagi magkalahi ang regularisasyon ug normalisasyon sa usag usa?
28. Sa unsang paagi ang normalisasyon ug estandardisasyon lahi sa usag usa?
29. Unsa man gyud ang gipasabot sa “variance inflation factor”?
30. Base sa gidak-on sa training set, unsaon nimo pagpili og classifier?
31. Unsang algorithm sa pagkat-on sa makina ang gitawag nga "tapolan nga tigkat-on" ug ngano?
32. Unsa ang ROC Curve ug AUC?
33. Unsa ang mga hyperparameter? Unsa ang nakapahimo kanila nga talagsaon gikan sa mga parameter sa modelo?
34. Unsay buot ipasabot sa F1 Score, recall, ug precision?
35. Unsa man gyud ang cross-validation?
36. Ingnon ta nga imong nadiskobrehan nga ang imong modelo adunay dakong kalainan. Unsa nga algorithm, sa imong opinyon, ang labing haum sa pagdumala niini nga sitwasyon?
37. Unsay nagpalahi sa Ridge regression gikan sa Lasso regression?
38. Hain ang mas importante: performance sa modelo o katukma sa modelo? Hain niini ug nganong mopabor ka niini?
39. Unsaon nimo pagdumala ang usa ka dataset nga adunay dili managsama?
40. Unsaon nimo pag-ila tali sa boosting ug bagging?
41. Ipasabot ang mga kalainan tali sa inductive ug deductive nga pagkat-on.
Panapos

Gigamit sa mga negosyo ang labing bag-ong teknolohiya, sama sa artificial intelligence (AI) ug pagkat-on sa makina, aron madugangan ang pagka-access sa kasayuran ug serbisyo sa mga indibidwal.

Kini nga mga teknolohiya gisagop sa lain-laing mga industriya, lakip na ang banking, finance, retail, manufacturing, ug healthcare.

Usa sa labing gipangita nga mga tahas sa organisasyon nga naggamit sa AI alang sa mga siyentipiko sa datos, mga inhinyero sa artificial intelligence, mga inhenyero sa pagkat-on sa makina, ug mga analista sa datos.

Kini nga post mogiya kanimo sa lainlaing mga pagkat-on sa makina mga pangutana sa interbyu, gikan sa sukaranan hangtod sa komplikado, aron matabangan ka nga makaandam alang sa bisan unsang mga pangutana nga mahimo nimong ipangutana kung nangita alang sa imong sulundon nga trabaho.

1. Ipasabot ang mga kalainan tali sa machine learning, artificial intelligence, ug deep learning.

Ang artificial intelligence naggamit ug lain-laing mga machine learning ug deep learning approaches nga nagtugot sa mga computer system sa pagbuhat sa mga buluhaton gamit ang sama sa tawo nga intelligence nga adunay lohika ug mga lagda.

Ang pagkat-on sa makina naggamit ug lain-laing mga estadistika ug mga pamaagi sa Deep Learning aron ang mga makina makakat-on gikan sa ilang naunang pasundayag ug mahimong mas hanas sa pagbuhat sa pipila ka buluhaton sa ilang kaugalingon nga walay pagdumala sa tawo.

Ang Deep Learning usa ka koleksyon sa mga algorithm nga nagtugot sa software nga makakat-on gikan sa iyang kaugalingon ug makahimo sa lain-laing mga komersyal nga gimbuhaton, sama sa pag-ila sa tingog ug litrato.

Mga sistema nga nagbutyag sa ilang multilayered neural networks sa daghang mga datos alang sa pagkat-on makahimo sa lawom nga pagkat-on.

2. Palihug ihulagway ang lain-laing mga matang sa pagkat-on sa makina.

Ang pagkat-on sa makina anaa sa tulo ka lain-laing mga matang sa lapad:

Gidumala nga Pagkat-on: Ang usa ka modelo nagmugna og mga panagna o mga paghukom gamit ang gimarkahan o makasaysayan nga datos sa gibantayan nga pagkat-on sa makina. Ang mga set sa datos nga gi-tag o gimarkahan aron madugangan ang kahulogan niini gitawag nga adunay label nga datos.
Wala Gibantayan nga Pagkat-on: Wala kami gimarkahan nga datos alang sa wala gibantayan nga pagkat-on. Sa umaabot nga datos, ang usa ka modelo makapangita og mga pattern, katingad-an, ug mga correlations.
Pagpalig-on sa Pagkat-on: Ang modelo mahimo pagkat-on pinaagi sa paggamit sa reinforcement pagkat-on ug ang mga ganti nga nakuha niini sa una nga pamatasan.

3. Unsa ang bias versus variance trade-off?

Ang overfitting resulta sa bias, nga mao ang ang-ang diin ang usa ka modelo mohaum sa datos. Ang pagpihig gipahinabo sa dili husto o yano ra kaayo nga mga pangagpas sa imong algorithm sa pagkat-on sa makina.

Ang kalainan nagtumong sa mga kasaypanan nga gipahinabo sa pagkakomplikado sa imong ML algorithm, nga nagpatunghag pagkasensitibo sa dagkong mga ang-ang sa kalainan sa datos sa pagbansay ug pag-overfitting.

Ang kalainan mao kung unsa ka dako ang pagkalainlain sa usa ka modelo depende sa mga input.

Sa laing pagkasulti, ang mga batakang modelo hilabihan ka bias apan lig-on (ubos nga kalainan). Ang overfitting usa ka problema sa komplikado nga mga modelo, bisan pa nga nakuha nila ang kamatuoran sa modelo (ubos nga bias).

Aron mapugngan ang taas nga kalainan ug taas nga pagpihig, gikinahanglan ang usa ka trade-off tali sa bias ug kalainan alang sa labing maayo nga pagkunhod sa sayup.

4. Ang mga algorithm sa pagkat-on sa makina miuswag pag-ayo sa paglabay sa panahon. Giunsa pagpili sa usa ang husto nga algorithm aron magamit ang gihatag nga set sa datos?

Ang teknik sa pagkat-on sa makina nga kinahanglan gamiton nagdepende lang sa klase sa datos sa usa ka piho nga dataset.

Kung linear ang datos, gigamit ang linear regression. Ang pamaagi sa pagputos mahimong mas maayo kung ang datos nagpakita nga dili linearity. Mahimo natong gamiton ang mga punoan sa desisyon o SVM kung ang datos kinahanglan nga susihon o hubaron alang sa komersyal nga katuyoan.

Mahimong mapuslanon ang mga neural network aron makakuha og saktong tubag kung ang dataset naglakip sa mga litrato, video, ug audio.

Ang pagpili sa algorithm alang sa usa ka piho nga kahimtang o pagkolekta sa datos dili mahimo sa usa ka sukod.

Alang sa tumong sa pagpalambo sa pinakamaayong paagi nga angay, kinahanglan una natong susihon ang datos gamit ang exploratory data analysis (EDA) ug sabton ang tumong sa paggamit sa dataset.

5. Sa unsang paagi magkalahi ang covariance ug correlation?

Ang covariance nag-evaluate kung giunsa ang duha ka mga variable nga konektado sa usag usa ug kung giunsa ang usa ka pagbag-o agig tubag sa mga pagbag-o sa lain.

Kung positibo ang resulta, kini nagpakita nga adunay direktang sumpay tali sa mga variable ug nga ang usa mosaka o mokunhod uban ang pagtaas o pagkunhod sa base variable, nga nagtuo nga ang tanan nga ubang mga kondisyon magpabilin nga makanunayon.

Ang correlation nagsukod sa sumpay tali sa duha ka random variables ug adunay tulo lang ka managlahing value: 1, 0, ug -1.

6. Sa pagkat-on sa makina, unsa ang gipasabot sa clustering?

Ang mga paagi sa pagkat-on nga wala gibantayan nga naghiusa sa mga punto sa datos gitawag nga clustering. Uban sa usa ka koleksyon sa mga punto sa datos, ang clustering technique mahimong magamit.

Mahimo nimong igrupo ang tanan nga mga punto sa datos sumala sa ilang mga gimbuhaton gamit kini nga estratehiya.

Ang mga bahin ug kalidad sa mga punto sa datos nga nahulog sa parehas nga kategorya parehas, samtang ang mga punto sa datos nga nahulog sa lainlain nga mga grupo lahi.

Kini nga pamaagi magamit sa pag-analisar sa datos sa istatistika.

7. Unsa ang imong gusto nga machine learning algorithm?

Adunay ka higayon nga ipakita ang imong mga gusto ug talagsaon nga mga talento sa kini nga pangutana, ingon man ang imong komprehensibo nga kahibalo sa daghang mga teknik sa pagkat-on sa makina.

Ania ang pipila ka kasagaran nga mga algorithm sa pagkat-on sa makina nga hunahunaon:

Linear nga pag-undang
Logistic regression
Naive Bayes
Mga desisyon nga mga kahoy
Ang gipasabut ni K
Random nga algorithm sa lasang
K-labing duol nga silingan (KNN)

8. Linear Regression sa Machine Learning: Unsa Kini?

Ang gidumala nga algorithm sa pagkat-on sa makina mao ang linear regression.

Gigamit kini sa predictive analysis aron mahibal-an ang linear nga koneksyon tali sa dependent ug independent variables.

Ang equation sa linear regression mao ang mosunod:

Y = A + BX

diin:

Ang input o independent variable gitawag nga X.
Ang dependent o output variable mao ang Y.
Ang coefficient sa X kay b, ug ang intercept niini a.

9. Ihulagway ang mga kalainan tali sa KNN ug k-means clustering.

Ang panguna nga kalainan mao nga ang KNN (usa ka pamaagi sa pagklasipikar, gibantayan nga pagkat-on) nanginahanglan mga marka nga mga punto samtang ang k-means wala (pag-clustering algorithm, wala gibantayan nga pagkat-on).

Mahimo nimong iklasipikar ang mga gimarkahan nga datos sa usa ka wala gimarkahan nga punto pinaagi sa paggamit sa K-Nearest Neighbors. Ang K-means clustering naggamit sa kasagarang gilay-on tali sa mga punto aron makat-on unsaon paggrupo ang wala'y label nga mga punto.

10. Ano ang kahulugan sa imo sang “pagpili sa pagpili”?

Ang bias sa yugto sa sampling sa usa ka eksperimento tungod sa pagkadili tukma sa istatistika.

Usa ka sampol nga grupo ang gipili nga mas kanunay kaysa sa ubang mga grupo sa eksperimento isip resulta sa pagkadili tukma.

Kung dili ilhon ang bias sa pagpili, mahimong moresulta kini sa sayop nga konklusyon.

11. Unsa man gyud ang Bayes' Theorem?

Kung nahibal-an naton ang ubang mga posibilidad, mahimo naton mahibal-an ang posibilidad gamit ang Bayes' Theorem. Nagtanyag kini sa posterior nga posibilidad sa usa ka panghitabo base sa naunang impormasyon, sa laing pagkasulti.

Ang usa ka maayo nga pamaagi alang sa pagbanabana sa mga probabilidad sa kondisyon gihatag niini nga theorem.

Kung nagpalambo sa klasipikasyon nga predictive modeling nga mga problema ug mohaum sa usa ka modelo sa usa ka pagbansay dataset sa pagkat-on sa makina, Ang teorama ni Bayes gipadapat (ie Naive Bayes, Bayes Optimal Classifier).

12. Sa usa ka Machine Learning Model, unsa ang 'training Set' ug 'test Set'?

Set sa pagbansay:

Ang set sa pagbansay naglangkob sa mga higayon nga gipadala sa modelo alang sa pagtuki ug pagkat-on.
Kini ang gimarkahan nga datos nga gamiton sa pagbansay sa modelo.
Kasagaran, 70% sa kinatibuk-ang datos ang gigamit ingon nga dataset sa pagbansay.

Set sa pagsulay:

Ang set sa pagsulay gigamit aron masusi ang katukma sa paghimo sa hypothesis sa modelo.
Gisulayan namon nga wala’y label nga datos ug dayon naggamit mga label aron makumpirma ang mga resulta.
Ang nahabilin nga 30% gigamit ingon usa ka pagsulay nga dataset.

13. Unsa ang usa ka Hypothesis sa Machine Learning?

Gitugotan sa Pagkat-on sa Machine ang paggamit sa mga naa na nga mga dataset aron mas masabtan ang usa ka gihatag nga function nga nag-link sa input sa output. Nailhan kini nga function approximation.

Sa kini nga kaso, ang pagbanabana kinahanglan gamiton alang sa wala mahibal-an nga target function aron mabalhin ang tanan nga mahunahuna nga mga obserbasyon base sa gihatag nga kahimtang sa labing kaayo nga paagi nga posible.

Sa pagkat-on sa makina, ang usa ka hypothesis usa ka modelo nga makatabang sa pagbanabana sa target nga function ug pagkompleto sa angay nga input-to-output mappings.

Ang pagpili ug disenyo sa mga algorithm nagtugot alang sa kahulugan sa luna sa posible nga mga pangagpas nga mahimong irepresentar sa usa ka modelo.

Alang sa usa ka pangagpas, gamay nga letra nga h (h) ang gigamit, apan ang kapital nga h (H) gigamit alang sa tibuuk nga espasyo sa hypothesis nga gipangita. Atong repasohon kini nga mga notasyon:

Ang hypothesis (h) usa ka partikular nga modelo nga nagpadali sa pagmapa sa input ngadto sa output, nga sa ulahi mahimong gamiton alang sa ebalwasyon ug panagna.
Ang hypothesis set (H) maoy usa ka searchable space sa mga hypotheses nga magamit sa pagmapa sa mga input ngadto sa mga output. Isyu framing, modelo, ug modelo configuration mao ang pipila ka mga ehemplo sa mga generic nga limitasyon.

14. Unsay gipasabot sa machine learning overfitting, ug sa unsang paagi kini mapugngan?

Kung ang usa ka makina mosulay sa pagkat-on gikan sa dili igo nga dataset, mahitabo ang overfitting.

Ingon usa ka sangputanan, ang overfitting adunay kabaliktaran nga kalambigitan sa gidaghanon sa datos. Gitugotan sa cross-validation approach nga malikayan ang overfitting para sa gagmay nga mga dataset. Ang usa ka dataset gibahin sa duha ka bahin niini nga pamaagi.

Ang dataset alang sa pagsulay ug pagbansay maglangkob niining duha ka bahin. Ang dataset sa pagbansay gigamit sa paghimo og modelo, samtang ang testing dataset gigamit sa pagtimbang-timbang sa modelo gamit ang lain-laing mga input.

Mao kini ang paagi aron malikayan ang overfitting.

15. Unsa man gyud ang Naive Bayes classifiers?

Ang lain-laing mga pamaagi sa pagklasipikar naglangkob sa Naive Bayes classifiers. Usa ka hugpong sa mga algorithm nga nailhan nga kini nga mga classifier ang tanan nagtrabaho sa parehas nga sukaranan nga ideya.

Ang pangagpas nga gihimo sa walay pulos nga mga klasipikasyon sa Bayes mao nga ang presensya o pagkawala sa usa ka bahin walay kalabotan sa presensya o pagkawala sa laing bahin.

Sa laing pagkasulti, mao kini ang atong gitawag nga "naive" tungod kay kini naghimo sa pangagpas nga ang matag dataset nga attribute parehas nga mahinungdanon ug independente.

Ang klasipikasyon gihimo gamit ang naive Bayes classifiers. Yano sila nga gamiton ug makahatag og mas maayo nga mga resulta kaysa mas komplikado nga mga prediktor kung tinuod ang premyo sa independensya.

Sa pag-analisar sa teksto, pagsala sa spam, ug mga sistema sa rekomendasyon, sila gigamit.

16. Unsa ang gipasabut sa Mga Kalihokan sa Gasto ug Mga Kalihokan sa Pagkawala?

Ang hugpong sa pulong nga "loss function" nagtumong sa proseso sa pag-compute sa pagkawala kung usa lang ka piraso sa datos ang gikonsiderar.

Sa kasukwahi, gigamit namon ang function sa gasto aron mahibal-an ang kinatibuk-ang kantidad sa mga sayup alang sa daghang mga datos. Walay mahinungdanong kalainan ang anaa.

Sa laing pagkasulti, samtang ang mga gimbuhaton sa gasto naghiusa sa kalainan alang sa tibuuk nga set sa pagbansay, ang mga gimbuhaton sa pagkawala gidisenyo aron makuha ang kalainan tali sa tinuud ug gitagna nga mga kantidad alang sa usa ka rekord.

17. Unsay nagpalahi sa generative model gikan sa discriminative model?

Ang usa ka diskriminatibo nga modelo nakakat-on sa mga kalainan tali sa daghang mga kategorya sa datos. Ang usa ka generative nga modelo nagpili sa lainlaing mga tipo sa datos.

Sa mga problema sa klasipikasyon, ang mga modelo sa diskriminasyon kasagaran labaw sa ubang mga modelo.

18. Ihulagway ang mga kalainan tali sa Type I ug Type II nga mga sayop.

Ang mga sayup nga positibo nahulog sa ilawom sa kategorya nga mga sayup sa Type I, samtang ang mga sayup nga negatibo naa sa ilawom sa mga sayup sa Type II (nag-angkon nga wala’y nahitabo kung kini tinuod).

19. Sa pagkat-on sa makina, unsa ang teknik sa pagkat-on sa Ensemble?

Usa ka teknik nga gitawag og ensemble learning nagsagol sa daghang mga machine learning models aron makagama og mas kusgan nga mga modelo.

Ang usa ka modelo mahimong lainlain alang sa lainlaing mga hinungdan. Pipila ka mga hinungdan mao ang:

Lainlaing Populasyon
Nagkalainlain nga mga Hypotheses
Nagkalainlain nga mga pamaagi sa pagmodelo

Makasugat mi og isyu samtang naggamit sa datos sa pagbansay ug pagsulay sa modelo. Ang pagpihig, kalainan, ug dili mabag-o nga sayup mao ang posible nga mga tipo sa kini nga sayup.

Karon, gitawag nato kini nga balanse tali sa bias ug variance sa modelo nga usa ka bias-variance trade-off, ug kini kinahanglan nga anaa kanunay. Kini nga trade-off nahimo pinaagi sa paggamit sa ensemble learning.

Bisan kung adunay lainlaing mga pamaagi sa ensemble nga magamit, adunay duha ka sagad nga mga estratehiya sa paghiusa sa daghang mga modelo:

Ang lumad nga pamaagi nga gitawag og bagging naggamit sa training set aron makahimo og dugang nga training set.
Pagpataas, usa ka labi ka sopistikado nga teknik: Sama sa pagputos, gigamit ang pagpadako aron makit-an ang sulundon nga pormula sa pagtimbang alang sa usa ka set sa pagbansay.

20. Unsa man gyud ang parametric nga mga modelo? Paghatag ug pananglitan.

Adunay limitado nga kantidad sa mga parameter sa parametric nga mga modelo. Sa pagtagna sa datos, ang kinahanglan nimong masayran mao ang mga parameter sa modelo.

Ang mosunod mao ang tipikal nga mga pananglitan: logistic regression, linear regression, ug linear SVMs. Ang mga non-parametric nga mga modelo kay flexible tungod kay kini adunay sulod nga walay kinutuban nga gidaghanon sa mga parameter.

Ang mga parameter sa modelo ug ang kahimtang sa naobserbahan nga datos gikinahanglan alang sa mga panagna sa datos. Ania ang pipila ka kasagarang mga pananglitan: mga modelo sa topiko, mga punoan sa desisyon, ug mga k-labing duol nga silingan.

21. Ihulagway ang kolaborasyon nga pagsala. Ingon man usab ang pagsala nga nakabase sa sulud?

Usa ka gisulayan-ug-tinuod nga paagi sa paghimo og gipahaom nga mga sugyot sa sulod mao ang pagtinabangay nga pagsala.

Ang usa ka porma sa sistema sa rekomendasyon nga gitawag og collaborative filtering nagtagna sa presko nga materyal pinaagi sa pagbalanse sa mga gusto sa user sa gipaambit nga interes.

Ang mga gusto sa tiggamit mao ra ang butang nga gikonsiderar sa mga sistema sa tigrekomenda nga nakabase sa sulud. Sa kahayag sa naunang mga pagpili sa user, ang mga bag-ong rekomendasyon gihatag gikan sa may kalabutan nga materyal.

22. Unsa man gyud ang imong gipasabot sa serye sa Oras?

Ang usa ka serye sa panahon usa ka koleksyon sa mga numero sa nagsaka nga han-ay. Sulod sa gitakda nang daan nga yugto sa panahon, gimonitor niini ang paglihok sa pinili nga mga punto sa datos ug matag karon ug unya gikuha ang mga punto sa datos.

Walay minimum o maximum nga input sa oras para sa time series.

Ang mga serye sa oras kanunay nga gigamit sa mga analista aron pag-analisar sa mga datos uyon sa ilang talagsaon nga mga kinahanglanon.

23. Ihulagway ang mga kalainan tali sa Gradient Boosting ug Random Forest nga mga algorithm.

Random nga lasang:

Daghang gidaghanon sa mga punoan sa desisyon ang gitipon sa katapusan ug nailhan nga random nga kalasangan.
Samtang ang gradient boosting nagpatungha sa matag kahoy nga independente sa uban, ang random nga kalasangan nagtukod sa matag kahoy matag usa.
Daghang klase pagpangita sa butang maayo ang pagtrabaho sa mga random nga kalasangan.

Pagdugang sa Gradient:

Samtang ang Random nga mga kalasangan miapil sa mga punoan sa desisyon sa katapusan sa proseso, ang Gradient Boosting Machines naghiusa kanila gikan sa sinugdanan.
Kung ang mga parameter angay nga i-adjust, ang gradient boosting mas labaw sa random nga kalasangan sa mga termino sa mga resulta, apan dili kini usa ka maalamon nga pagpili kung ang set sa datos adunay daghang mga outlier, anomaliya, o kasaba tungod kay kini mahimong hinungdan sa modelo nga mahimong sobra.
Kung adunay dili balanse nga datos, ingon nga naa sa real-time nga pagtimbang-timbang sa peligro, maayo ang pag-uswag sa gradient.

24. Nganong kinahanglan nimo ang confusion matrix? Unsa ni?

Ang usa ka lamesa nga nailhan nga confusion matrix, usahay nailhan nga error matrix, kaylap nga gigamit aron ipakita kung unsa ka maayo ang usa ka modelo sa klasipikasyon, o classifier, sa usa ka set sa data sa pagsulay diin nahibal-an ang tinuod nga mga kantidad.

Makapahimo kini kanamo nga makita kung giunsa ang paghimo sa usa ka modelo o algorithm. Kini naghimo nga sayon alang kanato nga makakita sa mga dili pagsinabtanay sa lain-laing mga kurso.

Nagsilbi kini nga paagi sa pagtimbang-timbang kung unsa ka maayo ang gihimo sa usa ka modelo o algorithm.

Ang mga panagna sa modelo sa klasipikasyon gihugpong sa usa ka matrix sa kalibog. Ang mga kantidad sa pag-ihap sa matag label sa klase gigamit aron mabungkag ang kinatibuk-ang gidaghanon sa husto ug dili husto nga mga panagna.

Naghatag kini og mga detalye sa mga sayup nga nahimo sa classifier ingon man sa lain-laing mga klase sa mga sayup nga gipahinabo sa mga classifier.

25. Unsa man gyud ang usa ka pagtuki sa sangkap sa prinsipyo?

Pinaagi sa pagminus sa gidaghanon sa mga baryable nga may kalabutan sa usag usa, ang tumong mao ang pagpakunhod sa dimensionality sa pagkolekta sa datos. Apan hinungdanon nga ipadayon ang pagkalainlain kutob sa mahimo.

Ang mga baryable giusab ngadto sa usa ka bug-os nga bag-ong set sa mga variable nga gitawag ug principal components.

Kini nga mga PC orthogonal tungod kay kini usa ka covariance matrix's eigenvectors.

26. Ngano nga ang pag-rotate sa component importante kaayo sa PCA (principal component analysis)?

Importante ang rotation sa PCA tungod kay gi-optimize niini ang pagbulag tali sa mga variance nga nakuha sa matag component, nga naghimo sa component nga mas simple.

Nanginahanglan kami og dugang nga mga sangkap aron ipahayag ang pagkalainlain sa sangkap kung ang mga sangkap wala gituyok.

27. Sa unsang paagi magkalahi ang regularisasyon ug normalisasyon sa usag usa?

Normalisasyon:

Ang datos giusab sa panahon sa normalisasyon. Kinahanglan nimo nga i-normal ang datos kung kini adunay mga timbangan nga lahi kaayo, labi na gikan sa ubos hangtod sa taas. Ipahiangay ang matag kolum aron ang sukaranang estadistika managsama ang tanan.

Aron maseguro nga walay pagkawala sa katukma, kini mahimong mapuslanon. Ang pag-ila sa signal samtang gibalewala ang kasaba usa sa mga katuyoan sa pagbansay sa modelo.

Adunay higayon nga mag-overfitting kung ang modelo gihatagan og hingpit nga kontrol aron makunhuran ang sayup.

Regularisasyon:

Sa regularisasyon, ang function sa prediksyon giusab. Kini gipailalom sa pipila ka kontrol pinaagi sa regularisasyon, nga mipabor sa mas simple nga angay nga mga gimbuhaton kay sa mga komplikado.

28. Sa unsang paagi ang normalisasyon ug estandardisasyon lahi sa usag usa?

Ang duha ka labing kaylap nga gigamit nga mga teknik alang sa pag-scale sa feature mao ang normalisasyon ug standardisasyon.

Normalisasyon:

Ang pag-rescale sa datos aron mohaum sa [0,1] range nailhan nga normalization.
Kung ang tanan nga mga parameter kinahanglan adunay parehas nga positibo nga sukod, ang normalisasyon makatabang, apan ang mga outlier sa data set nawala.

Regularisasyon:

Ang datos gi-rescale aron adunay mean nga 0 ug usa ka standard deviation nga 1 isip kabahin sa proseso sa standardization (Unit variance)

29. Unsa man gyud ang gipasabot sa “variance inflation factor”?

Ang ratio sa variance sa modelo ngadto sa variance sa modelo nga adunay usa lamang ka independent variable nailhan nga variation inflation factor (VIF).

Gibanabana sa VIF ang kantidad sa multicollinearity nga naa sa usa ka set sa daghang mga variable sa pagbag-o.

Pagkalainlain sa Modelo (VIF) nga Model nga adunay Usa ka Independent Variable Variance

30. Base sa gidak-on sa training set, unsaon nimo pagpili og classifier?

Ang usa ka taas nga bias, ubos nga variance nga modelo mas maayo alang sa usa ka mubo nga set sa pagbansay tungod kay dili kaayo posible ang overfitting. Ang Naive Bayes usa ka pananglitan.

Aron makarepresentar sa mas komplikado nga mga interaksyon alang sa usa ka dako nga set sa pagbansay, ang usa ka modelo nga adunay ubos nga bias ug taas nga kalainan mas maayo. Ang logistic regression usa ka maayong pananglitan.

31. Unsang algorithm sa pagkat-on sa makina ang gitawag nga "tapolan nga tigkat-on" ug ngano?

Usa ka hinay nga tigkat-on, ang KNN usa ka algorithm sa pagkat-on sa makina. Tungod kay dinamikong kalkulado sa K-NN ang gilay-on sa matag higayon nga gusto nga magklasipikar imbes nga magtuon sa bisan unsang mga kantidad nga nakat-unan sa makina o mga variable gikan sa datos sa pagbansay, gisag-ulo niini ang dataset sa pagbansay.

Kini naghimo sa K-NN nga usa ka tapulan nga tigkat-on.

32. Unsa ang ROC Curve ug AUC?

Ang pasundayag sa usa ka modelo sa klasipikasyon sa tanan nga mga threshold girepresentahan nga grapiko sa kurba sa ROC. Kini adunay tinuod nga positibo nga rate ug sayup nga positibo nga pamatasan sa rate.

Sa yanong pagkasulti, ang dapit ubos sa ROC curve nailhan nga AUC (Area Under the ROC Curve). Ang kurba sa ROC nga duha ka dimensyon nga lugar gikan sa (0,0) hangtod sa AUC gisukod (1,1). Alang sa pag-assess sa binary classification nga mga modelo, gigamit kini isip estadistika sa pasundayag.

33. Unsa ang mga hyperparameter? Unsa ang nakapahimo kanila nga talagsaon gikan sa mga parameter sa modelo?

Ang usa ka internal nga variable sa modelo nailhan nga usa ka parameter sa modelo. Gigamit ang datos sa pagbansay, gibanabana ang kantidad sa usa ka parameter.

Wala mahibal-an sa modelo, ang usa ka hyperparameter usa ka variable. Ang bili dili matino gikan sa datos, busa kini kanunay nga gigamit sa pagkalkulo sa mga parameter sa modelo.

34. Unsay buot ipasabot sa F1 Score, recall, ug precision?

Ang sukod sa kalibug mao ang metric nga gigamit sa pagsukod sa pagkaepektibo sa modelo sa klasipikasyon. Ang mosunod nga mga hugpong sa pulong mahimong gamiton aron mas maayo nga ipasabut ang metric sa kalibug:

TP: Tinuod nga Positibo - Kini ang mga positibo nga kantidad nga gipaabut sa husto. Gisugyot niini nga ang mga kantidad sa giplano nga klase ug ang aktwal nga klase parehas nga positibo.

TN: Tinuod nga Negatibo- Kini ang dili maayo nga mga kantidad nga tukma nga gitagna. Kini nagsugyot nga ang bili sa aktuwal nga klase ug ang gipaabot nga klase negatibo.

Kini nga mga bili—sayup nga mga positibo ug sayop nga mga negatibo—mahitabo kung ang imong aktuwal nga klase lahi sa gipaabot nga klase.

karon,

Ang ratio sa tinuod nga positibo nga rate (TP) sa tanan nga mga obserbasyon nga gihimo sa aktuwal nga klase gitawag nga recall, nailhan usab nga pagkasensitibo.

Ang recall kay TP/(TP+FN).

Ang katukma usa ka sukod sa positibo nga prediktibo nga kantidad, nga nagtandi sa gidaghanon sa mga positibo nga gitagna sa modelo kung pila ang husto nga mga positibo nga tukma nga gitagna niini.

Ang katukma mao ang TP/(TP + FP)

Ang labing sayon nga sukdanan sa pasundayag nga masabtan mao ang katukma, nga mao lamang ang proporsiyon sa hustong gitagna nga mga obserbasyon sa tanang obserbasyon.

Ang katukma katumbas sa (TP+TN)/(TP+FP+FN+TN).

Ang Precision ug Recall gitimbang ug gi-average aron mahatagan ang F1 Score. Ingon usa ka sangputanan, kini nga marka nagkonsiderar sa mga sayup nga positibo ug sayup nga negatibo.

Ang F1 kanunay nga mas bililhon kaysa sa katukma, labi na kung ikaw adunay dili patas nga pag-apod-apod sa klase, bisan kung intuitively dili kini yano nga masabtan sama sa katukma.

Ang labing kaayo nga katukma makab-ot kung ang kantidad sa mga sayup nga positibo ug sayup nga negatibo ikatandi. Mas maayo nga iapil ang parehas nga Precision ug Recall kung ang mga gasto nga adunay kalabotan sa mga sayup nga positibo ug sayup nga negatibo magkalainlain.

35. Unsa man gyud ang cross-validation?

Usa ka pamaagi sa pag-resampling sa istatistika nga gitawag nga cross-validation sa pagkat-on sa makina naggamit daghang mga subset sa dataset aron sa pagbansay ug pagtimbang-timbang sa usa ka algorithm sa pagkat-on sa makina sa daghang mga hugna.

Usa ka bag-ong batch sa datos nga wala gigamit sa pagbansay sa modelo gisulayan gamit ang cross-validation aron makita kung unsa ka maayo ang pagtagna sa modelo. Ang overfitting sa datos gipugngan pinaagi sa cross-validation.

K-Fold Ang kasagarang gigamit nga pamaagi sa pag-resampling nagbahin sa tibuok dataset ngadto sa K set nga managsama ang gidak-on. Gitawag kini nga cross-validation.

36. Ingnon ta nga imong nadiskobrehan nga ang imong modelo adunay dakong kalainan. Unsa nga algorithm, sa imong opinyon, ang labing haum sa pagdumala niini nga sitwasyon?

Pagdumala sa taas nga kabag-ohan

Kinahanglan natong gamiton ang teknik sa pagputos alang sa mga problema nga adunay dagkong mga kalainan.

Ang gibalikbalik nga sampling sa random data gamiton sa bagging algorithm aron bahinon ang datos ngadto sa mga subgroup. Kung nabahin na ang datos, mahimo namong gamiton ang random data ug usa ka piho nga pamaagi sa pagbansay aron makamugna og mga lagda.

Pagkahuman niana, ang pagboto mahimong magamit aron makombinar ang mga panagna sa modelo.

37. Unsay nagpalahi sa Ridge regression gikan sa Lasso regression?

Duha ka kaylap nga gigamit nga mga pamaagi sa regularization mao ang Lasso (gitawag usab nga L1) ug Ridge (usahay gitawag nga L2) regression. Gigamit kini aron mapugngan ang overfitting sa datos.

Aron madiskubre ang labing kaayo nga solusyon ug maminusan ang pagkakomplikado, kini nga mga pamaagi gigamit aron silotan ang mga coefficient. Pinaagi sa pagsilot sa kinatibuk-an sa hingpit nga mga bili sa mga coefficient, ang Lasso regression naglihok.

Ang function sa silot sa Ridge o L2 regression nakuha gikan sa sum sa mga square sa mga coefficients.

38. Hain ang mas importante: performance sa modelo o katukma sa modelo? Hain niini ug nganong mopabor ka niini?

Kini usa ka malimbongon nga pangutana, busa kinahanglan una nga masabtan kung unsa ang Model Performance. Kung ang pasundayag gihubit ingon katulin, nan kini nagsalig sa tipo sa aplikasyon; Ang bisan unsang aplikasyon nga naglambigit sa usa ka tinuod nga oras nga kahimtang nanginahanglan taas nga tulin ingon usa ka hinungdanon nga sangkap.

Pananglitan, ang labing maayo nga mga Resulta sa Pagpangita mahimong dili kaayo bili kung ang mga resulta sa Pangutana dugay kaayo moabut.

Kung ang Performance gigamit ingon nga usa ka katarungan kung ngano nga ang katukma ug paghinumdom kinahanglan unahon labaw sa katukma, nan ang usa ka F1 nga marka mahimong labi ka mapuslanon kaysa katukma sa pagpakita sa kaso sa negosyo alang sa bisan unsang data set nga dili balanse.

39. Unsaon nimo pagdumala ang usa ka dataset nga adunay dili managsama?

Ang dili balanse nga dataset mahimong makabenepisyo gikan sa mga teknik sa sampling. Ang sampling mahimo sa ubos o oversampled nga paagi.

Ubos sa Sampling nagtugot kanato sa pag-us-os sa gidak-on sa mayoriya nga klase nga mohaum sa minoriya nga klase, nga makatabang sa pagpausbaw sa katulin kalabut sa pagtipig ug run-time nga pagpatuman apan mahimo usab nga moresulta sa pagkawala sa bililhong datos.

Aron masulbad ang isyu sa pagkawala sa impormasyon tungod sa oversampling, among gi-upsample ang klase sa Minorya; bisan pa niana, kini maoy hinungdan nga kita modagan ngadto sa mga isyu sa sobra nga pagkabutang.

Dugang nga mga estratehiya naglakip sa:

Cluster-Based Over Sampling- Ang minoriya ug mayoriya nga mga kaso sa klase tagsa-tagsa nga gipailalom sa K-means clustering technique niini nga sitwasyon. Gihimo kini aron makit-an ang mga cluster sa dataset. Dayon, ang matag cluster kay oversample aron ang tanang klase adunay parehas nga gidak-on ug ang tanang cluster sulod sa usa ka klase adunay parehas nga gidaghanon sa mga higayon.
SMOTE: Synthetic Minority Over-sampling Technique- Usa ka tipik sa datos gikan sa minority nga klase ang gigamit isip usa ka pananglitan, human niini ang dugang artipisyal nga mga instance nga susama niini gihimo ug gidugang sa orihinal nga dataset. Maayo kini nga pamaagi sa mga punto sa datos sa numero.

40. Unsaon nimo pag-ila tali sa boosting ug bagging?

Ang Ensemble Techniques adunay mga bersyon nga nailhan nga bagging ug boosting.

Pagputos-

Alang sa mga algorithm nga adunay taas nga kalainan, ang bagging usa ka teknik nga gigamit sa pagpaubos sa kalainan. Usa sa ingon nga pamilya sa mga classifier nga dali nga mapihigon mao ang pamilya sa decision tree.

Ang matang sa datos nga gibansay sa mga punoan sa desisyon adunay dakong epekto sa ilang pasundayag. Tungod niini, bisan sa taas kaayo nga pag-ayo, ang pag-generalize sa mga sangputanan usahay labi ka lisud nga makuha sa kanila.

Kung ang datos sa pagbansay sa mga punoan sa desisyon mausab, ang mga sangputanan magkalainlain kaayo.

Ingon usa ka sangputanan, gigamit ang bagging, diin daghang mga punoan sa desisyon ang gihimo, ang matag usa gibansay gamit ang usa ka sample sa orihinal nga datos, ug ang katapusan nga sangputanan mao ang kasagaran sa tanan nga lainlaing mga modelo.

Pagpadako:

Ang Boosting mao ang teknik sa paghimog mga panagna gamit ang n-weak classifier nga sistema diin ang matag huyang nga classifier mohimo sa mga kakulangan sa iyang mas lig-on nga classifiers. Gitawag namo ang usa ka classifier nga dili maayo ang performance sa gihatag nga data set isip usa ka "huyang nga classifier."

Ang pagpauswag klaro nga usa ka proseso kaysa usa ka algorithm. Ang logistic regression ug mabaw nga mga punoan sa desisyon mao ang kasagaran nga mga pananglitan sa huyang nga mga klasipikasyon.

Ang Adaboost, Gradient Boosting, ug XGBoost mao ang duha ka labing inila nga mga algorithm sa pagpadako, bisan pa, adunay daghan pa.

41. Ipasabot ang mga kalainan tali sa inductive ug deductive nga pagkat-on.

Kung ang pagkat-on pinaagi sa panig-ingnan gikan sa usa ka hugpong sa naobserbahan nga mga pananglitan, ang usa ka modelo naggamit sa inductive nga pagkat-on aron makaabut sa usa ka kinatibuk-ang konklusyon. Sa laing bahin, uban sa deduktibo nga pagkat-on, ang modelo naggamit sa resulta sa wala pa magporma sa iyang kaugalingon.

Ang induktibo nga pagkat-on mao ang proseso sa pagdrowing og mga konklusyon gikan sa mga obserbasyon.

Ang deduktibo nga pagkat-on mao ang proseso sa paghimo og mga obserbasyon base sa mga inferences.

Panapos

Congrats! Kini ang nanguna nga 40 ug pataas nga mga pangutana sa interbyu alang sa pagkat-on sa makina nga nahibal-an na nimo karon ang mga tubag. Data science ug artipisyal nga intelligence nga Ang mga trabaho magpadayon nga gipangayo samtang nag-uswag ang teknolohiya.

Ang mga kandidato nga nag-update sa ilang kahibalo bahin sa kini nga mga teknolohiya ug nagpauswag sa ilang set sa kahanas mahimo’g makit-an ang daghang lainlaing mga posibilidad sa pagpanarbaho nga adunay kompetisyon nga suweldo.

Mahimo nimong ipadayon ang pagtubag sa mga interbyu karon nga ikaw adunay usa ka lig-on nga pagsabut kung giunsa pagtubag ang pipila nga kaylap nga gipangutana nga mga pangutana sa interbyu sa pagkat-on sa makina.

Depende sa imong mga tumong, buhata ang mosunod nga lakang. Pag-andam alang sa mga interbyu pinaagi sa pagbisita sa Hashdork's Serye sa Interbyu.

Mga Pangutana sa Interbyu sa Machine Learning

Kinatas-ang 40+ nga Mga Pangutana sa Interbyu sa Machine Learning