Talaan ng nilalaman[Tago][Ipakita]
- 1. Ipaliwanag ang mga pagkakaiba sa pagitan ng machine learning, artificial intelligence, at deep learning.
- 2. Pakilarawan ang iba't ibang uri ng machine learning.
- 3. Ano ang pagkiling kumpara sa pagkakaiba-iba ng trade-off?
- 4. Ang mga algorithm ng machine learning ay nagbago nang malaki sa paglipas ng panahon. Paano pinipili ng isang tao ang tamang algorithm upang magamit ang ibinigay na set ng data?
- 5. Paano nagkakaiba ang covariance at correlation?
- 6. Sa machine learning, ano ang ibig sabihin ng clustering?
- 7. Ano ang iyong gustong machine learning algorithm?
- 8. Linear Regression sa Machine Learning: Ano Ito?
- 9. Ilarawan ang pagkakaiba ng KNN at k-means clustering.
- 10. Ano ang ibig sabihin sa iyo ng “pagkiling sa pagpili”?
- 11. Ano nga ba ang Bayes' Theorem?
- 12. Sa isang Machine Learning Model, ano ang 'training Set' at 'test Set'?
- 13. Ano ang isang Hypothesis sa Machine Learning?
- 14. Ano ang ibig sabihin ng overfitting ng machine learning, at paano ito mapipigilan?
- 15. Ano nga ba ang Naive Bayes classifiers?
- 16. Ano ang ibig sabihin ng Cost Functions at Loss Functions?
- 17. Ano ang pagkakaiba ng generative model sa discriminative model?
- 18. Ilarawan ang mga pagkakaiba-iba sa pagitan ng Type I at Type II na mga error.
- 19. Sa machine learning, ano ang Ensemble learning technique?
- 20. Ano nga ba ang mga parametric na modelo? Magbigay ng isang halimbawa.
- 21. Ilarawan ang collaborative na pagsasala. Pati na rin ang pag-filter na batay sa nilalaman?
- 22. Ano nga ba ang ibig mong sabihin sa serye ng Oras?
- 23. Ilarawan ang mga pagkakaiba-iba sa pagitan ng mga algorithm ng Gradient Boosting at Random Forest.
- 24. Bakit kailangan mo ng confusion matrix? Ano ito?
- 25. Ano nga ba ang isang prinsipyong bahagi ng pagsusuri?
- 26. Bakit napakahalaga ng pag-ikot ng bahagi sa PCA (pagsusuri ng pangunahing bahagi)?
- 27. Paano nagkakaiba ang regularisasyon at normalisasyon sa isa't isa?
- 28. Paano naiiba ang normalisasyon at estandardisasyon sa isa't isa?
- 29. Ano nga ba ang ibig sabihin ng "variance inflation factor"?
- 30. Batay sa laki ng set ng pagsasanay, paano ka pipili ng classifier?
- 31. Anong algorithm sa machine learning ang tinutukoy bilang "tamad na mag-aaral" at bakit?
- 32. Ano ang ROC Curve at AUC?
- 33. Ano ang mga hyperparameter? Ano ang natatangi sa kanila mula sa mga parameter ng modelo?
- 34. Ano ang ibig sabihin ng F1 Score, recall, at precision?
- 35. Ano nga ba ang cross-validation?
- 36. Sabihin nating natuklasan mo na ang iyong modelo ay may malaking pagkakaiba. Anong algorithm, sa iyong opinyon, ang pinakaangkop upang mahawakan ang sitwasyong ito?
- 37. Ano ang pinagkaiba ng Ridge regression mula sa Lasso regression?
- 38. Alin ang mas mahalaga: pagganap ng modelo o katumpakan ng modelo? Alin at bakit mo ito papaboran?
- 39. Paano mo pamamahalaan ang isang dataset na may mga hindi pagkakapantay-pantay?
- 40. Paano mo makikilala ang pagitan ng boosting at bagging?
- 41. Ipaliwanag ang pagkakaiba sa pagitan ng inductive at deductive learning.
- Konklusyon
Gumagamit ang mga negosyo ng makabagong teknolohiya, gaya ng artificial intelligence (AI) at machine learning, upang mapataas ang accessibility ng impormasyon at mga serbisyo sa mga indibidwal.
Ang mga teknolohiyang ito ay pinagtibay ng iba't ibang industriya, kabilang ang pagbabangko, pananalapi, tingian, pagmamanupaktura, at pangangalagang pangkalusugan.
Ang isa sa mga pinakahinahangad na tungkulin ng organisasyon na gumagamit ng AI ay para sa mga data scientist, artificial intelligence engineer, machine learning engineer, at data analyst.
Dadalhin ka ng post na ito sa iba't ibang uri ng machine learning mga tanong sa pakikipanayam, mula sa basic hanggang sa kumplikado, upang matulungan kang maghanda para sa anumang mga katanungan na maaaring itanong sa iyo kapag naghahanap ng iyong ideal na trabaho.
1. Ipaliwanag ang mga pagkakaiba sa pagitan ng machine learning, artificial intelligence, at deep learning.
Gumagamit ang artificial intelligence ng iba't ibang machine learning at deep learning approach na nagbibigay-daan sa mga computer system na magsagawa ng mga gawain gamit ang tulad ng tao na katalinuhan na may lohika at mga panuntunan.
Gumagamit ang machine learning ng iba't ibang statistics at Deep Learning approach para paganahin ang mga machine na matuto mula sa dati nilang performance at maging mas bihasa sa paggawa ng ilang partikular na gawain nang mag-isa nang walang pangangasiwa ng tao.
Ang Deep Learning ay isang koleksyon ng mga algorithm na nagbibigay-daan sa software na matuto mula sa sarili nito at magsagawa ng iba't ibang mga komersyal na function, tulad ng voice at picture recognition.
Mga system na naglalantad sa kanilang multilayered neural network sa napakaraming data para sa pag-aaral ay nakakagawa ng malalim na pag-aaral.
2. Pakilarawan ang iba't ibang uri ng machine learning.
Ang machine learning ay umiiral sa tatlong magkakaibang uri nang malawak:
- Pinangangasiwaang Pag-aaral: Gumagawa ang isang modelo ng mga hula o paghuhusga gamit ang may label o makasaysayang data sa pinangangasiwaang machine learning. Ang mga set ng data na na-tag o may label upang madagdagan ang kanilang kahulugan ay tinutukoy bilang may label na data.
- Unsupervised Learning: Wala kaming label na data para sa unsupervised learning. Sa papasok na data, makakahanap ang isang modelo ng mga pattern, kakaiba, at ugnayan.
- Reinforcement Learning: Ang modelo ay maaaring matuto sa pamamagitan ng paggamit ng reinforcement pag-aaral at ang mga gantimpala na nakuha nito para sa dati nitong pag-uugali.
3. Ano ang pagkiling kumpara sa pagkakaiba-iba ng trade-off?
Ang overfitting ay resulta ng bias, na kung saan umaangkop ang isang modelo sa data. Ang bias ay sanhi ng hindi tama o masyadong simpleng mga pagpapalagay sa iyong algorithm sa pag-aaral ng machine.
Ang pagkakaiba ay tumutukoy sa mga pagkakamali na dulot ng pagiging kumplikado sa iyong ML algorithm, na nagbubunga ng pagiging sensitibo sa malalaking antas ng pagkakaiba sa data ng pagsasanay at overfitting.
Ang pagkakaiba ay kung gaano kalaki ang pagkakaiba ng isang modelo depende sa mga input.
Sa madaling salita, ang mga pangunahing modelo ay sobrang bias ngunit matatag (mababa ang pagkakaiba-iba). Ang overfitting ay isang problema sa mga kumplikadong modelo, bagama't nakuha pa rin nila ang realidad ng modelo (mababang bias).
Upang maiwasan ang parehong mataas na variation at mataas na bias, kailangan ang isang trade-off sa pagitan ng bias at variance para sa pinakamahusay na pagbawas ng error.
4. Ang mga algorithm ng machine learning ay nagbago nang malaki sa paglipas ng panahon. Paano pinipili ng isang tao ang tamang algorithm upang magamit ang ibinigay na set ng data?
Ang machine learning technique na dapat gamitin ay depende lang sa uri ng data sa isang partikular na dataset.
Kapag linear ang data, ginagamit ang linear regression. Ang paraan ng pag-bagging ay magiging mas mahusay kung ang data ay nagpapahiwatig ng hindi linearity. Maaari naming gamitin ang mga puno ng desisyon o SVM kung ang data ay kailangang suriin o bigyang-kahulugan para sa mga komersyal na layunin.
Maaaring maging kapaki-pakinabang ang mga neural network upang makakuha ng tumpak na sagot kung kasama sa dataset ang mga larawan, video, at audio.
Ang pagpili ng algorithm para sa isang partikular na pangyayari o koleksyon ng data ay hindi maaaring gawin sa isang sukat lamang.
Para sa layunin ng pagbuo ng pinakaangkop na pamamaraan, kailangan muna nating suriin ang data gamit ang exploratory data analysis (EDA) at maunawaan ang layunin ng paggamit ng dataset.
5. Paano nagkakaiba ang covariance at correlation?
Sinusuri ng covariance kung paano konektado ang dalawang variable sa isa't isa at kung paano maaaring magbago ang isa bilang tugon sa mga pagbabago sa isa pa.
Kung ang resulta ay positibo, ito ay nagpapahiwatig na mayroong isang direktang link sa pagitan ng mga variable at na ang isa ay tumaas o bababa sa isang pagtaas o pagbaba sa base variable, sa pag-aakalang ang lahat ng iba pang mga kondisyon ay mananatiling pare-pareho.
Sinusukat ng ugnayan ang link sa pagitan ng dalawang random na variable at mayroon lamang tatlong natatanging value: 1, 0, at -1.
6. Sa machine learning, ano ang ibig sabihin ng clustering?
Ang mga pamamaraan ng hindi pinangangasiwaang pag-aaral na pinagsasama-sama ang mga punto ng data ay tinatawag na clustering. Sa pamamagitan ng isang koleksyon ng mga punto ng data, maaaring ilapat ang pamamaraan ng clustering.
Maaari mong pangkatin ang lahat ng mga punto ng data ayon sa kanilang mga function gamit ang diskarteng ito.
Ang mga tampok at katangian ng mga punto ng data na nabibilang sa parehong kategorya ay magkatulad, habang ang mga sa mga punto ng data na nabibilang sa magkakahiwalay na pagpapangkat ay iba.
Ang pamamaraang ito ay maaaring gamitin upang pag-aralan ang istatistikal na datos.
7. Ano ang iyong gustong machine learning algorithm?
May pagkakataon kang ipakita ang iyong mga kagustuhan at natatanging talento sa tanong na ito, pati na rin ang iyong komprehensibong kaalaman sa maraming mga diskarte sa machine learning.
Narito ang ilang karaniwang machine learning algorithm na pag-isipan:
- Pagkakasunod na pagkakaugnay
- Logistic regression
- Walang muwang Bayes
- Mga puno ng desisyon
- K ibig sabihin
- Random na algorithm ng kagubatan
- K-pinakamalapit na kapitbahay (KNN)
8. Linear Regression sa Machine Learning: Ano Ito?
Ang isang pinangangasiwaang machine learning algorithm ay linear regression.
Ginagamit ito sa predictive analysis upang matukoy ang linear na koneksyon sa pagitan ng dependent at independent variable.
Ang equation ng linear regression ay ang mga sumusunod:
Y = A + BX
kung saan:
- Ang input o independent variable ay tinatawag na X.
- Ang dependent o output variable ay Y.
- Ang coefficient ng X ay b, at ang intercept nito ay a.
9. Ilarawan ang pagkakaiba ng KNN at k-means clustering.
Ang pangunahing pagkakaiba ay ang KNN (isang paraan ng pag-uuri, pinangangasiwaang pag-aaral) ay nangangailangan ng mga may label na puntos samantalang ang k-means ay hindi (clustering algorithm, unsupervised learning).
Maaari mong uriin ang may label na data sa isang walang label na punto sa pamamagitan ng paggamit ng K-Nearest Neighbors. Ginagamit ng K-means clustering ang average na distansya sa pagitan ng mga punto upang matutunan kung paano pagpangkatin ang mga walang label na puntos.
10. Ano ang ibig sabihin sa iyo ng “pagkiling sa pagpili”?
Ang bias sa yugto ng sampling ng isang eksperimento ay dahil sa hindi tumpak na istatistika.
Isang sample na grupo ang pinipili nang mas madalas kaysa sa iba pang mga grupo sa eksperimento bilang resulta ng hindi tumpak.
Kung hindi kinikilala ang bias sa pagpili, maaari itong magresulta sa isang maling konklusyon.
11. Ano nga ba ang Bayes' Theorem?
Kapag alam natin ang iba pang mga probabilidad, matutukoy natin ang probabilidad gamit ang Bayes' Theorem. Nag-aalok ito ng posterior probability ng isang pangyayari batay sa naunang impormasyon, sa madaling salita.
Ang isang mahusay na paraan para sa pagtantya ng mga probabilidad ng kondisyon ay ibinigay ng teorem na ito.
Kapag bumubuo ng pag-uuri ng mga predictive na problema sa pagmomodelo at pag-angkop ng isang modelo sa isang pagsasanay dataset sa machine learning, Ang teorama ng Bayes ay inilapat (ibig sabihin, Naive Bayes, Bayes Optimal Classifier).
12. Sa isang Machine Learning Model, ano ang 'training Set' at 'test Set'?
Set ng pagsasanay:
- Ang set ng pagsasanay ay binubuo ng mga pagkakataon na ipinadala sa modelo para sa pagsusuri at pag-aaral.
- Ito ang may label na data na gagamitin para sanayin ang modelo.
- Karaniwan, 70% ng kabuuang data ang ginagamit bilang dataset ng pagsasanay.
Set ng Pagsubok:
- Ang test set ay ginagamit upang masuri ang katumpakan ng pagbuo ng hypothesis ng modelo.
- Sinusubukan namin nang walang naka-label na data at pagkatapos ay gumagamit kami ng mga label upang kumpirmahin ang mga resulta.
- Ang natitirang 30% ay ginagamit bilang isang test dataset.
13. Ano ang isang Hypothesis sa Machine Learning?
Ang Machine Learning ay nagbibigay-daan sa paggamit ng mga kasalukuyang dataset upang mas maunawaan ang isang partikular na function na nagli-link ng input sa output. Ito ay kilala bilang function approximation.
Sa kasong ito, dapat gamitin ang approximation para sa hindi kilalang target na function upang ilipat ang lahat ng naiisip na obserbasyon batay sa ibinigay na sitwasyon sa pinakamahusay na paraan na posible.
Sa machine learning, ang hypothesis ay isang modelo na tumutulong sa pagtatantya ng target na function at pagkumpleto ng naaangkop na input-to-output mappings.
Ang pagpili at disenyo ng mga algorithm ay nagbibigay-daan para sa kahulugan ng espasyo ng mga posibleng hypotheses na maaaring katawanin ng isang modelo.
Para sa isang hypothesis, maliit na titik na h (h) ang ginagamit, ngunit ang capital na h (H) ay ginagamit para sa buong hypothesis space na hinahanap. Dagli naming susuriin ang mga notasyong ito:
- Ang hypothesis (h) ay isang partikular na modelo na nagpapadali sa pagmamapa ng input sa output, na pagkatapos ay magagamit para sa pagsusuri at hula.
- Ang hypothesis set (H) ay isang mahahanap na espasyo ng mga hypotheses na maaaring magamit upang i-map ang mga input sa mga output. Ang pag-frame ng isyu, modelo, at configuration ng modelo ay ilang halimbawa ng mga generic na limitasyon.
14. Ano ang ibig sabihin ng overfitting ng machine learning, at paano ito mapipigilan?
Kapag sinubukan ng isang makina na matuto mula sa hindi sapat na dataset, nangyayari ang overfitting.
Bilang resulta, ang overfitting ay inversely correlated sa dami ng data. Nagbibigay-daan ang cross-validation approach na maiwasan ang overfitting para sa maliliit na dataset. Ang isang dataset ay nahahati sa dalawang bahagi sa paraang ito.
Ang dataset para sa pagsubok at pagsasanay ay binubuo ng dalawang bahaging ito. Ang dataset ng pagsasanay ay ginagamit upang lumikha ng isang modelo, habang ang pagsubok na dataset ay ginagamit upang suriin ang modelo gamit ang iba't ibang mga input.
Ito ay kung paano maiwasan ang overfitting.
15. Ano nga ba ang Naive Bayes classifiers?
Iba't ibang paraan ng pag-uuri ang bumubuo sa Naive Bayes classifiers. Ang isang hanay ng mga algorithm na kilala bilang mga classifier na ito ay gumagana sa parehong pangunahing ideya.
Ang pagpapalagay na ginawa ng mga walang muwang na mga classifier ng Bayes ay ang presensya o kawalan ng isang feature ay walang kinalaman sa presensya o kawalan ng isa pang feature.
Sa madaling salita, ito ang tinutukoy naming "walang muwang" dahil ipinapalagay nito na ang bawat attribute ng dataset ay pantay na makabuluhan at independyente.
Ang pag-uuri ay ginagawa gamit ang walang muwang na mga klasipikasyon ng Bayes. Ang mga ito ay simpleng gamitin at makagawa ng mas mahusay na mga resulta kaysa sa mas kumplikadong mga predictor kapag ang premise ng pagsasarili ay totoo.
Sa pagsusuri ng teksto, pag-filter ng spam, at mga sistema ng rekomendasyon, ginagamit ang mga ito.
16. Ano ang ibig sabihin ng Cost Functions at Loss Functions?
Ang pariralang "loss function" ay tumutukoy sa proseso ng pag-compute ng pagkawala kapag isang piraso lang ng data ang isinasaalang-alang.
Sa kabaligtaran, ginagamit namin ang function ng gastos upang matukoy ang kabuuang halaga ng mga pagkakamali para sa maraming data. Walang makabuluhang pagkakaiba ang umiiral.
Sa madaling salita, habang pinagsama-sama ng mga function ng gastos ang pagkakaiba para sa buong dataset ng pagsasanay, ang mga function ng pagkawala ay idinisenyo upang makuha ang pagkakaiba sa pagitan ng aktwal at hinulaang mga halaga para sa isang tala.
17. Ano ang pagkakaiba ng generative model sa discriminative model?
Natututuhan ng isang modelong may diskriminasyon ang mga pagkakaiba sa pagitan ng ilang kategorya ng data. Ang isang generative na modelo ay kumukuha ng iba't ibang uri ng data.
Sa mga problema sa pag-uuri, ang mga modelong may diskriminasyon ay kadalasang nangunguna sa iba pang mga modelo.
18. Ilarawan ang mga pagkakaiba-iba sa pagitan ng Type I at Type II na mga error.
Ang mga maling positibo ay nasa ilalim ng kategorya ng mga Type I na error, samantalang ang mga maling negatibo ay nasa ilalim ng Type II na mga error (na sinasabing walang nangyari kapag ito ay aktwal na).
19. Sa machine learning, ano ang Ensemble learning technique?
Ang isang pamamaraan na tinatawag na ensemble learning ay pinaghahalo ang maraming modelo ng machine learning upang makabuo ng mas makapangyarihang mga modelo.
Ang isang modelo ay maaaring iba-iba para sa iba't ibang mga kadahilanan. Ang ilang mga dahilan ay:
- Iba't ibang Populasyon
- Iba't ibang Hypotheses
- Iba't ibang paraan ng pagmomodelo
Makakaharap kami ng isyu habang ginagamit ang data ng pagsasanay at pagsubok ng modelo. Ang bias, pagkakaiba, at hindi mababawasang error ay posibleng mga uri ng pagkakamaling ito.
Ngayon, tinatawag namin itong balanse sa pagitan ng bias at variance sa modelo na isang bias-variance trade-off, at dapat itong palaging umiiral. Ang trade-off na ito ay nagagawa sa pamamagitan ng paggamit ng ensemble learning.
Bagama't mayroong iba't ibang mga diskarte sa ensemble na magagamit, mayroong dalawang karaniwang mga diskarte para sa pagsasama-sama ng maraming mga modelo:
- Ang isang katutubong diskarte na tinatawag na bagging ay gumagamit ng set ng pagsasanay upang makagawa ng mga karagdagang set ng pagsasanay.
- Pagpapalakas, isang mas sopistikadong pamamaraan: Katulad ng pagbabalot, ginagamit ang pagpapalakas upang mahanap ang perpektong formula ng pagtimbang para sa isang set ng pagsasanay.
20. Ano nga ba ang mga parametric na modelo? Magbigay ng isang halimbawa.
May limitadong halaga ng mga parameter sa mga parametric na modelo. Upang hulaan ang data, ang kailangan mo lang malaman ay ang mga parameter ng modelo.
Ang mga sumusunod ay karaniwang mga halimbawa: logistic regression, linear regression, at linear SVMs. Ang mga non-parametric na modelo ay flexible dahil maaari silang maglaman ng walang limitasyong bilang ng mga parameter.
Ang mga parameter ng modelo at ang katayuan ng naobserbahang data ay kinakailangan para sa mga hula ng data. Narito ang ilang karaniwang mga halimbawa: mga modelo ng paksa, mga puno ng desisyon, at mga k-pinakamalapit na kapitbahay.
21. Ilarawan ang collaborative na pagsasala. Pati na rin ang pag-filter na batay sa nilalaman?
Ang isang sinubukan-at-totoong paraan para sa paggawa ng mga suhestiyon sa iniangkop na nilalaman ay ang collaborative na pag-filter.
Ang isang paraan ng sistema ng rekomendasyon na tinatawag na collaborative na pag-filter ay naghuhula ng sariwang materyal sa pamamagitan ng pagbabalanse ng mga kagustuhan ng user sa mga magkakabahaging interes.
Ang mga kagustuhan ng user ay ang tanging bagay na isinasaalang-alang ng mga system ng nagrerekomendang batay sa nilalaman. Sa liwanag ng mga naunang pinili ng user, ang mga bagong rekomendasyon ay ibinibigay mula sa kaugnay na materyal.
22. Ano nga ba ang ibig mong sabihin sa serye ng Oras?
Ang time series ay isang koleksyon ng mga numero sa pataas na pagkakasunod-sunod. Sa isang paunang natukoy na yugto ng panahon, sinusubaybayan nito ang paggalaw ng mga napiling punto ng data at pana-panahong kumukuha ng mga punto ng data.
Walang minimum o maximum na input ng oras para sa serye ng oras.
Ang mga serye ng oras ay madalas na ginagamit ng mga analyst upang pag-aralan ang data alinsunod sa kanilang mga natatanging kinakailangan.
23. Ilarawan ang mga pagkakaiba-iba sa pagitan ng mga algorithm ng Gradient Boosting at Random Forest.
Random Forest:
- Ang isang malaking bilang ng mga puno ng desisyon ay pinagsama-sama sa dulo at kilala bilang mga random na kagubatan.
- Habang ang gradient boosting ay gumagawa ng bawat puno nang hiwalay sa iba, ang random na kagubatan ay nagtatayo ng bawat puno nang paisa-isa.
- Multiclass pagtuklas ng bagay gumagana nang maayos sa mga random na kagubatan.
Pagpapalakas ng Gradient:
- Habang ang Random na kagubatan ay sumasali sa mga puno ng desisyon sa pagtatapos ng proseso, pinagsasama sila ng Gradient Boosting Machine mula sa simula.
- Kung naaangkop ang pagsasaayos ng mga parameter, ang gradient boosting ay hihigit sa mga random na kagubatan sa mga tuntunin ng mga resulta, ngunit ito ay hindi isang matalinong pagpili kung ang set ng data ay may maraming mga outlier, anomalya, o ingay dahil maaari itong maging sanhi ng modelo na maging overfit.
- Kapag may hindi balanseng data, tulad ng nasa real-time na pagtatasa ng panganib, mahusay na gumaganap ang gradient boosting.
24. Bakit kailangan mo ng confusion matrix? Ano ito?
Ang isang talahanayan na kilala bilang ang confusion matrix, kung minsan ay kilala bilang ang error matrix, ay malawakang ginagamit upang ipakita kung gaano kahusay gumaganap ang isang modelo ng pag-uuri, o classifier, sa isang set ng data ng pagsubok kung saan alam ang mga tunay na halaga.
Nagbibigay-daan ito sa amin na makita kung paano gumaganap ang isang modelo o algorithm. Ginagawa nitong simple para sa amin na makita ang mga hindi pagkakaunawaan sa iba't ibang kurso.
Ito ay nagsisilbing isang paraan upang suriin kung gaano kahusay ang pagganap ng isang modelo o algorithm.
Ang mga hula ng modelo ng pag-uuri ay pinagsama-sama sa isang confusion matrix. Ang mga halaga ng bilang ng bawat label ng klase ay ginamit upang hatiin ang kabuuang bilang ng tama at maling mga hula.
Nagbibigay ito ng mga detalye sa mga pagkakamali na ginawa ng classifier pati na rin ang iba't ibang uri ng mga error na dulot ng mga classifier.
25. Ano nga ba ang isang prinsipyong bahagi ng pagsusuri?
Sa pamamagitan ng pagliit ng bilang ng mga variable na nauugnay sa isa't isa, ang layunin ay upang mabawasan ang dimensionality ng koleksyon ng data. Ngunit mahalagang panatilihin ang pagkakaiba-iba hangga't maaari.
Ang mga variable ay binago sa isang ganap na bagong hanay ng mga variable na tinatawag na mga pangunahing bahagi.
Ang mga PC na ito ay orthogonal dahil sila ay mga eigenvector ng covariance matrix.
26. Bakit napakahalaga ng pag-ikot ng bahagi sa PCA (pagsusuri ng pangunahing bahagi)?
Ang pag-ikot ay mahalaga sa PCA dahil ino-optimize nito ang paghihiwalay sa pagitan ng mga pagkakaiba-iba na nakuha ng bawat bahagi, na ginagawang mas simple ang interpretasyon ng bahagi.
Nangangailangan kami ng mga pinahabang bahagi upang ipahayag ang pagkakaiba-iba ng bahagi kung ang mga bahagi ay hindi pinaikot.
27. Paano nagkakaiba ang regularisasyon at normalisasyon sa isa't isa?
Pag-normalize:
Binabago ang data sa panahon ng normalisasyon. Dapat mong gawing normal ang data kung mayroon itong mga sukat na lubhang naiiba, lalo na mula sa mababa hanggang sa mataas. Ayusin ang bawat column upang ang mga pangunahing istatistika ay magkatugma lahat.
Upang matiyak na walang pagkawala ng katumpakan, maaari itong maging kapaki-pakinabang. Ang pagtuklas ng signal habang binabalewala ang ingay ay isa sa mga layunin ng pagsasanay ng modelo.
May posibilidad na mag-overfitting kung ang modelo ay bibigyan ng kumpletong kontrol upang mabawasan ang error.
Regularisasyon:
Sa regularisasyon, binago ang function ng hula. Ito ay napapailalim sa ilang kontrol sa pamamagitan ng regularization, na pinapaboran ang mas simple na angkop na mga function kaysa sa mga kumplikado.
28. Paano naiiba ang normalisasyon at estandardisasyon sa isa't isa?
Ang dalawang pinaka-malawak na ginagamit na diskarte para sa pag-scale ng tampok ay normalisasyon at standardisasyon.
Pag-normalize:
- Ang pag-rescale ng data upang umangkop sa isang [0,1] na hanay ay kilala bilang normalisasyon.
- Kapag ang lahat ng mga parameter ay dapat magkaroon ng parehong positibong sukat, ang normalisasyon ay kapaki-pakinabang, ngunit ang mga outlier ng set ng data ay nawawala.
Regularisasyon:
- Nire-rescale ang data upang magkaroon ng mean na 0 at isang standard deviation na 1 bilang bahagi ng proseso ng standardization (Unit variance)
29. Ano nga ba ang ibig sabihin ng "variance inflation factor"?
Ang ratio ng variance ng modelo sa variance ng modelo na may isang independent variable lang ay kilala bilang variation inflation factor (VIF).
Tinatantya ng VIF ang dami ng multicollinearity na naroroon sa isang set ng ilang mga variable ng regression.
Variance of the model (VIF) Model na may Isang Independent Variable Variance
30. Batay sa laki ng set ng pagsasanay, paano ka pipili ng classifier?
Ang isang mataas na bias, mababang variance na modelo ay gumaganap nang mas mahusay para sa isang maikling set ng pagsasanay dahil ang overfitting ay mas malamang. Ang Naive Bayes ay isang halimbawa.
Upang kumatawan sa mas kumplikadong mga pakikipag-ugnayan para sa isang malaking set ng pagsasanay, isang modelo na may mababang bias at mataas na pagkakaiba ay mas gusto. Ang logistic regression ay isang magandang halimbawa.
31. Anong algorithm sa machine learning ang tinutukoy bilang "tamad na mag-aaral" at bakit?
Isang matamlay na mag-aaral, ang KNN ay isang machine learning algorithm. Dahil dynamic na kinakalkula ng K-NN ang distansya sa tuwing nais nitong mag-uri-uri sa halip na matutunan ang anumang mga value o variable na natutunan ng machine mula sa data ng pagsasanay, isinasaulo nito ang dataset ng pagsasanay.
Ginagawa nitong tamad na mag-aaral ang K-NN.
32. Ano ang ROC Curve at AUC?
Ang pagganap ng isang modelo ng pag-uuri sa lahat ng mga threshold ay graphic na kinakatawan ng ROC curve. Mayroon itong totoong positibong rate at maling positibong pamantayan sa rate.
Sa madaling salita, ang lugar sa ilalim ng ROC curve ay kilala bilang AUC (Area Under the ROC Curve). Ang dalawang-dimensional na lugar ng ROC curve mula (0,0) hanggang AUC ay sinusukat (1,1). Para sa pagtatasa ng mga modelo ng pag-uuri ng binary, ginagamit ito bilang isang istatistika ng pagganap.
33. Ano ang mga hyperparameter? Ano ang natatangi sa kanila mula sa mga parameter ng modelo?
Ang panloob na variable ng modelo ay kilala bilang parameter ng modelo. Gamit ang data ng pagsasanay, tinatantya ang halaga ng isang parameter.
Hindi alam ng modelo, ang hyperparameter ay isang variable. Ang halaga ay hindi maaaring matukoy mula sa data, kaya ang mga ito ay madalas na ginagamit upang kalkulahin ang mga parameter ng modelo.
34. Ano ang ibig sabihin ng F1 Score, recall, at precision?
Ang Panukala ng pagkalito ay ang sukatan na ginagamit upang masukat ang pagiging epektibo ng modelo ng pag-uuri. Maaaring gamitin ang mga sumusunod na parirala upang mas maipaliwanag ang sukatan ng pagkalito:
TP: True Positive – Ito ang mga positibong halaga na inaasahan nang maayos. Iminumungkahi nito na ang mga halaga ng inaasahang klase at ang aktwal na klase ay parehong positibo.
TN: True Negatives- Ito ang mga masamang halaga na tumpak na nahula. Iminumungkahi nito na parehong negatibo ang halaga ng aktwal na klase at ang inaasahang klase.
Ang mga halagang ito—mga maling positibo at maling negatibo—ay nangyayari kapag ang iyong aktwal na klase ay naiiba sa inaasahang klase.
Ngayon,
Ang ratio ng totoong positibong rate (TP) sa lahat ng obserbasyon na ginawa sa aktwal na klase ay tinatawag na recall, na kilala rin bilang sensitivity.
Ang recall ay TP/(TP+FN).
Ang katumpakan ay isang sukatan ng positibong predictive na halaga, na naghahambing sa bilang ng mga positibong talagang hinuhulaan ng modelo sa kung gaano karaming mga tamang positibo ang tumpak nitong hinuhulaan.
Ang katumpakan ay TP/(TP + FP)
Ang pinakamadaling sukatan ng pagganap na maunawaan ay ang katumpakan, na kung saan ay ang proporsyon lamang ng wastong hinulaang mga obserbasyon sa lahat ng mga obserbasyon.
Ang katumpakan ay katumbas ng (TP+TN)/(TP+FP+FN+TN).
Ang Precision at Recall ay binibigyang timbang at naa-average upang maibigay ang F1 Score. Bilang resulta, isinasaalang-alang ng markang ito ang mga maling positibo at maling negatibo.
Ang F1 ay madalas na mas mahalaga kaysa sa katumpakan, lalo na kung mayroon kang hindi pantay na pamamahagi ng klase, kahit na intuitively ito ay hindi kasing simple upang maunawaan ang katumpakan.
Ang pinakamahusay na katumpakan ay nakakamit kapag ang halaga ng mga maling positibo at maling negatibo ay maihahambing. Mas mainam na isama ang parehong Precision at Recall kung ang mga gastos na nauugnay sa mga maling positibo at maling negatibo ay malaki ang pagkakaiba.
35. Ano nga ba ang cross-validation?
Ang isang statistical resampling approach na tinatawag na cross-validation sa machine learning ay gumagamit ng ilang dataset subset upang sanayin at suriin ang isang machine learning algorithm sa ilang mga round.
Ang isang bagong batch ng data na hindi ginamit para sanayin ang modelo ay sinubok gamit ang cross-validation upang makita kung gaano kahusay ang hula ng modelo. Ang overfitting ng data ay pinipigilan sa pamamagitan ng cross-validation.
K-Fold Hinahati ng pinakamadalas na ginagamit na paraan ng resampling ang buong dataset sa mga K set na magkapareho ang laki. Ito ay tinatawag na cross-validation.
36. Sabihin nating natuklasan mo na ang iyong modelo ay may malaking pagkakaiba. Anong algorithm, sa iyong opinyon, ang pinakaangkop upang mahawakan ang sitwasyong ito?
Pamamahala ng mataas na pagkakaiba-iba
Dapat nating gamitin ang pamamaraan ng pagbabalot para sa mga problema na may malalaking pagkakaiba-iba.
Ang paulit-ulit na sampling ng random na data ay gagamitin ng bagging algorithm upang hatiin ang data sa mga subgroup. Kapag nahati na ang data, maaari naming gamitin ang random na data at isang partikular na pamamaraan ng pagsasanay upang bumuo ng mga panuntunan.
Pagkatapos noon, maaaring gamitin ang botohan upang pagsamahin ang mga hula ng modelo.
37. Ano ang pinagkaiba ng Ridge regression mula sa Lasso regression?
Dalawang malawakang ginagamit na paraan ng regularization ay ang Lasso (tinatawag ding L1) at Ridge (minsan tinatawag na L2) regression. Ginagamit ang mga ito upang maiwasan ang overfitting ng data.
Upang matuklasan ang pinakamahusay na solusyon at mabawasan ang pagiging kumplikado, ang mga pamamaraan na ito ay ginagamit upang parusahan ang mga coefficient. Sa pamamagitan ng pagpaparusa sa kabuuan ng mga ganap na halaga ng mga coefficient, gumagana ang Lasso regression.
Ang function ng parusa sa Ridge o L2 regression ay hinango mula sa kabuuan ng mga parisukat ng mga coefficient.
38. Alin ang mas mahalaga: pagganap ng modelo o katumpakan ng modelo? Alin at bakit mo ito papaboran?
Ito ay isang mapanlinlang na tanong, kaya dapat munang maunawaan ng isa kung ano ang Model Performance. Kung ang pagganap ay tinukoy bilang bilis, pagkatapos ay umaasa ito sa uri ng aplikasyon; anumang application na kinasasangkutan ng isang real-time na sitwasyon ay mangangailangan ng mataas na bilis bilang isang mahalagang bahagi.
Halimbawa, ang pinakamahusay na Mga Resulta ng Paghahanap ay magiging hindi gaanong mahalaga kung ang mga resulta ng Query ay masyadong matagal bago dumating.
Kung ang Performance ay ginagamit bilang katwiran kung bakit dapat unahin ang katumpakan at pag-recall kaysa sa katumpakan, kung gayon ang isang F1 na marka ay magiging mas kapaki-pakinabang kaysa sa katumpakan sa pagpapakita ng kaso ng negosyo para sa anumang set ng data na hindi balanse.
39. Paano mo pamamahalaan ang isang dataset na may mga hindi pagkakapantay-pantay?
Ang isang hindi balanseng dataset ay maaaring makinabang mula sa mga diskarte sa pag-sample. Maaaring gawin ang pagsa-sample sa alinman sa under o oversampled na paraan.
Sa ilalim ng Sampling ay nagbibigay-daan sa amin na paliitin ang laki ng mayoryang klase upang tumugma sa klase ng minorya, na tumutulong sa pagtaas ng bilis patungkol sa pag-iimbak at pagsasagawa ng oras ng pagtakbo ngunit maaari ring magresulta sa pagkawala ng mahalagang data.
Upang malutas ang isyu ng pagkawala ng impormasyon na dulot ng sobrang pag-sampling, i-upsample namin ang klase ng Minority; gayunpaman, ito ay nagdudulot sa atin na magkaroon ng overfitting na mga isyu.
Kasama sa mga karagdagang estratehiya ang:
- Cluster-Based Over Sampling- Ang minority at majority class instance ay indibidwal na sumasailalim sa K-means clustering technique sa sitwasyong ito. Ginagawa ito upang makahanap ng mga cluster ng dataset. Pagkatapos, ang bawat cluster ay na-oversample upang ang lahat ng mga klase ay may parehong laki at lahat ng mga cluster sa loob ng isang klase ay may pantay na bilang ng mga pagkakataon.
- SMOTE: Synthetic Minority Over-sampling Technique- Ang isang slice ng data mula sa minority class ay ginagamit bilang isang halimbawa, kung saan ang mga karagdagang artipisyal na instance na maihahambing dito ay ginawa at idinagdag sa orihinal na dataset. Ang pamamaraang ito ay mahusay na gumagana sa mga numeric data point.
40. Paano mo makikilala ang pagitan ng boosting at bagging?
Ang Ensemble Techniques ay may mga bersyon na kilala bilang bagging at boosting.
Bagging-
Para sa mga algorithm na may mataas na variation, ang bagging ay isang pamamaraan na ginagamit upang babaan ang pagkakaiba. Ang isang pamilya ng mga classifier na madaling kapitan ng bias ay ang pamilya ng decision tree.
Ang uri ng data kung saan sinanay ang mga puno ng desisyon ay may malaking epekto sa kanilang pagganap. Dahil dito, kahit na may napakataas na fine-tuning, ang generalization ng mga resulta ay kung minsan ay mas mahirap makuha sa kanila.
Kung babaguhin ang data ng pagsasanay ng mga puno ng desisyon, malaki ang pagkakaiba ng mga resulta.
Bilang kinahinatnan, ginagamit ang bagging, kung saan maraming decision tree ang nalilikha, bawat isa ay sinanay gamit ang sample ng orihinal na data, at ang resulta ay ang average ng lahat ng iba't ibang modelong ito.
Pagpapalakas:
Ang Boosting ay ang pamamaraan ng paggawa ng mga hula gamit ang isang n-weak classifier system kung saan ang bawat mahinang classifier ay bumubuo sa mga kakulangan ng mas malalakas na classifier nito. Tinutukoy namin ang isang classifier na hindi maganda ang performance sa isang partikular na set ng data bilang isang "mahina na classifier."
Ang pagpapalakas ay malinaw na isang proseso sa halip na isang algorithm. Ang logistic regression at mababaw na mga puno ng desisyon ay karaniwang mga halimbawa ng mahinang mga classifier.
Ang Adaboost, Gradient Boosting, at XGBoost ay ang dalawang pinakasikat na boosting algorithm, gayunpaman, marami pa.
41. Ipaliwanag ang pagkakaiba sa pagitan ng inductive at deductive learning.
Kapag natututo sa pamamagitan ng halimbawa mula sa isang hanay ng mga naobserbahang halimbawa, ang isang modelo ay gumagamit ng induktibong pag-aaral upang makarating sa isang pangkalahatang konklusyon. Sa kabilang banda, sa deductive learning, ginagamit ng modelo ang resulta bago bumuo ng sarili nito.
Ang induktibong pag-aaral ay ang proseso ng pagguhit ng mga konklusyon mula sa mga obserbasyon.
Ang deductive learning ay ang proseso ng paglikha ng mga obserbasyon batay sa mga hinuha.
Konklusyon
Congrats! Ito ang nangungunang 40 at mas mataas na mga tanong sa panayam para sa machine learning na alam mo na ngayon ang mga sagot. Agham ng datos at artificial intelligence ang mga trabaho ay patuloy na hihingin habang umuunlad ang teknolohiya.
Ang mga kandidato na nag-a-update ng kanilang kaalaman sa mga makabagong teknolohiyang ito at nagpapahusay sa kanilang hanay ng kasanayan ay makakahanap ng malawak na iba't ibang mga posibilidad ng trabaho na may mapagkumpitensyang suweldo.
Maaari kang magpatuloy sa pagsagot sa mga panayam ngayong mayroon kang matibay na pag-unawa kung paano tumugon sa ilan sa mga malawakang itinatanong na mga tanong sa pakikipanayam sa machine learning.
Depende sa iyong mga layunin, gawin ang sumusunod na hakbang. Maghanda para sa mga panayam sa pamamagitan ng pagbisita sa Hashdork's Serye ng Panayam.
Mag-iwan ng Sagot