Top 40+ Mesin Diajar Patarosan Wawancara (2024)

Daptar eusi[Sumputkeun][Témbongkeun]

1. Terangkeun bédana antara learning machine, kecerdasan jieunan, jeung deep learning.
2. Mangga ngajelaskeun tipena béda mesin learning.
3. Naon bias versus varians trade-off?
4. Algoritma mesin learning geus mekar sacara signifikan kana waktu. Kumaha carana milih algoritma anu pas pikeun ngagunakeun set data?
5. Kumaha bédana kovarians jeung korelasi?
6. Dina machine learning, naon hartina clustering?
7. Naon algoritma mesin learning Anjeun pikaresep?
8. Regression linier dina Mesin Learning: Naon Ieu?
9. Ngajéntrékeun bédana KNN jeung k-means clustering.
10. Naon hartina "bias pilihan" pikeun anjeun?
11. Naon sabenerna Teorema Bayes?
12. Dina Modél Pembelajaran Mesin, naon anu dimaksud 'Set latihan' jeung 'Set tés'?
13. Naon ari Hipotesis dina Pembelajaran Mesin?
14. Naon hartina overfitting machine learning, jeung kumaha carana dicegahna?
15. Naon kahayang Naive Bayes classifiers?
16. Naon hartosna Fungsi Biaya sareng Fungsi Karugian?
17. Naon anu ngabédakeun modél generatif jeung modél diskriminatif?
18. Jelaskeun variasi antara kasalahan Tipe I jeung Tipe II.
19. Dina pembelajaran mesin, naon téhnik diajar Ensemble?
20. Naon sabenerna modél paramétrik téh? Pasihan conto.
21. Ngajéntrékeun nyaring kolaborasi. Kitu ogé nyaring dumasar eusi?
22. Naon kahayang anjeun hartosna ku runtuyan Time?
23. Jelaskeun variasi antara algoritma Gradién Boosting sareng Random Forest.
24. Naha anjeun peryogi matriks kabingungan? Anu mana?
25. Naon sabenerna analisis komponén prinsip?
26. Naha rotasi komponén penting pisan pikeun PCA (analisis komponén poko)?
27. Kumaha regularisasi sareng normalisasi beda-beda ti hiji sareng anu sanés?
28. Kumaha normalisasi jeung standarisasi béda ti nu séjén?
29. Naon kahayang "faktor inflasi varian" hartosna?
30. Dumasar kana ukuran set latihan, kumaha anjeun milih classifier a?
31. Algoritma naon dina pembelajaran mesin anu disebut "pelajar anu puguh" sareng kunaon?
32. Naon Kurva ROC jeung AUC?
33. Naon hyperparameters? Naon ngajadikeun aranjeunna unik tina parameter model?
34. Naon hartina F1 Score, recall, jeung precision?
35. Naon kahayang téh cross-validasi?
36. Anggap anjeun manggihan yén modél anjeun boga varians signifikan. Algoritma naon, dina pamanggih anjeun, anu paling cocog pikeun nanganan kaayaan ieu?
37. Naon anu ngabédakeun régrési Ridge sareng régrési Lasso?
38. Mana nu leuwih penting: kinerja model atawa akurasi model? Anu mana sareng naha anjeun bakal milih éta?
39. Kumaha anjeun bakal ngatur dataset kalawan inequalities?
40. Kumaha anjeun bisa ngabedakeun antara boosting jeung bagging?
41. Tétélakeun bédana pangajaran induktif jeung déduktif.
kacindekan

Usaha ngagunakeun téknologi canggih, sapertos intelijen buatan (AI) sareng pembelajaran mesin, pikeun ningkatkeun aksés inpormasi sareng jasa ka individu.

Téknologi ieu diadopsi ku rupa-rupa industri, kalebet perbankan, kauangan, ritel, manufaktur, sareng kasehatan.

Salah sahiji peran organisasi anu paling ditéang ngagunakeun AI nyaéta pikeun élmuwan data, insinyur intelijen buatan, insinyur mesin diajar, sareng analis data.

pos ieu bakal ngakibatkeun anjeun ngaliwatan rupa-rupa learning mesin patarosan wawancara, ti dasar nepi ka kompléks, pikeun mantuan Anjeun nyiapkeun sagala patarosan anjeun bisa ditanya nalika néangan pakasaban idéal Anjeun.

1. Terangkeun bédana antara learning machine, kecerdasan jieunan, jeung deep learning.

Kecerdasan buatan ngagunakeun rupa-rupa pembelajaran mesin sareng pendekatan diajar jero anu ngamungkinkeun sistem komputer ngalaksanakeun tugas ngagunakeun kecerdasan sapertos manusa kalayan logika sareng aturan.

Pembelajaran mesin ngagunakeun rupa-rupa statistik sareng pendekatan Deep Learning pikeun ngaktifkeun mesin diajar tina kinerja sateuacana sareng janten langkung mahir dina ngalakukeun tugas-tugas nyalira tanpa pangawasan manusa.

Deep Learning mangrupikeun kumpulan algoritma anu ngamungkinkeun para perangkat lunak diajar tina dirina sareng ngalaksanakeun rupa-rupa pungsi komérsial, sapertos pangakuan sora sareng gambar.

Systems nu ngalaan multilayered maranéhna jaringan neural nepi ka jumlah badag data pikeun diajar bisa ngalakukeun learning jero.

2. Mangga ngajelaskeun tipena béda mesin learning.

Pembelajaran mesin aya dina tilu jinis sacara lega:

Pangajaran Diawasan: Modél nyiptakeun prediksi atanapi penilaian nganggo data anu dilabélan atanapi sajarah dina diajar mesin anu diawaskeun. Set data anu geus ditandaan atawa dilabélan pikeun ngaronjatkeun harti maranéhanana disebut salaku data dilabélan.
Unsupervised Learning: Kami henteu gaduh data anu dilabélan pikeun diajar anu teu diawasi. Dina data asup, modél bisa manggihan pola, oddities, sarta korelasi.
Pangajaran Penguatan: Modél bisa diajar ngagunakeun reinforcement diajar jeung ganjaran eta meunang pikeun kabiasaan na saméméhna.

3. Naon bias versus varians trade-off?

Overfitting mangrupikeun hasil tina bias, anu mangrupikeun darajat modél anu cocog sareng data. Bias disababkeun ku asumsi anu salah atanapi saderhana teuing dina anjeun algoritma mesin learning.

Varians nujul kana kasalahan disababkeun ku pajeulitna dina algoritma ML anjeun, nu ngahasilkeun sensitipitas kana darajat badag tina varian dina data latihan jeung overfitting.

Varians nyaéta sabaraha model variasina gumantung kana input.

Dina basa sejen, model dasar pisan bias tapi stabil (variance low). Overfitting mangrupikeun masalah sareng modél anu kompleks, sanaos aranjeunna tiasa nyandak kanyataan modél (bias rendah).

Pikeun ngahindarkeun variasi anu luhur sareng bias anu luhur, trade-off antara bias sareng varians dipikabutuh pikeun pangurangan kasalahan anu pangsaéna.

4. Algoritma mesin learning geus mekar sacara signifikan kana waktu. Kumaha carana milih algoritma anu pas pikeun ngagunakeun set data?

Téhnik pembelajaran mesin anu kedah dianggo ngan ukur gumantung kana jinis data dina set data khusus.

Lamun data linier, régrési liniér dipaké. Métode bagging bakal langkung saé upami data nunjukkeun non-linier. Urang tiasa ngagunakeun tangkal kaputusan atanapi SVM upami data kedah dievaluasi atanapi diinterpretasi pikeun tujuan komérsial.

Jaringan saraf tiasa mangpaat pikeun kéngingkeun jawaban anu akurat upami set data kalebet poto, video, sareng audio.

Pilihan algoritma pikeun kaayaan husus atawa kumpulan data teu bisa dijieun ngan dina ukuran tunggal.

Pikeun tujuan ngembangkeun metode anu paling pas, urang kedah nguji heula data nganggo analisis data éksplorasi (EDA) sareng ngartos tujuan ngamangpaatkeun set data.

5. Kumaha bédana kovarians jeung korelasi?

Kovarian ngaevaluasi kumaha dua variabel disambungkeun ka unggal lianna sarta kumaha hiji bisa robah dina respon kana parobahan dina lianna.

Upami hasilna positip, éta nunjukkeun yén aya hubungan langsung antara variabel sareng yén hiji bakal naek atanapi turun kalayan paningkatan atanapi panurunan dina variabel dasar, nganggap yén sadaya kaayaan sanés tetep konstan.

Korélasi ngukur tumbu antara dua variabel acak sarta ngan mibanda tilu nilai béda: 1, 0, jeung -1.

6. Dina machine learning, naon hartina clustering?

Métode pangajaran anu henteu diawaskeun anu ngahijikeun titik-titik data disebut clustering. Kalawan ngumpulkeun titik data, téhnik clustering bisa dilarapkeun.

Anjeun tiasa ngagolongkeun sadaya titik data dumasar kana fungsina nganggo strategi ieu.

Fitur sareng kualitas titik data anu digolongkeun kana kategori anu sami sami, sedengkeun titik data anu digolongkeun kana grup anu béda-béda.

Pendekatan ieu tiasa dianggo pikeun nganalisis data statistik.

7. Naon algoritma mesin learning Anjeun pikaresep?

Anjeun gaduh kasempetan pikeun nunjukkeun karesep anjeun sareng bakat unik dina patarosan ieu, ogé pangaweruh komprehensif anjeun ngeunaan sababaraha téknik pembelajaran mesin.

Ieu sababaraha algoritma pembelajaran mesin anu biasa pikeun dipikirkeun:

Régrési linier
Regresi logistik
Bayes naif
Tangkal kaputusan
K hartosna
Algoritma leuweung acak
K-tatangga pangdeukeutna (KNN)

8. Regression linier dina Mesin Learning: Naon Ieu?

Algoritma pembelajaran mesin anu diawaskeun nyaéta régrési linier.

Hal ieu dianggo dina analisis prediktif pikeun nangtukeun sambungan linier antara variabel gumantung jeung bebas.

Persamaan régrési linier nyaéta kieu:

Y = A + BX

dimana:

Input atawa variabel bébas disebut X.
Variabel gumantung atawa kaluaran nyaéta Y.
Koéfisién X nyaéta b, sareng intercept na nyaéta a.

9. Ngajéntrékeun bédana KNN jeung k-means clustering.

Bédana primér nyaéta KNN (metode klasifikasi, diajar diawasan) peryogi titik-titik anu dilabélan sedengkeun k-means henteu (algoritma clustering, pembelajaran tanpa pengawasan).

Anjeun tiasa ngagolongkeun data anu dilabélan kana titik anu teu dilabélan ku ngagunakeun K-Nearest Neighbors. K-means clustering ngagunakeun jarak rata-rata antara titik pikeun neuleuman kumaha carana grup titik unlabeled.

10. Naon hartina "bias pilihan" pikeun anjeun?

Bias dina fase sampling ékspérimén disababkeun ku henteu akurat statistik.

Hiji grup sampel dipilih leuwih remen ti grup lianna dina percobaan salaku hasil tina inaccuracy nu.

Upami bias pamilihan henteu diakuan, éta tiasa nyababkeun kacindekan anu salah.

11. Naon sabenerna Teorema Bayes?

Lamun urang sadar probabiliti sejen, urang bisa nangtukeun probabiliti ngagunakeun Teorema Bayes. Ieu nawiskeun kamungkinan posterior hiji kajadian dumasar kana informasi saméméhna, dina basa sejen.

Metodeu sora pikeun estimasi probabiliti kondisional disadiakeun ku teorema ieu.

Nalika ngamekarkeun klasifikasi masalah modeling prediktif jeung pas model mun latihan dataset dina pembelajaran mesin, Téoréma Bayes diterapkeun (ie Naive Bayes, Bayes Optimal Classifier).

12. Dina Modél Pembelajaran Mesin, naon anu dimaksud 'Set latihan' jeung 'Set tés'?

Set latihan:

Set latihan diwangun ku instansi anu dikirim ka model pikeun analisis jeung diajar.
Ieu mangrupikeun data anu dilabélan anu bakal dianggo pikeun ngalatih modél.
Biasana, 70% tina total data dianggo salaku set data latihan.

Set tés:

Set tés digunakeun pikeun meunteun akurasi generasi hipotésis modél.
Kami nguji tanpa data anu dilabélan teras nganggo labél pikeun mastikeun hasil.
Sésana 30% dianggo salaku set data tés.

13. Naon ari Hipotesis dina Pembelajaran Mesin?

Machine Learning ngamungkinkeun pamakean set data anu tos aya pikeun langkung ngartos fungsi anu dipasihkeun anu ngaitkeun input ka kaluaran. Ieu katelah pendekatan fungsi.

Dina hal ieu, perkiraan kedah dianggo pikeun fungsi target anu teu dipikanyaho pikeun mindahkeun sadaya observasi anu tiasa dibayangkeun dumasar kana kaayaan anu dipasihkeun ku cara anu pangsaéna.

Dina pembelajaran mesin, hipotésis mangrupikeun modél anu ngabantosan dina estimasi fungsi target sareng ngalengkepan pemetaan input-to-output anu pas.

Pamilihan sareng desain algoritma ngamungkinkeun pikeun ngartikeun rohangan tina kamungkinan hipotesis anu tiasa diwakilan ku modél.

Pikeun hipotésis tunggal, hurup leutik h (h) dipaké, tapi kapital h (H) dipaké pikeun sakabéh spasi hipotésis anu keur ditéang. Urang bakal marios sakeudeung notasi ieu:

Hipotesis (h) mangrupikeun modél khusus anu ngagampangkeun pemetaan input kana kaluaran, anu salajengna tiasa dianggo pikeun évaluasi sareng prediksi.
Hipotesis himpunan (H) mangrupakeun spasi searchable tina hipotesis nu bisa dipaké pikeun peta inputs kana outputs. Masalah framing, modél, sareng konfigurasi modél mangrupikeun sababaraha conto watesan umum.

14. Naon hartina overfitting machine learning, jeung kumaha carana dicegahna?

Nalika mesin nyobian diajar tina set data anu teu cekap, overfitting lumangsung.

Hasilna, overfitting dikorelasikeun tibalik sareng volume data. Pendekatan cross-validasi ngamungkinkeun overfitting dihindari pikeun datasets leutik. Dataset dibagi jadi dua bagian dina metode ieu.

Dataset pikeun nguji sareng latihan bakal diwangun ku dua bagian ieu. Setét latihan digunakeun pikeun nyieun modél, sedengkeun setét tés digunakeun pikeun meunteun modél ngagunakeun input anu béda.

Ieu kumaha carana nyegah overfitting.

15. Naon kahayang Naive Bayes classifiers?

Rupa-rupa métode klasifikasi nyieun klasifikasi Naive Bayes. Sakumpulan algoritma anu katelah klasifikasi ieu sadayana dianggo dina ide dasar anu sami.

Asumsi anu dilakukeun ku klasifikasi Bayes naif nyaéta ayana atanapi henteuna hiji fitur henteu aya hubunganana sareng aya atanapi henteuna fitur anu sanés.

Kalayan kecap séjén, ieu téh naon urang tingal salaku "naif" saprak eta ngajadikeun asumsi yén unggal atribut dataset nyaeta sarua signifikan jeung bebas.

Klasifikasi dilakukeun ngagunakeun klasifikasi Bayes naif. Éta basajan ngagunakeun sarta ngahasilkeun hasil hadé ti predictors leuwih kompleks lamun premis kamerdikaan bener.

Dina analisis téks, nyaring spam, sarta sistem rekomendasi, aranjeunna padamelan.

16. Naon hartosna Fungsi Biaya sareng Fungsi Karugian?

Frase "fungsi leungitna" nujul kana prosés komputasi leungitna lamun ngan hiji sapotong data dicokot kana rekening.

Sabalikna, urang ngagunakeun fungsi biaya pikeun nangtukeun jumlah total kasalahan pikeun sababaraha data. Henteu aya bédana anu signifikan.

Dina basa sejen, sedengkeun fungsi biaya agrégat bédana pikeun sakabéh set data latihan, fungsi leungitna dirancang pikeun néwak bédana antara nilai sabenerna jeung diprediksi pikeun rékaman tunggal.

17. Naon anu ngabédakeun modél generatif jeung modél diskriminatif?

Modél diskriminatif diajar béda antara sababaraha kategori data. Hiji model generative nyokot on tipe data béda.

Dina masalah klasifikasi, model diskriminatif mindeng outperform model séjén.

18. Jelaskeun variasi antara kasalahan Tipe I jeung Tipe II.

Positip palsu digolongkeun dina kategori kasalahan Tipe I, sedengkeun négatif palsu dina kaayaan kasalahan Tipe II (ngaku teu aya anu kajantenan nalika éta leres).

19. Dina pembelajaran mesin, naon téhnik diajar Ensemble?

Téhnik anu disebut pembelajaran ensemble ngagabungkeun seueur modél pembelajaran mesin pikeun ngahasilkeun modél anu langkung kuat.

Hiji model bisa variatif pikeun rupa-rupa alesan. Sababaraha sabab nyaéta:

Rupa-rupa Populasi
Rupa-rupa Hipotesis
Rupa-rupa métode modeling

Urang bakal ngalaman masalah nalika ngagunakeun modél latihan sareng data tés. Bias, varian, sareng kasalahan anu teu tiasa diréduksi mangrupikeun jinis kasalahan ieu.

Ayeuna, urang nyebat kasaimbangan ieu antara bias sareng varian dina modél ieu salaku trade-off bias-variance, sareng éta kedah salawasna aya. trade-off ieu dilakonan ngaliwatan pamakéan learning ensemble.

Sanajan aya rupa-rupa pendekatan ensemble sadia, aya dua strategi umum pikeun ngagabungkeun loba model:

Pendekatan asli anu disebut bagging ngagunakeun set latihan pikeun ngahasilkeun set latihan tambahan.
Boosting, téhnik nu leuwih canggih: Sarupa jeung bagging, boosting dipaké pikeun manggihan rumus weighting idéal pikeun set latihan.

20. Naon sabenerna modél paramétrik téh? Pasihan conto.

Aya jumlah kawates parameter dina model paramétrik. Pikeun ngaramalkeun data, sadaya anu anjeun kedah terang nyaéta parameter modél.

Di handap ieu mangrupakeun conto has: régrési logistik, régrési liniér, sareng SVM linier. Modél non-paramétrik fléksibel sabab tiasa ngandung sajumlah parameter anu henteu terbatas.

Parameter modél sareng status data anu dititénan diperyogikeun pikeun prediksi data. Ieu sababaraha conto umum: modél topik, tangkal kaputusan, jeung tatangga k-pangcaketna.

21. Ngajéntrékeun nyaring kolaborasi. Kitu ogé nyaring dumasar eusi?

Métode anu dicoba-leres pikeun nyiptakeun saran eusi anu cocog nyaéta panyaring kolaboratif.

Bentuk sistem rekomendasi anu disebut panyaring kolaborasi ngaramalkeun bahan seger ku cara nyaimbangkeun karesep pangguna sareng kapentingan anu sami.

Preferensi pangguna mangrupikeun hiji-hijina hal anu dipertimbangkeun ku sistem pangrekomendasi dumasar-konten. Dumasar kana pilihan sateuacana pangguna, saran anyar disayogikeun tina bahan anu aya hubunganana.

22. Naon kahayang anjeun hartosna ku runtuyan Time?

Runtuyan waktu nyaéta kumpulan angka dina urutan naek. Dina jangka waktu anu tos ditangtukeun, éta ngawas gerakan titik data anu dipilih sareng sacara périodik ngarebut titik data.

Henteu aya input waktos minimum atanapi maksimum pikeun séri waktos.

Runtuyan waktos sering dianggo ku analis pikeun nganalisis data luyu sareng sarat unikna.

23. Jelaskeun variasi antara algoritma Gradién Boosting sareng Random Forest.

Leuweung Acak:

A angka nu gede ngarupakeun tangkal kaputusan pooled babarengan dina tungtungna sarta dipikawanoh salaku leuweung acak.
Bari gradient boosting ngahasilkeun unggal tangkal mandiri ti batur, leuweung acak ngawangun unggal tangkal hiji dina hiji waktu.
Multiclass deteksi obyék jalan ogé kalawan leuweung acak.

Ngaronjatkeun gradién:

Bari leuweung acak gabung tangkal kaputusan di ahir prosés, Gradién Boosting Mesin ngagabungkeun aranjeunna ti mimiti.
Lamun parameter disaluyukeun appropriately, gradient boosting outperforms leuweung acak dina hal hasil, tapi lain pilihan pinter lamun set data ngabogaan loba outliers, anomali, atawa noise sabab bisa ngabalukarkeun model jadi overfit.
Lamun aya data henteu saimbang, sakumaha aya dina assessment résiko real-time, gradient boosting nedunan ogé.

24. Naha anjeun peryogi matriks kabingungan? Anu mana?

Tabél anu katelah matriks kabingungan, sok katelah matriks kasalahan, seueur dianggo pikeun nunjukkeun kumaha modél klasifikasi, atanapi klasifikasi, ngalaksanakeun sakumpulan data tés anu nilai nyatana dipikanyaho.

Éta ngamungkinkeun urang ningali kumaha modél atanapi algoritma ngalaksanakeun. Éta ngagampangkeun pikeun urang mendakan salah paham diantara sababaraha kursus.

Ieu fungsi minangka cara pikeun evaluate kumaha ogé model atawa algoritma anu dipigawé.

Prediksi modél klasifikasi disusun jadi matriks kabingungan. Nilai count unggal labél kelas dipaké pikeun ngarecah jumlah total prediksi bener jeung salah.

Eta nyadiakeun rinci ngeunaan faults dijieun ku classifier ogé rupa-rupa kasalahan disababkeun ku classifiers.

25. Naon sabenerna analisis komponén prinsip?

Ku ngaminimalkeun jumlah variabel anu aya hubunganana, tujuanana nyaéta pikeun ngaminimalkeun diménsi tina ngumpulkeun data. Tapi hal anu penting pikeun ngajaga diversity saloba mungkin.

Variabel-variabelna dirobah jadi sakumpulan variabel anu sapinuhna anyar disebut komponén poko.

PC ieu ortogonal sabab mangrupakeun eigenvektor matriks kovarian.

26. Naha rotasi komponén penting pisan pikeun PCA (analisis komponén poko)?

Rotasi penting pisan dina PCA sabab ngaoptimalkeun pamisahan antara varian anu diala ku unggal komponén, ngajantenkeun interpretasi komponén langkung saderhana.

Kami ngabutuhkeun komponén anu diperpanjang pikeun nganyatakeun variasi komponén upami komponénna henteu diputar.

27. Kumaha regularisasi sareng normalisasi beda-beda ti hiji sareng anu sanés?

Normalisasi:

Data dirobah nalika normalisasi. Anjeun kedah nganormalkeun data upami gaduh skala anu béda drastis, khususna ti handap ka luhur. Saluyukeun unggal kolom supados statistik dasar sadayana cocog.

Pikeun mastikeun yén teu aya leungitna precision, ieu tiasa mangpaat. Ngadeteksi sinyal bari teu malire noise mangrupa salah sahiji tujuan latihan model.

Aya kasempetan overfitting lamun model dibéré kontrol lengkep pikeun ngurangan kasalahan.

Regularisasi:

Dina regularization, fungsi prediksi dirobah. Ieu tunduk kana sababaraha kontrol ngaliwatan regularization, nu ni'mat fungsi pas basajan leuwih pajeulit.

28. Kumaha normalisasi jeung standarisasi béda ti nu séjén?

Dua téknik anu paling seueur dianggo pikeun skala fitur nyaéta normalisasi sareng standarisasi.

Normalisasi:

Rescaling data pikeun nyocogkeun ka rentang [0,1] katelah normalisasi.
Lamun sakabeh parameter kudu boga skala positif sarua, normalisasi mantuan, tapi outlier set data urang leungit.

Regularisasi:

Data diskalakeun deui janten rata-rata 0 sareng simpangan baku 1 salaku bagian tina prosés standarisasi (Unit varians)

29. Naon kahayang "faktor inflasi varian" hartosna?

Babandingan varian model jeung varian model nu ngan hiji variabel bebas katelah Variation Inflation Factor (VIF).

VIF ngira-ngira jumlah multikolinieritas anu aya dina sakumpulan sababaraha variabel régrési.

Varians sahiji modél (VIF) Modél jeung Hiji Variabel Independen Varians

30. Dumasar kana ukuran set latihan, kumaha anjeun milih classifier a?

A bias tinggi, model varian low ngalakukeun hadé pikeun set latihan pondok saprak overfitting kurang kamungkinan. Naive Bayes mangrupikeun conto.

Dina raraga ngagambarkeun interaksi leuwih pajeulit pikeun set latihan badag, model mibanda bias low jeung varian tinggi leuwih hade. Regresi logistik mangrupikeun conto anu saé.

31. Algoritma naon dina pembelajaran mesin anu disebut "pelajar anu puguh" sareng kunaon?

A learner sluggish, KNN mangrupakeun algoritma mesin learning. Kusabab K-NN sacara dinamis ngitung jarak unggal waktos hoyong ngagolongkeun tinimbang diajar nilai atanapi variabel anu diajar mesin tina data latihan, éta ngapalkeun set data latihan.

Hal ieu ngajadikeun K-NN murid anu puguh.

32. Naon Kurva ROC jeung AUC?

Kinerja modél klasifikasi dina sadaya ambang diwakilan sacara grafis ku kurva ROC. Éta ngagaduhan tingkat positip anu leres sareng kriteria tingkat positip palsu.

Kantun nempatkeun, wewengkon handapeun kurva ROC katelah AUC (Area handapeun kurva ROC). Legana dua diménsi kurva ROC ti (0,0) nepi ka AUC diukur (1,1). Pikeun meunteun modél klasifikasi binér, éta dianggo salaku statistik kinerja.

33. Naon hyperparameters? Naon ngajadikeun aranjeunna unik tina parameter model?

Variabel internal model katelah parameter model. Ngamangpaatkeun data latihan, nilai parameter diperkirakeun.

Teu dipikanyaho modél, hyperparameter mangrupikeun variabel. Nilaina teu tiasa ditangtukeun tina data, ku kituna aranjeunna sering dianggo pikeun ngitung parameter modél.

34. Naon hartina F1 Score, recall, jeung precision?

Ukur kabingungan nyaéta métrik anu dianggo pikeun ngukur éféktivitas modél klasifikasi. Frasa di handap ieu tiasa dianggo pikeun ngajelaskeun métrik kabingungan anu langkung saé:

TP: Leres Positif - Ieu mangrupikeun nilai-nilai positip anu diantisipasi leres. Ieu nunjukkeun yén nilai kelas projected jeung kelas sabenerna duanana positif.

TN: True Negatives- Ieu mangrupikeun nilai-nilai ngarugikeun anu diramalkeun sacara akurat. Ieu nunjukkeun yén duanana nilai kelas sabenerna sarta kelas diantisipasi négatip.

Nilai-nilai ieu-positip palsu sareng négatif palsu-kajadian nalika kelas anjeun saleresna béda sareng kelas anu diantisipasi.

ayeuna,

Babandingan laju positif sabenerna (TP) ka sadaya observasi dilakukeun dina kelas sabenerna disebut recall, ogé katelah sensitipitas.

Recall nyaeta TP/(TP+FN).

Precision mangrupakeun ukuran tina nilai prediksi positif, nu compares jumlah positip model bener prédiksi kana sabaraha positip bener eta akurat prédiksi.

Precision nyaéta TP/(TP + FP)

Métrik kinerja panggampangna pikeun ngarti nyaéta akurasi, anu ngan ukur proporsi observasi anu diprediksi leres ka sadaya observasi.

Akurasi sarua jeung (TP+TN)/(TP+FP+FN+TN).

Precision sareng Recall ditimbang sareng rata-rata pikeun nyayogikeun Skor F1. Hasilna, skor ieu nganggap duanana positip palsu sareng négatip palsu.

F1 sering langkung berharga tibatan akurasi, khususna upami anjeun gaduh distribusi kelas anu henteu rata, sanaos sacara intuitif henteu saderhana pikeun ngartos akurasi.

Akurasi pangsaéna dihontal nalika biaya positip palsu sareng négatip palsu dibandingkeun. Langkung saé kalebet Precision sareng Recall upami biaya anu aya hubunganana sareng positip palsu sareng négatip palsu béda sacara signifikan.

35. Naon kahayang téh cross-validasi?

Hiji pendekatan resampling statistik disebut cross-validasi dina mesin learning employs sababaraha himpunan set data pikeun ngalatih jeung evaluate algoritma mesin learning sakuliah sababaraha rounds.

Angkatan data anyar anu henteu dianggo pikeun ngalatih modél diuji nganggo validasi silang pikeun ningali kumaha modél éta ngaduga. Overfitting data dicegah ngaliwatan validasi silang.

K-Lipat Metoda resampling nu pangseringna dipake ngabagi sakabeh dataset kana susunan K nu ukuranana sarua. Ieu disebut cross-validasi.

36. Anggap anjeun manggihan yén modél anjeun boga varians signifikan. Algoritma naon, dina pamanggih anjeun, anu paling cocog pikeun nanganan kaayaan ieu?

Ngatur variability tinggi

Urang kedah nganggo téknik bagging pikeun masalah sareng variasi anu ageung.

Sampling ulang data acak bakal dipaké ku algoritma bagging pikeun ngabagi data kana subgroups. Saatos data dibagi, urang tiasa ngagunakeun data acak sareng prosedur latihan khusus pikeun ngahasilkeun aturan.

Sanggeus éta, polling bisa dipaké pikeun ngagabungkeun prediksi model urang.

37. Naon anu ngabédakeun régrési Ridge sareng régrési Lasso?

Dua métode regularization loba dipaké nyaéta Lasso (ogé disebut L1) jeung Ridge (kadangkala disebut L2) regression. Éta téh dipaké pikeun nyegah overfitting data.

Pikeun mendakan solusi anu pangsaéna sareng ngaleutikan pajeulitna, téknik ieu dianggo pikeun ngahukum koefisien. Ku ngahukum total nilai mutlak koefisien, régrési Lasso beroperasi.

Fungsi pinalti dina régrési Ridge atanapi L2 diturunkeun tina jumlah kuadrat koefisien.

38. Mana nu leuwih penting: kinerja model atawa akurasi model? Anu mana sareng naha anjeun bakal milih éta?

Ieu mangrupikeun patarosan anu nipu, ku kituna urang kedah ngartos naon Model Performance. Lamun kinerja dihartikeun salaku speed, mangka gumantung kana jenis aplikasi; aplikasi naon waé anu ngalibetkeun kaayaan sacara real-time bakal ngabutuhkeun kecepatan anu luhur salaku komponén anu penting.

Contona, Hasil Pilarian pangalusna bakal jadi kirang berharga lamun hasil Query nyandak lila teuing pikeun anjog.

Lamun Performance dipaké salaku leresan naha precision jeung ngelingan kudu prioritized luhur akurasi, mangka skor F1 bakal leuwih mangpaat ti akurasi dina demonstrating kasus bisnis pikeun sagala set data nu teu saimbang.

39. Kumaha anjeun bakal ngatur dataset kalawan inequalities?

Dataset anu henteu saimbang tiasa nyandak kauntungan tina téknik sampling. Sampling tiasa dilakukeun boh dina kaayaan atanapi oversampled.

Dina Sampling ngamungkinkeun urang pikeun ngaleutikan ukuran kelas mayoritas pikeun cocog jeung kelas minoritas, nu mantuan dina ngaronjatkeun kagancangan dina hal neundeun jeung ngajalankeun-waktu palaksanaan tapi ogé bisa ngakibatkeun leungitna data berharga.

Dina raraga ngalereskeun masalah leungitna informasi disababkeun ku oversampling, urang upsample kelas Minoritas; Tapi, ieu ngabalukarkeun urang ngajalankeun kana isu overfitting.

strategi tambahan ngawengku:

Cluster-Based Over Sampling- The minoritas jeung mayoritas instansi kelas anu individual subjected kana téhnik K-means clustering dina situasi ieu. Hal ieu dilakukeun pikeun manggihan klaster dataset. Lajeng, unggal klaster ieu oversampled ambéh sakabéh kelas boga ukuran sarua jeung sakabeh klaster dina hiji kelas boga jumlah sarua instansi.
SMOTE: Téhnik Over-sampling Minoritas Sintétik- Hiji nyiksikan data ti kelas minoritas dipaké salaku conto, nu satutasna instansi jieunan tambahan anu comparable eta dihasilkeun sarta ditambahkeun kana dataset aslina. Metoda ieu jalan ogé kalawan titik data numerik.

40. Kumaha anjeun bisa ngabedakeun antara boosting jeung bagging?

Téhnik Ensemble gaduh versi anu katelah bagging sareng boosting.

Kantong-

Pikeun algoritma kalayan variasi anu luhur, bagging mangrupikeun téknik anu dianggo pikeun nurunkeun varian. Salah sahiji kulawarga klasifikasi anu rawan bias nyaéta kulawarga tangkal kaputusan.

Jinis data anu tangkal kaputusan dilatih dina boga dampak signifikan dina kinerja maranéhanana. Kusabab ieu, sanajan kalawan fine-tuning pisan tinggi, generalisasi hasil kadang jauh leuwih hese pikeun ménta di aranjeunna.

Lamun data latihan tangkal kaputusan 'dirobah, hasilna béda substansi.

Salaku konsekuensi a, bagging dipaké, dimana loba tangkal kaputusan dijieun, nu masing-masing dilatih ngagunakeun sampel data aslina, sarta hasil ahir rata-rata sadaya model béda ieu.

Ngaronjatkeun:

Boosting nyaéta téknik nyieun prediksi ku sistem klasifikasi n-lemah dimana unggal klasifikasi lemah nyéépkeun kakurangan tina klasifikasi anu langkung kuat. Kami ngarujuk kana klasifikasi anu ngalaksanakeun parah dina set data anu dipasihkeun salaku "pengklasifikasi lemah."

Boosting écés prosés tinimbang hiji algoritma. Regresi logistik sareng tangkal kaputusan deet mangrupikeun conto umum tina klasifikasi lemah.

Adaboost, Gradient Boosting, sareng XGBoost mangrupikeun dua algoritma boosting anu pang populerna, tapi aya seueur deui.

41. Tétélakeun bédana pangajaran induktif jeung déduktif.

Nalika diajar ku conto tina sakumpulan conto anu dititénan, modél ngagunakeun pangajaran induktif pikeun ngahontal kacindekan umum. Di sisi séjén, kalawan pangajaran deduktif, modél ngagunakeun hasil saméméh ngawangun sorangan.

Pangajaran induktif nya éta prosés nyieun kacindekan tina observasi.

Pangajaran deduktif nya éta prosés nyieun observasi dumasar kana inferensi.

kacindekan

Congrats! Ieu mangrupikeun patarosan wawancara 40 sareng di luhur pikeun diajar mesin anu ayeuna anjeun terang jawabanana. Élmu data jeung kacerdasan buatan occupations bakal terus jadi di paménta salaku kamajuan téhnologi.

Calon anu ngamutahirkeun pangaweruh ngeunaan téknologi canggih ieu sareng ningkatkeun set kaahlianna tiasa mendakan rupa-rupa kasempetan padamelan kalayan gaji kalapa.

Anjeun tiasa neraskeun ngawalon ngawawancara ayeuna yén anjeun gaduh pamahaman anu kuat ngeunaan cara ngawalon sababaraha patarosan wawancara diajar mesin.

Gumantung kana tujuan anjeun, laksanakeun léngkah ieu. Nyiapkeun wawancara ku nganjang ka Hashdork Runtuyan Wawancara.

Top 40+ Machine Learning Wawancara Patarosan