Top 40+ Pitakonan Wawancara Machine Learning (2024)

Bab lan Paragraf[Singidaken][Tampilake]

1. Nerangake beda antarane machine learning, artificial intelligence, lan deep learning.
2. Mangga njlèntrèhaké macem-macem jinis machine learning.
3. Apa bias versus varians trade-off?
4. Algoritma machine learning wis ngalami évolusi sacara signifikan liwat wektu. Kepiye carane milih algoritma sing tepat kanggo nggunakake set data?
5. Kepiye bedane kovarian lan korélasi?
6. Ing machine learning, apa tegese clustering?
7. Apa algoritma machine learning sing disenengi?
8. Regresi Linear ing Machine Learning: Apa Iku?
9. Njlentrehake bedane KNN lan k-means clustering.
10. Apa tegese "bias pilihan" kanggo sampeyan?
11. Apa sejatine Teorema Bayes?
12. Ing Model Machine Learning, apa 'training Set' lan 'test Set'?
13. Apa Hipotesis ing Machine Learning?
14. Apa tegese overfitting machine learning, lan kepiye carane bisa dicegah?
15. Apa sejatine klasifikasi Naive Bayes?
16. Apa tegese Fungsi Biaya lan Fungsi Rugi?
17. Apa sing mbedakake model generatif karo model diskriminatif?
18. Nerangake variasi antarane kesalahan Tipe I lan Tipe II.
19. Ing machine learning, apa teknik learning Ensemble?
20. Apa sejatine model parametrik? Menehi conto.
21. Nggambarake panyaring kolaborasi. Uga nyaring adhedhasar isi?
22. Apa persis sing sampeyan maksud karo seri Wektu?
23. Nerangake variasi antarane algoritma Gradient Boosting lan Random Forest.
24. Apa sampeyan kudu matriks bingung? Opo kuwi?
25. Apa sejatine analisis komponen prinsip?
26. Kenapa rotasi komponen penting banget kanggo PCA (analisis komponen utama)?
27. Kepiye regularisasi lan normalisasi beda-beda saka siji liyane?
28. Kepiye normalisasi lan standarisasi beda saka siji liyane?
29. Apa tegese "faktor inflasi varian"?
30. Adhedhasar ukuran set latihan, kepiye sampeyan milih klasifikasi?
31. Algoritma apa ing machine learning diarani minangka "lazy learner" lan ngapa?
32. Apa Kurva ROC lan AUC?
33. Apa hiperparameter? Apa sing ndadekake dheweke unik saka paramèter model?
34. Apa tegese F1 Score, recall, lan precision?
35. Apa sejatine validasi silang?
36. Coba sampeyan nemokake manawa model sampeyan duwe variasi sing signifikan. Algoritma apa, miturut pendapat sampeyan, sing paling cocog kanggo nangani kahanan iki?
37. Apa sing mbedakake regresi Ridge karo regresi Lasso?
38. Endi sing luwih penting: kinerja model utawa akurasi model? Kang siji lan ngapa sampeyan bakal milih?
39. Kepiye carane sampeyan ngatur dataset kanthi ketimpangan?
40. Kepiye carane sampeyan bisa mbedakake antarane boosting lan bagging?
41. Terangna bedane pamulangan induktif lan deduktif.
kesimpulan

Bisnis nggunakake teknologi mutakhir, kayata intelijen buatan (AI) lan pembelajaran mesin, kanggo nambah aksesibilitas informasi lan layanan kanggo individu.

Teknologi kasebut diadopsi dening macem-macem industri, kalebu perbankan, keuangan, ritel, manufaktur, lan kesehatan.

Salah sawijining peran organisasi sing paling digoleki nggunakake AI yaiku kanggo ilmuwan data, insinyur intelijen buatan, insinyur pembelajaran mesin, lan analis data.

Iki kirim bakal nuntun sampeyan liwat macem-macem learning machine pitakonan wawancara, saka dhasar nganti komplek, kanggo mbantu sampeyan siyap kanggo pitakonan apa wae sing bisa dijaluk nalika nggoleki proyek sing cocog.

1. Nerangake beda antarane machine learning, artificial intelligence, lan deep learning.

Kecerdasan buatan nggunakake macem-macem cara sinau mesin lan sinau jero sing ngidini sistem komputer nindakake tugas nggunakake intelijen kaya manungsa kanthi logika lan aturan.

Learning machine nggunakake macem-macem statistik lan pendekatan Deep Learning kanggo ngaktifake mesin sinau saka kinerja sadurunge lan dadi luwih trampil nindakake tugas tartamtu dhewe tanpa pengawasan manungsa.

Deep Learning minangka kumpulan algoritma sing ngidini piranti lunak sinau saka awake dhewe lan nindakake macem-macem fungsi komersial, kayata pangenalan swara lan gambar.

Sistem sing mbabarake multilayered sing jaringan saraf kanggo jumlah data sing akeh kanggo sinau bisa nindakake sinau jero.

2. Mangga njlèntrèhaké macem-macem jinis machine learning.

Machine learning ana ing telung macem-macem jinis:

Pembelajaran sing Diawasi: Model nggawe prediksi utawa keputusan nggunakake data sing dilabeli utawa historis ing pembelajaran mesin sing diawasi. Kumpulan data sing wis diwenehi tandha utawa diwenehi label kanggo nambah makna kasebut diarani data label.
Unsupervised Learning: Kita ora duwe label data kanggo sinau tanpa pengawasan. Ing data sing mlebu, model bisa nemokake pola, keanehan, lan korélasi.
Reinforcement Learning: Model bisa sinau kanthi nggunakake reinforcement sinau lan ganjaran sing ditampa kanggo prilaku sadurunge.

3. Apa bias versus varians trade-off?

Overfitting minangka akibat saka bias, yaiku tingkat model sing cocog karo data. Bias disebabake asumsi sing salah utawa gampang banget ing sampeyan algoritma machine learning.

Varians nuduhake kesalahan sing disebabake kerumitan ing algoritma ML sampeyan, sing ngasilake sensitivitas kanggo variasi gedhe ing data latihan lan overfitting.

Varians yaiku jumlah model sing beda-beda gumantung saka input.

Ing tembung liya, model dhasar banget bias nanging stabil (varian kurang). Overfitting minangka masalah karo model sing rumit, sanajan model kasebut bisa nangkep kasunyatan model kasebut (bias kurang).

Kanggo nyegah variasi dhuwur lan bias dhuwur, trade-off antarane bias lan varians perlu kanggo ngurangi kesalahan sing paling apik.

4. Algoritma machine learning wis ngalami évolusi sacara signifikan liwat wektu. Kepiye carane milih algoritma sing tepat kanggo nggunakake set data?

Teknik machine learning sing kudu digunakake mung gumantung saka jinis data ing set data tartamtu.

Nalika data linear, regresi linear digunakake. Metode bagging bakal luwih apik yen data nuduhake non-linearitas. Kita bisa nggunakake wit keputusan utawa SVM yen data kudu dievaluasi utawa diinterpretasikake kanggo tujuan komersial.

Jaringan saraf bisa uga migunani kanggo entuk jawaban sing akurat yen set data kalebu foto, video, lan audio.

Pilihan saka algoritma kanggo kahanan tartamtu utawa koleksi data ora bisa digawe mung ing siji ukuran.

Kanggo tujuan ngembangake metode sing paling pas, kita kudu nliti data kanthi nggunakake analisis data eksplorasi (EDA) lan mangerteni tujuan nggunakake dataset.

5. Kepiye bedane kovarian lan korélasi?

Kovarian ngevaluasi carane loro variabel disambungake lan carane siji bisa ngganti minangka respon kanggo owah-owahan ing liyane.

Yen asil positif, nuduhake yen ana hubungan langsung antarane variabel lan sing siji bakal munggah utawa mudhun kanthi nambah utawa nyuda ing variabel basa, assuming sing kabeh kahanan liyane tetep pancet.

Korelasi ngukur pranala antarane rong variabel acak lan mung nduweni telung nilai sing beda: 1, 0, lan -1.

6. Ing machine learning, apa tegese clustering?

Metode pembelajaran tanpa pengawasan sing nglumpukake titik data diarani clustering. Kanthi nglumpukake titik data, teknik clustering bisa ditrapake.

Sampeyan bisa nglumpukake kabeh titik data miturut fungsine nggunakake strategi iki.

Fitur lan kualitas titik data sing kalebu ing kategori sing padha, dene titik data sing ana ing panglompokan sing beda-beda.

Pendekatan iki bisa digunakake kanggo nganalisis data statistik.

7. Apa algoritma machine learning sing disenengi?

Sampeyan duwe kesempatan kanggo nduduhake pilihan lan bakat unik sampeyan ing pitakonan iki, uga kawruh lengkap babagan teknik sinau mesin.

Mangkene sawetara algoritma pembelajaran mesin sing kudu dipikirake:

Kemunduran linier
Kemunduran logistik
Naif Bayes
Wit keputusane
K tegese
Algoritma alas acak
K-tetangga paling cedhak (KNN)

8. Regresi Linear ing Machine Learning: Apa Iku?

Algoritma pembelajaran mesin sing diawasi yaiku regresi linier.

Iki digunakake ing analisis prediktif kanggo nemtokake sambungan linear antarane variabel gumantung lan bebas.

Persamaan regresi linier kaya ing ngisor iki:

Y = A + BX

ngendi:

Input utawa variabel bebas diarani X.
Variabel gumantung utawa output yaiku Y.
Koefisien X yaiku b, lan intercepte yaiku a.

9. Njlentrehake bedane KNN lan k-means clustering.

Bedane utamane yaiku KNN (metode klasifikasi, sinau sing diawasi) mbutuhake titik sing dilabeli, dene k-means ora (algoritma clustering, pembelajaran tanpa pengawasan).

Sampeyan bisa nggolongake data kanthi label menyang titik tanpa label kanthi nggunakake K-Nearest Neighbors. K-means clustering nggunakake jarak rata-rata ing antarane titik kanggo sinau babagan ngelompokake titik sing ora ana label.

10. Apa tegese "bias pilihan" kanggo sampeyan?

Bias ing fase sampling eksperimen amarga ora akurat statistik.

Siji klompok sampel dipilih luwih kerep tinimbang klompok liyane ing eksperimen amarga ora akurat.

Yen bias pilihan ora diakoni, bisa nyebabake kesimpulan sing salah.

11. Apa sejatine Teorema Bayes?

Nalika kita ngerti kemungkinan liyane, kita bisa nemtokake kemungkinan nggunakake Teorema Bayes. Nawakake kemungkinan posterior kedadeyan adhedhasar informasi sadurunge, kanthi tembung liyane.

Cara swara kanggo ngira-ngira probabilitas kondisional diwenehake dening teorema iki.

Nalika ngembangaken masalah modeling prediktif klasifikasi lan pas model kanggo latihan dataset ing machine learning, Teorema Bayes ditrapake (yaiku Naive Bayes, Bayes Optimal Classifier).

12. Ing Model Machine Learning, apa 'training Set' lan 'test Set'?

Set latihan:

Set latihan kasusun saka conto sing dikirim menyang model kanggo analisis lan sinau.
Iki minangka data label sing bakal digunakake kanggo nglatih model kasebut.
Biasane, 70% saka total data digunakake minangka set data latihan.

Set Tes:

Set tes digunakake kanggo netepake akurasi generasi hipotesis model.
Kita nyoba tanpa data label lan banjur nggunakake label kanggo konfirmasi asil.
Sisa 30% digunakake minangka set data tes.

13. Apa Hipotesis ing Machine Learning?

Machine Learning mbisakake panggunaan set data sing wis ana kanggo luwih ngerti fungsi tartamtu sing nyambungake input menyang output. Iki dikenal minangka approximation fungsi.

Ing kasus iki, perkiraan kudu digunakake kanggo fungsi target sing ora dingerteni kanggo nransfer kabeh pengamatan sing bisa dibayangake adhedhasar kahanan sing diwenehake kanthi cara sing paling apik.

Ing machine learning, hipotesis minangka model sing mbantu ngira-ngira fungsi target lan ngrampungake pemetaan input-to-output sing cocog.

Pamilihan lan desain algoritma ngidini definisi spasi hipotesis sing bisa diwakili dening model.

Kanggo hipotesis siji, huruf cilik h (h) digunakake, nanging huruf gedhe h (H) digunakake kanggo kabeh spasi hipotesis sing digoleki. Kita bakal nliti kanthi ringkes notasi kasebut:

Hipotesis (h) minangka model tartamtu sing nggampangake pemetaan input menyang output, sing bisa digunakake kanggo evaluasi lan prediksi.
Hipotesis himpunan (H) minangka spasi hipotesis sing bisa digoleki sing bisa digunakake kanggo memetakan input menyang output. Pembingkaian masalah, model, lan konfigurasi model minangka sawetara conto watesan umum.

14. Apa tegese overfitting machine learning, lan kepiye carane bisa dicegah?

Nalika mesin nyoba sinau saka set data sing ora cukup, overfitting kedadeyan.

Akibaté, overfitting ana hubungane karo volume data. Pendekatan salib-validasi ngidini overfitting bisa nyingkiri kanggo dataset cilik. A dataset dipérang dadi rong bagéan ing cara iki.

Dataset kanggo tes lan latihan bakal kalebu rong bagean kasebut. Dataset latihan digunakake kanggo nggawe model, dene dataset testing digunakake kanggo ngevaluasi model nggunakake input sing beda.

Iki carane nyegah overfitting.

15. Apa sejatine klasifikasi Naive Bayes?

Macem-macem cara klasifikasi nggawe klasifikasi Naive Bayes. Sakumpulan algoritma sing dikenal minangka klasifikasi iki kabeh bisa digunakake ing gagasan dhasar sing padha.

Asumsi sing digawe dening klasifikasi Bayes naif yaiku ana utawa ora ana siji fitur ora ana hubungane karo ana utawa ora ana fitur liyane.

Ing tembung liyane, iki sing kita deleng minangka "naif" amarga nggawe asumsi yen saben atribut dataset padha penting lan bebas.

Klasifikasi ditindakake nggunakake klasifikasi Bayes naif. Padha gampang digunakake lan ngasilake asil sing luwih apik tinimbang prediktor sing luwih rumit nalika premis kamardikan bener.

Ing analisis teks, panyaring spam, lan sistem rekomendasi, dheweke digunakake.

16. Apa tegese Fungsi Biaya lan Fungsi Rugi?

Tembung "fungsi mundhut" nuduhake proses mundhut komputasi nalika mung siji Piece saka data dijupuk menyang akun.

Kosok baline, kita nggunakake fungsi biaya kanggo nemtokake jumlah total kesalahan kanggo akeh data. Ora ana bedane sing signifikan.

Ing tembung liyane, nalika fungsi biaya nglumpukake prabédan kanggo kabeh set data latihan, fungsi mundhut dirancang kanggo njupuk prabédan antarane nilai nyata lan prédhiksi kanggo rekaman siji.

17. Apa sing mbedakake model generatif karo model diskriminatif?

Model diskriminatif sinau beda antarane sawetara kategori data. Model generatif njupuk macem-macem jinis data.

Ing masalah klasifikasi, model diskriminatif asring ngluwihi model liyane.

18. Nerangake variasi antarane kesalahan Tipe I lan Tipe II.

Positif palsu kalebu ing kategori kesalahan Tipe I, dene negatif palsu ana ing kesalahan Tipe II (ngaku ora ana sing kedadeyan nalika bener).

19. Ing machine learning, apa teknik learning Ensemble?

Teknik sing diarani pembelajaran ensemble nyampurake akeh model pembelajaran mesin kanggo ngasilake model sing luwih kuat.

Model bisa mawarni-warni kanggo macem-macem alasan. Sawetara panyebab yaiku:

Macem-macem Populasi
Macem-macem Hipotesis
Macem-macem cara modeling

Kita bakal nemoni masalah nalika nggunakake data latihan lan uji coba model kasebut. Bias, varians, lan kesalahan sing ora bisa dikurangi minangka jinis kesalahan iki.

Saiki, kita nyebut imbangan iki antarane bias lan varians ing model minangka bias-variance trade-off, lan mesthine kudu ana. Pertukaran iki ditindakake kanthi nggunakake pembelajaran ensemble.

Sanajan ana macem-macem pendekatan ensemble sing kasedhiya, ana rong strategi umum kanggo nggabungake akeh model:

Pendekatan asli sing diarani bagging nggunakake set latihan kanggo ngasilake set latihan tambahan.
Boosting, teknik sing luwih canggih: Kaya bagging, boosting digunakake kanggo nemokake rumus bobot sing cocog kanggo set latihan.

20. Apa sejatine model parametrik? Menehi conto.

Ana jumlah parameter sing winates ing model parametrik. Kanggo ramalan data, sampeyan mung kudu ngerti paramèter model.

Ing ngisor iki minangka conto khas: regresi logistik, regresi linier, lan SVM linier. Model non-parametrik fleksibel amarga bisa ngemot paramèter tanpa watesan.

Parameter model lan status data sing diamati dibutuhake kanggo prediksi data. Ing ngisor iki sawetara conto khas: model topik, wit kaputusan, lan k-tanggane paling cedhak.

21. Nggambarake panyaring kolaborasi. Uga nyaring adhedhasar isi?

Cara sing dicoba lan bener kanggo nggawe saran konten sing disesuaikan yaiku nyaring kolaboratif.

Wangun sistem rekomendasi sing diarani nyaring kolaboratif ngramalake materi anyar kanthi ngimbangi preferensi pangguna karo kapentingan sing dienggo bareng.

Preferensi pangguna minangka siji-sijine sing dianggep sistem rekomendasi adhedhasar konten. Ing cahya saka pilihan sadurunge pangguna, Rekomendasi anyar diwenehake saka materi sing gegandhengan.

22. Apa persis sing sampeyan maksud karo seri Wektu?

Deret wektu minangka kumpulan nomer kanthi urutan munggah. Sajrone periode wektu sing wis ditemtokake, ngawasi gerakan titik data sing dipilih lan njupuk titik data kanthi periodik.

Ora ana input wektu minimal utawa maksimum kanggo seri wektu.

Seri wektu asring digunakake dening analis kanggo nganalisa data sing cocog karo syarat unik.

23. Nerangake variasi antarane algoritma Gradient Boosting lan Random Forest.

Hutan Acak:

A nomer akeh wit kaputusan sing pooled bebarengan ing mburi lan dikenal minangka alas acak.
Nalika gradien ngedongkrak mrodhuksi saben wit independen saka liyane, alas acak mbangun saben wit siji ing wektu.
Multikelas Deteksi obyek dianggo uga karo alas acak.

Peningkatan Gradien:

Nalika alas Random gabung karo wit keputusan ing pungkasan proses, Gradient Boosting Machines gabungke saka wiwitan.
Yen paramèter sing jumbuh diatur, gradien ngedongkrak outperforms alas acak ing syarat-syarat asil, nanging ora pilihan pinter yen pesawat data wis akèh outlier, anomali, utawa gangguan amarga bisa nimbulaké model dadi overfit.
Yen ana data sing ora seimbang, amarga ana ing pambiji risiko wektu nyata, peningkatan kecerunan bisa ditindakake kanthi apik.

24. Apa sampeyan kudu matriks bingung? Opo kuwi?

Tabel sing dikenal minangka matriks kebingungan, kadhangkala dikenal minangka matriks kesalahan, digunakake kanthi wiyar kanggo nuduhake kepriye kinerja model klasifikasi, utawa klasifikasi, ing sakumpulan data tes sing nilai nyata dikenal.

Iki ngidini kita ndeleng kepiye model utawa algoritma. Iku ndadekake gampang kanggo kita nemokake misunderstandings antarane macem-macem kursus.

Iki minangka cara kanggo ngevaluasi carane model utawa algoritma ditindakake.

Prediksi model klasifikasi dikompilasi dadi matriks kebingungan. Nilai count saben label kelas digunakake kanggo ngilangi jumlah prediksi sing bener lan salah.

Iki menehi katrangan babagan kesalahan sing ditindakake dening klasifikasi uga macem-macem kesalahan sing disebabake dening klasifikasi.

25. Apa sejatine analisis komponen prinsip?

Kanthi nyilikake jumlah variabel sing ana hubungane karo siji liyane, tujuane kanggo nyilikake dimensi saka koleksi data. Nanging penting kanggo njaga keragaman sabisa-bisa.

Variabel kasebut diowahi dadi seperangkat variabel anyar sing disebut komponen utama.

PC iki ortogonal amarga minangka vektor eigen matriks kovarian.

26. Kenapa rotasi komponen penting banget kanggo PCA (analisis komponen utama)?

Rotasi penting ing PCA amarga ngoptimalake pamisahan antarane varian sing dipikolehi saben komponen, nggawe interpretasi komponen luwih gampang.

Kita mbutuhake komponen lengkap kanggo nyebut variasi komponen yen komponen ora diputer.

27. Kepiye regularisasi lan normalisasi beda-beda saka siji liyane?

Normalisasi:

Data diowahi sajrone normalisasi. Sampeyan kudu normalake data yen duwe timbangan sing beda banget, utamane saka kurang nganti dhuwur. Setel saben kolom supaya statistik dhasar kabeh kompatibel.

Kanggo mesthekake yen ora ana mundhut presisi, iki bisa migunani. Ndeteksi sinyal nalika ora nggatekake swara minangka salah sawijining tujuan latihan model.

Ana kemungkinan overfitting yen model diwenehi kontrol lengkap kanggo nyuda kesalahan.

Regularisasi:

Ing regularisasi, fungsi prediksi diowahi. Iki tundhuk sawetara kontrol liwat regularization, kang ndukung fungsi pas prasaja liwat rumit.

28. Kepiye normalisasi lan standarisasi beda saka siji liyane?

Loro teknik sing paling umum digunakake kanggo skala fitur yaiku normalisasi lan standarisasi.

Normalisasi:

Rescaling data sing cocog karo kisaran [0,1] diarani normalisasi.
Nalika kabeh paramèter kudu ukuran positif padha, normalisasi mbiyantu, nanging outlier set data ilang.

Regularisasi:

Data diskala ulang dadi rata-rata 0 lan standar deviasi 1 minangka bagéan saka proses standarisasi (Unit varians)

29. Apa tegese "faktor inflasi varian"?

Rasio varians model karo varians model sing mung siji variabel bebas dikenal minangka faktor inflasi variasi (VIF).

VIF ngira jumlah multikolinearitas sing ana ing sakumpulan sawetara variabel regresi.

Varians saka model (VIF) Model karo Varians Variabel Independen siji

30. Adhedhasar ukuran set latihan, kepiye sampeyan milih klasifikasi?

A bias dhuwur, model varians kurang performs luwih apik kanggo pesawat latihan cendhak amarga overfitting kurang kamungkinan. Naive Bayes minangka salah sawijining conto.

Kanggo makili interaksi sing luwih rumit kanggo set latihan sing gedhe, model sing bias kurang lan variasi dhuwur luwih disenengi. Regresi logistik minangka conto sing apik.

31. Algoritma apa ing machine learning diarani minangka "lazy learner" lan ngapa?

Siswa sing sluggish, KNN minangka algoritma pembelajaran mesin. Amarga K-NN kanthi dinamis ngetung jarak saben-saben pengin nggolongake tinimbang sinau nilai utawa variabel sing disinaoni mesin saka data latihan, dheweke ngeling-eling set data latihan.

Iki ndadekake K-NN dadi murid sing kesed.

32. Apa Kurva ROC lan AUC?

Kinerja model klasifikasi ing kabeh ambang dituduhake kanthi grafis dening kurva ROC. Wis tingkat positif bener lan kritéria tingkat positif palsu.

Cukup, area ing sangisore kurva ROC dikenal minangka AUC (Area Under the ROC Curve). Area rong dimensi kurva ROC saka (0,0) nganti AUC diukur (1,1). Kanggo ngevaluasi model klasifikasi binar, digunakake minangka statistik kinerja.

33. Apa hiperparameter? Apa sing ndadekake dheweke unik saka paramèter model?

Variabel internal model dikenal minangka parameter model. Nggunakake data latihan, nilai parameter dikira-kira.

Ora dingerteni model kasebut, hiperparameter minangka variabel. Nilai kasebut ora bisa ditemtokake saka data, mula asring digunakake kanggo ngetung parameter model.

34. Apa tegese F1 Score, recall, lan precision?

Pengukuran kebingungan yaiku metrik sing digunakake kanggo ngukur efektifitas model klasifikasi. Frasa ing ngisor iki bisa digunakake kanggo luwih nerangake metrik kebingungan:

TP: True Positive - Iki minangka nilai positif sing diantisipasi kanthi bener. Iki nuduhake yen nilai kelas sing diproyeksikan lan kelas nyata loro-lorone positif.

TN: True Negatives- Iki minangka nilai sing ora becik sing diramalake kanthi akurat. Iki nuduhake yen nilai kelas nyata lan kelas sing diantisipasi negatif.

Nilai-nilai kasebut-positif palsu lan negatif palsu-kedadeyan nalika kelas nyata sampeyan beda karo kelas sing diantisipasi.

saiki,

Rasio tingkat positif sejati (TP) kanggo kabeh pengamatan sing ditindakake ing kelas nyata diarani recall, uga dikenal minangka sensitivitas.

Recall yaiku TP/(TP+FN).

Precision minangka ukuran nilai prediksi positif, sing mbandhingake jumlah positip sing diprediksi model kanthi jumlah positif sing diprediksi kanthi akurat.

Presisi yaiku TP/(TP + FP)

Metrik kinerja sing paling gampang dingerteni yaiku akurasi, yaiku proporsi pengamatan sing diprediksi kanthi bener kanggo kabeh pengamatan.

Akurasi padha karo (TP+TN)/(TP+FP+FN+TN).

Precision lan Recall ditimbang lan dirata-rata kanggo nyedhiyakake Skor F1. Akibaté, skor iki nganggep loro positif palsu lan negatif palsu.

F1 asring luwih larang tinimbang akurasi, utamane yen sampeyan duwe distribusi kelas sing ora padha, sanajan kanthi intuisi ora gampang dingerteni kaya akurasi.

Akurasi paling apik digayuh nalika biaya positif palsu lan negatif palsu bisa dibandhingake. Luwih becik kalebu Precision lan Recall yen biaya sing ana gandhengane karo positif palsu lan negatif palsu beda-beda.

35. Apa sejatine validasi silang?

Pendekatan resampling statistik sing diarani cross-validation ing machine learning nggunakake sawetara subset dataset kanggo nglatih lan ngevaluasi algoritma machine learning ing sawetara babak.

Sakumpulan data anyar sing ora digunakake kanggo nglatih model kasebut diuji nggunakake validasi silang kanggo ndeleng kepiye model kasebut prédhiksi. Overfitting data dicegah liwat validasi silang.

K-Fold Cara resampling sing paling kerep digunakake mbagi set data kabeh dadi set K kanthi ukuran sing padha. Iki diarani validasi silang.

36. Coba sampeyan nemokake manawa model sampeyan duwe variasi sing signifikan. Algoritma apa, miturut pendapat sampeyan, sing paling cocog kanggo nangani kahanan iki?

Ngatur variabilitas dhuwur

Kita kudu nggunakake teknik bagging kanggo masalah karo variasi gedhe.

Sampling data acak sing bola-bali bakal digunakake dening algoritma bagging kanggo mbagi data dadi subkelompok. Sawise data wis dipérang, kita bisa nggunakke data acak lan prosedur latihan tartamtu kanggo generate aturan.

Sawise iku, polling bisa digunakake kanggo nggabungake prediksi model kasebut.

37. Apa sing mbedakake regresi Ridge karo regresi Lasso?

Rong cara regularisasi sing akeh digunakake yaiku Lasso (uga disebut L1) lan Ridge (kadhangkala disebut L2) regresi. Iki digunakake kanggo nyegah overfitting data.

Kanggo nemokake solusi sing paling apik lan nyuda kerumitan, teknik kasebut digunakake kanggo ngukum koefisien. Kanthi ngukum total nilai absolut saka koefisien, regresi Lasso beroperasi.

Fungsi paukuman ing kemunduran Ridge utawa L2 asalé saka jumlah kuadrat saka koefisien.

38. Endi sing luwih penting: kinerja model utawa akurasi model? Kang siji lan ngapa sampeyan bakal milih?

Iki minangka pitakonan sing ngapusi, mula sampeyan kudu ngerti apa Kinerja Model. Yen kinerja ditetepake minangka kacepetan, banjur gumantung ing jinis aplikasi; aplikasi apa wae sing nglibatake kahanan nyata-nyata mbutuhake kacepetan dhuwur minangka komponen penting.

Umpamane, Asil Panelusuran sing paling apik bakal dadi kurang aji yen asil Query suwe banget.

Yen Kinerja digunakake minangka alesan kenapa presisi lan kelingan kudu diutamakake ing ndhuwur akurasi, mula skor F1 bakal luwih migunani tinimbang akurasi kanggo nuduhake kasus bisnis kanggo set data sing ora seimbang.

39. Kepiye carane sampeyan ngatur dataset kanthi ketimpangan?

Dataset sing ora seimbang bisa entuk manfaat saka teknik sampling. Sampling bisa ditindakake kanthi cara kurang utawa oversampled.

Ing Sampling ngidini kita nyilikake ukuran kelas mayoritas supaya cocog karo kelas minoritas, sing mbantu nambah kacepetan babagan panyimpenan lan eksekusi run-time nanging uga bisa nyebabake ilang data sing penting.

Supaya kanggo obat masalah mundhut informasi disebabake oversampling, kita upsample kelas Minoritas; Nanging, iki nyebabake kita ngalami masalah overfitting.

Strategi tambahan kalebu:

Cluster-Based Over Sampling- Ing kasus kelas minoritas lan mayoritas sing individu tundhuk technique K-means clustering ing kahanan iki. Iki ditindakake kanggo nemokake klompok dataset. Banjur, saben kluster oversampled supaya kabeh kelas duwe ukuran sing padha lan kabeh kluster ing kelas duwe jumlah sing padha.
SMOTE: Teknik Over-sampling Minoritas Sintetis- Irisan data saka kelas minoritas digunakake minangka conto, sawise kedadeyan buatan tambahan sing bisa dibandhingake digawe lan ditambahake menyang dataset asli. Cara iki bisa dianggo kanthi apik karo titik data numerik.

40. Kepiye carane sampeyan bisa mbedakake antarane boosting lan bagging?

Teknik Ensemble duwe versi sing dikenal minangka bagging lan boosting.

Bagging-

Kanggo algoritma kanthi variasi dhuwur, bagging minangka teknik sing digunakake kanggo ngedhunake varian. Salah sawijining kulawarga klasifikasi sing rawan bias yaiku kulawarga wit keputusan.

Jinis data sing dilatih wit keputusan duwe pengaruh sing signifikan marang kinerja. Amarga iki, sanajan kanthi fine-tuning sing dhuwur banget, generalisasi asil kadhangkala luwih angel dipikolehi.

Yen data latihan decision tree diowahi, asile beda-beda.

Akibaté, bagging digunakake, ing ngendi akeh wit keputusan digawe, saben dilatih nggunakake sampel data asli, lan asil pungkasan yaiku rata-rata kabeh model sing beda-beda kasebut.

ngedongkrak:

Boosting minangka teknik nggawe prediksi kanthi sistem klasifikasi n-lemah ing ngendi saben klasifikasi sing lemah nggawe kekurangan saka klasifikasi sing luwih kuwat. Kita ngrujuk marang klasifikasi sing nindakake kanthi ora becik ing set data sing diwenehake minangka "pengklasifikasi sing lemah."

Boosting temenan proses tinimbang algoritma. Regresi logistik lan wit keputusan sing cethek minangka conto umum saka klasifikasi sing lemah.

Adaboost, Gradient Boosting, lan XGBoost minangka rong algoritma sing paling populer, nanging ana akeh liyane.

41. Terangna bedane pamulangan induktif lan deduktif.

Nalika sinau kanthi conto saka sakumpulan conto sing diamati, model nggunakake pembelajaran induktif kanggo entuk kesimpulan umum. Ing sisih liya, kanthi sinau deduktif, model nggunakake asil sadurunge mbentuk dhewe.

Pembelajaran induktif yaiku proses njupuk kesimpulan saka pengamatan.

Pembelajaran deduktif yaiku proses nggawe observasi adhedhasar inferensi.

kesimpulan

Sugeng! Iki minangka pitakonan wawancara 40 lan ndhuwur kanggo sinau mesin sing saiki sampeyan ngerti jawabane. Ilmu data lan Kacerdhasan gawéyan pendhudhukan bakal terus dikarepake minangka kemajuan teknologi.

Calon sing nganyari kawruh babagan teknologi canggih iki lan nambah katrampilan bisa nemokake macem-macem kemungkinan kerja kanthi gaji sing kompetitif.

Sampeyan bisa nerusake mangsuli wawancara saiki yen sampeyan duwe pangerten sing kuat babagan cara mangsuli sawetara pitakonan wawancara machine learning sing ditakoni.

Gumantung saka tujuan sampeyan, tindakake langkah ing ngisor iki. Siapke wawancara kanthi ngunjungi Hashdork Seri Wawancara.

Top 40+ Pitakonan Wawancara Machine Learning