40+ Soalan Temuduga Pembelajaran Mesin Teratas (2024)

Jadual Kandungan[Sembunyi][Tunjukkan]

1. Terangkan perbezaan antara pembelajaran mesin, kecerdasan buatan dan pembelajaran mendalam.
2. Sila terangkan pelbagai jenis pembelajaran mesin.
3. Apakah pertukaran bias berbanding varians?
4. Algoritma pembelajaran mesin telah berkembang dengan ketara dari semasa ke semasa. Bagaimanakah seseorang memilih algoritma yang betul untuk menggunakan set data yang diberikan?
5. Bagaimanakah kovarians dan korelasi berbeza?
6. Dalam pembelajaran mesin, apakah maksud pengelompokan?
7. Apakah algoritma pembelajaran mesin pilihan anda?
8. Regresi Linear dalam Pembelajaran Mesin: Apakah Itu?
9. Huraikan perbezaan antara KNN dan k-means clustering.
10. Apakah maksud "pilihan berat sebelah" kepada anda?
11. Apakah sebenarnya Teorem Bayes?
12. Dalam Model Pembelajaran Mesin, apakah itu 'Set latihan' dan 'Set ujian'?
13. Apakah Hipotesis dalam Pembelajaran Mesin?
14. Apakah maksud overfitting pembelajaran mesin, dan bagaimanakah ia boleh dicegah?
15. Apakah sebenarnya pengelas Naive Bayes?
16. Apakah yang dimaksudkan dengan Fungsi Kos dan Fungsi Kerugian?
17. Apakah yang membezakan model generatif daripada model diskriminatif?
18. Huraikan variasi antara ralat Jenis I dan Jenis II.
19. Dalam pembelajaran mesin, apakah teknik pembelajaran Ensemble?
20. Apakah sebenarnya model parametrik? Beri contoh.
21. Terangkan penapisan kolaboratif. Serta penapisan berasaskan kandungan?
22. Apakah sebenarnya yang anda maksudkan dengan siri Masa?
23. Huraikan variasi antara algoritma Gradient Boosting dan Random Forest.
24. Mengapa anda memerlukan matriks kekeliruan? Apa itu?
25. Apakah sebenarnya analisis komponen prinsip?
26. Mengapakah putaran komponen begitu penting kepada PCA (analisis komponen utama)?
27. Bagaimanakah regularisasi dan normalisasi berbeza antara satu sama lain?
28. Bagaimanakah penormalan dan penyeragaman berbeza antara satu sama lain?
29. Apakah sebenarnya yang dimaksudkan dengan "faktor inflasi varians"?
30. Berdasarkan saiz set latihan, bagaimanakah anda memilih pengelas?
31. Apakah algoritma dalam pembelajaran mesin yang dirujuk sebagai "pelajar malas" dan mengapa?
32. Apakah Keluk ROC dan AUC?
33. Apakah hiperparameter? Apakah yang menjadikan mereka unik daripada parameter model?
34. Apakah yang dimaksudkan dengan Skor F1, ingatan semula dan ketepatan?
35. Apakah sebenarnya pengesahan silang?
36. Katakan anda mendapati model anda mempunyai varians yang ketara. Algoritma apakah, pada pendapat anda, yang paling sesuai untuk menangani situasi ini?
37. Apakah yang membezakan regresi Ridge daripada regresi Lasso?
38. Manakah yang lebih penting: prestasi model atau ketepatan model? Yang mana satu dan mengapa anda akan menyukainya?
39. Bagaimanakah anda menguruskan set data dengan ketidaksamaan?
40. Bagaimanakah anda boleh membezakan antara boosting dan bagging?
41. Terangkan perbezaan antara pembelajaran induktif dan deduktif.
Kesimpulan

Perniagaan menggunakan teknologi canggih, seperti kecerdasan buatan (AI) dan pembelajaran mesin, untuk meningkatkan kebolehcapaian maklumat dan perkhidmatan kepada individu.

Teknologi ini digunakan oleh pelbagai industri, termasuk perbankan, kewangan, runcit, pembuatan dan penjagaan kesihatan.

Salah satu peranan organisasi yang paling dicari menggunakan AI adalah untuk saintis data, jurutera kecerdasan buatan, jurutera pembelajaran mesin dan penganalisis data.

Jawatan ini akan membawa anda melalui pelbagai pembelajaran mesin soalan temu duga, daripada asas hingga kompleks, untuk membantu anda bersiap sedia untuk sebarang soalan yang boleh ditanya semasa mencari pekerjaan ideal anda.

1. Terangkan perbezaan antara pembelajaran mesin, kecerdasan buatan dan pembelajaran mendalam.

Kecerdasan buatan menggunakan pelbagai pembelajaran mesin dan pendekatan pembelajaran mendalam yang membolehkan sistem komputer menjalankan tugas menggunakan kecerdasan seperti manusia dengan logik dan peraturan.

Pembelajaran mesin menggunakan pelbagai statistik dan pendekatan Pembelajaran Dalam untuk membolehkan mesin belajar daripada prestasi terdahulu mereka dan menjadi lebih mahir dalam melakukan tugasan tertentu sendiri tanpa pengawasan manusia.

Pembelajaran Dalam ialah koleksi algoritma yang membolehkan perisian belajar daripada dirinya sendiri dan menjalankan pelbagai fungsi komersial, seperti pengecaman suara dan gambar.

Sistem yang mendedahkan berbilang lapisannya rangkaian saraf kepada sejumlah besar data untuk pembelajaran dapat melakukan pembelajaran mendalam.

2. Sila terangkan pelbagai jenis pembelajaran mesin.

Pembelajaran mesin wujud dalam tiga jenis yang berbeza secara amnya:

Pembelajaran Terselia: Model mencipta ramalan atau pertimbangan menggunakan data berlabel atau sejarah dalam pembelajaran mesin yang diselia. Set data yang telah ditag atau dilabelkan untuk meningkatkan maknanya dirujuk sebagai data berlabel.
Pembelajaran Tanpa Pengawasan: Kami tidak mempunyai data berlabel untuk pembelajaran tanpa pengawasan. Dalam data masuk, model boleh mencari corak, keanehan dan korelasi.
Pembelajaran Pengukuhan: Model boleh belajar dengan menggunakan peneguhan pembelajaran dan ganjaran yang diperolehi untuk tingkah laku sebelumnya.

3. Apakah pertukaran bias berbanding varians?

Pemasangan lampau adalah hasil daripada berat sebelah, iaitu tahap kesesuaian model dengan data. Bias disebabkan oleh andaian yang salah atau terlalu mudah dalam anda algoritma pembelajaran mesin.

Varians merujuk kepada kesilapan yang disebabkan oleh kerumitan dalam algoritma ML anda, yang menghasilkan sensitiviti kepada darjah varians yang besar dalam data latihan dan pemasangan berlebihan.

Varians ialah berapa banyak model berubah bergantung pada input.

Dalam erti kata lain, model asas sangat berat sebelah lagi stabil (varian rendah). Pemasangan lampau adalah masalah dengan model yang kompleks, walaupun mereka menangkap realiti model (berat sebelah rendah).

Untuk mengelakkan kedua-dua variasi tinggi dan berat sebelah tinggi, pertukaran antara berat sebelah dan varians adalah perlu untuk pengurangan ralat yang terbaik.

4. Algoritma pembelajaran mesin telah berkembang dengan ketara dari semasa ke semasa. Bagaimanakah seseorang memilih algoritma yang betul untuk menggunakan set data yang diberikan?

Teknik pembelajaran mesin yang harus digunakan hanya bergantung pada jenis data dalam set data tertentu.

Apabila data adalah linear, regresi linear digunakan. Kaedah bagging akan berprestasi lebih baik jika data menunjukkan bukan linear. Kami boleh menggunakan pepohon keputusan atau SVM jika data perlu dinilai atau ditafsirkan untuk tujuan komersial.

Rangkaian saraf mungkin berguna untuk mendapatkan jawapan yang tepat jika set data termasuk foto, video dan audio.

Pilihan algoritma untuk keadaan tertentu atau pengumpulan data tidak boleh dibuat hanya pada satu ukuran.

Untuk tujuan membangunkan kaedah kesesuaian terbaik, kita mesti terlebih dahulu memeriksa data menggunakan analisis data penerokaan (EDA) dan memahami matlamat menggunakan set data.

5. Bagaimanakah kovarians dan korelasi berbeza?

Kovarians menilai bagaimana dua pembolehubah disambungkan antara satu sama lain dan bagaimana satu mungkin berubah sebagai tindak balas kepada perubahan yang lain.

Jika keputusan adalah positif, ia menunjukkan bahawa terdapat hubungan langsung antara pembolehubah dan bahawa satu akan meningkat atau menurun dengan peningkatan atau penurunan dalam pembolehubah asas, dengan mengandaikan bahawa semua keadaan lain kekal malar.

Korelasi mengukur pautan antara dua pembolehubah rawak dan hanya mempunyai tiga nilai berbeza: 1, 0, dan -1.

6. Dalam pembelajaran mesin, apakah maksud pengelompokan?

Kaedah pembelajaran tanpa pengawasan yang mengumpulkan titik data bersama dipanggil pengelompokan. Dengan pengumpulan titik data, teknik pengelompokan boleh diaplikasikan.

Anda boleh mengumpulkan semua titik data mengikut fungsinya menggunakan strategi ini.

Ciri dan kualiti titik data yang termasuk dalam kategori yang sama adalah serupa, manakala titik data yang termasuk dalam kumpulan berasingan adalah berbeza.

Pendekatan ini boleh digunakan untuk menganalisis data statistik.

7. Apakah algoritma pembelajaran mesin pilihan anda?

Anda mempunyai peluang untuk menunjukkan keutamaan dan bakat unik anda dalam soalan ini, serta pengetahuan komprehensif anda tentang pelbagai teknik pembelajaran mesin.

Berikut ialah beberapa algoritma pembelajaran mesin biasa untuk difikirkan:

Regresi linear
Regresi logistik
Naif Bayes
Pokok keputusan
K bermaksud
Algoritma hutan rawak
K-jiran terdekat (KNN)

8. Regresi Linear dalam Pembelajaran Mesin: Apakah Itu?

Algoritma pembelajaran mesin yang diselia ialah regresi linear.

Ia digunakan dalam analisis ramalan untuk menentukan sambungan linear antara pembolehubah bersandar dan bebas.

Persamaan regresi linear adalah seperti berikut:

Y = A + BX

di mana:

Input atau pembolehubah bebas dipanggil X.
Pembolehubah bersandar atau keluaran ialah Y.
Pekali X ialah b, dan pintasannya ialah a.

9. Huraikan perbezaan antara KNN dan k-means clustering.

Perbezaan utama ialah KNN (kaedah pengelasan, pembelajaran diselia) memerlukan titik berlabel manakala k-means tidak (algoritma pengelompokan, pembelajaran tanpa pengawasan).

Anda boleh mengelaskan data berlabel ke dalam titik tidak berlabel dengan menggunakan K-Nearest Neighbors. K-means clustering menggunakan jarak purata antara titik untuk mempelajari cara mengumpulkan titik tidak berlabel.

10. Apakah maksud "pilihan berat sebelah" kepada anda?

Bincang dalam fasa persampelan eksperimen adalah disebabkan oleh ketidaktepatan statistik.

Satu kumpulan sampel dipilih lebih kerap daripada kumpulan lain dalam eksperimen akibat daripada ketidaktepatan.

Jika berat sebelah pemilihan tidak diakui, ia boleh mengakibatkan kesimpulan yang salah.

11. Apakah sebenarnya Teorem Bayes?

Apabila kita menyedari kebarangkalian lain, kita boleh menentukan kebarangkalian menggunakan Teorem Bayes. Ia menawarkan kebarangkalian posterior kejadian berdasarkan maklumat terdahulu, dengan kata lain.

Kaedah yang baik untuk menganggar kebarangkalian bersyarat disediakan oleh teorem ini.

Apabila membangunkan masalah pemodelan ramalan klasifikasi dan menyesuaikan model dengan latihan set data dalam pembelajaran mesin, teorem Bayes digunakan (iaitu Naive Bayes, Pengelas Optimum Bayes).

12. Dalam Model Pembelajaran Mesin, apakah itu 'Set latihan' dan 'Set ujian'?

Set latihan:

Set latihan terdiri daripada contoh yang dihantar kepada model untuk analisis dan pembelajaran.
Ini ialah data berlabel yang akan digunakan untuk melatih model.
Biasanya, 70% daripada jumlah data digunakan sebagai set data latihan.

Set Ujian:

Set ujian digunakan untuk menilai ketepatan penjanaan hipotesis model.
Kami menguji tanpa data berlabel dan kemudian menggunakan label untuk mengesahkan keputusan.
Baki 30% digunakan sebagai set data ujian.

13. Apakah Hipotesis dalam Pembelajaran Mesin?

Pembelajaran Mesin membolehkan penggunaan set data sedia ada untuk lebih memahami fungsi tertentu yang memautkan input kepada output. Ini dikenali sebagai penghampiran fungsi.

Dalam kes ini, anggaran mesti digunakan untuk fungsi sasaran yang tidak diketahui untuk memindahkan semua pemerhatian yang boleh difikirkan berdasarkan situasi yang diberikan dengan cara yang terbaik.

Dalam pembelajaran mesin, hipotesis ialah model yang membantu dalam menganggar fungsi sasaran dan melengkapkan pemetaan input-ke-output yang sesuai.

Pemilihan dan reka bentuk algoritma membolehkan definisi ruang kemungkinan hipotesis yang boleh diwakili oleh model.

Untuk satu hipotesis, huruf kecil h (h) digunakan, tetapi huruf besar h (H) digunakan untuk keseluruhan ruang hipotesis yang sedang dicari. Kami akan menyemak secara ringkas notasi ini:

Hipotesis (h) ialah model tertentu yang memudahkan pemetaan input kepada output, yang kemudiannya boleh digunakan untuk penilaian dan ramalan.
Set hipotesis (H) ialah ruang hipotesis yang boleh dicari yang boleh digunakan untuk memetakan input kepada output. Pembingkaian isu, model dan konfigurasi model ialah beberapa contoh pengehadan generik.

14. Apakah maksud overfitting pembelajaran mesin, dan bagaimanakah ia boleh dicegah?

Apabila mesin cuba belajar daripada set data yang tidak mencukupi, overfitting berlaku.

Akibatnya, overfitting berkorelasi songsang dengan volum data. Pendekatan pengesahan silang membolehkan overfitting dielakkan untuk set data kecil. Set data dibahagikan kepada dua bahagian dalam kaedah ini.

Set data untuk ujian dan latihan akan terdiri daripada dua bahagian ini. Set data latihan digunakan untuk mencipta model, manakala set data ujian digunakan untuk menilai model menggunakan input yang berbeza.

Ini adalah cara untuk mengelakkan overfitting.

15. Apakah sebenarnya pengelas Naive Bayes?

Pelbagai kaedah pengelasan membentuk pengelas Naive Bayes. Satu set algoritma yang dikenali sebagai pengelas ini semuanya berfungsi pada idea asas yang sama.

Andaian yang dibuat oleh pengelas Bayes naif ialah kehadiran atau ketiadaan satu ciri tidak mempunyai kaitan dengan kehadiran atau ketiadaan ciri lain.

Dalam erti kata lain, inilah yang kami rujuk sebagai "naif" kerana ia membuat andaian bahawa setiap atribut set data adalah sama penting dan bebas.

Pengelasan dilakukan menggunakan pengelas Bayes naif. Ia mudah digunakan dan menghasilkan hasil yang lebih baik daripada peramal yang lebih kompleks apabila premis kemerdekaan adalah benar.

Dalam analisis teks, penapisan spam dan sistem pengesyoran, mereka digunakan.

16. Apakah yang dimaksudkan dengan Fungsi Kos dan Fungsi Kerugian?

Frasa "fungsi kerugian" merujuk kepada proses pengiraan kerugian apabila hanya satu data diambil kira.

Sebaliknya, kami menggunakan fungsi kos untuk menentukan jumlah kesilapan untuk banyak data. Tiada perbezaan ketara wujud.

Dalam erti kata lain, manakala fungsi kos mengagregatkan perbezaan untuk keseluruhan set data latihan, fungsi kehilangan direka untuk menangkap perbezaan antara nilai sebenar dan ramalan untuk satu rekod.

17. Apakah yang membezakan model generatif daripada model diskriminatif?

Model diskriminatif mempelajari perbezaan antara beberapa kategori data. Model generatif mengambil jenis data yang berbeza.

Mengenai masalah klasifikasi, model diskriminatif selalunya mengatasi model lain.

18. Huraikan variasi antara ralat Jenis I dan Jenis II.

Positif palsu berada di bawah kategori ralat Jenis I, manakala negatif palsu berada di bawah ralat Jenis II (mendakwa tiada apa-apa yang berlaku apabila ia sebenarnya berlaku).

19. Dalam pembelajaran mesin, apakah teknik pembelajaran Ensemble?

Teknik yang dipanggil pembelajaran ensemble mencampurkan banyak model pembelajaran mesin untuk menghasilkan model yang lebih mujarab.

Model boleh diubah untuk pelbagai sebab. Beberapa punca ialah:

Pelbagai Penduduk
Pelbagai Hipotesis
Pelbagai kaedah pemodelan

Kami akan menghadapi masalah semasa menggunakan data latihan dan ujian model. Bias, varians dan ralat tidak boleh dikurangkan adalah jenis kesilapan ini yang mungkin.

Sekarang, kami memanggil keseimbangan ini antara bias dan varians dalam model sebagai pertukaran bias-variance, dan ia harus sentiasa wujud. Trade-off ini dicapai melalui penggunaan pembelajaran ensemble.

Walaupun terdapat pelbagai pendekatan ensemble yang tersedia, terdapat dua strategi umum untuk menggabungkan banyak model:

Pendekatan asli yang dipanggil bagging menggunakan set latihan untuk menghasilkan set latihan tambahan.
Boosting, teknik yang lebih canggih: Sama seperti beg, boosting digunakan untuk mencari formula pemberat yang ideal untuk set latihan.

20. Apakah sebenarnya model parametrik? Beri contoh.

Terdapat jumlah parameter yang terhad dalam model parametrik. Untuk meramal data, anda hanya perlu tahu parameter model.

Berikut ialah contoh biasa: regresi logistik, regresi linear dan SVM linear. Model bukan parametrik adalah fleksibel kerana ia boleh mengandungi bilangan parameter yang tidak terhad.

Parameter model dan status data yang diperhatikan diperlukan untuk ramalan data. Berikut adalah beberapa contoh biasa: model topik, pokok keputusan dan k-jiran terdekat.

21. Terangkan penapisan kolaboratif. Serta penapisan berasaskan kandungan?

Kaedah yang dicuba dan benar untuk membuat cadangan kandungan yang disesuaikan ialah penapisan kolaboratif.

Satu bentuk sistem pengesyoran yang dipanggil penapisan kolaboratif meramalkan bahan baharu dengan mengimbangi pilihan pengguna dengan minat bersama.

Keutamaan pengguna ialah satu-satunya perkara yang dipertimbangkan oleh sistem pengesyor berasaskan kandungan. Memandangkan pilihan sebelumnya pengguna, pengesyoran baharu disediakan daripada bahan berkaitan.

22. Apakah sebenarnya yang anda maksudkan dengan siri Masa?

Siri masa ialah himpunan nombor dalam tertib menaik. Sepanjang tempoh masa yang telah ditetapkan, ia memantau pergerakan titik data yang dipilih dan menangkap titik data secara berkala.

Tiada input masa minimum atau maksimum untuk siri masa.

Siri masa sering digunakan oleh penganalisis untuk menganalisis data mengikut keperluan unik mereka.

23. Huraikan variasi antara algoritma Gradient Boosting dan Random Forest.

Hutan Rawak:

Sebilangan besar pokok keputusan dikumpulkan bersama pada penghujungnya dan dikenali sebagai hutan rawak.
Walaupun peningkatan kecerunan menghasilkan setiap pokok secara bebas daripada yang lain, hutan rawak membina setiap pokok satu demi satu.
Berbilang kelas pengesanan objek berfungsi dengan baik dengan hutan rawak.

Peningkatan Kecerunan:

Walaupun hutan rawak bergabung dengan pokok keputusan pada akhir proses, Mesin Penggalak Kecerunan menggabungkannya dari awal.
Jika parameter dilaraskan dengan sewajarnya, peningkatan kecerunan mengatasi hutan rawak dari segi hasil, tetapi ini bukanlah pilihan yang bijak jika set data mempunyai banyak outlier, anomali atau hingar kerana ia boleh menyebabkan model menjadi terlalu muat.
Apabila terdapat data yang tidak seimbang, seperti yang terdapat dalam penilaian risiko masa nyata, peningkatan kecerunan berprestasi baik.

24. Mengapa anda memerlukan matriks kekeliruan? Apa itu?

Jadual yang dikenali sebagai matriks kekeliruan, kadangkala dikenali sebagai matriks ralat, digunakan secara meluas untuk menunjukkan prestasi model pengelasan atau pengelas pada set data ujian yang mana nilai sebenar diketahui.

Ia membolehkan kita melihat prestasi model atau algoritma. Ia memudahkan kami untuk mengesan salah faham antara pelbagai kursus.

Ia berfungsi sebagai satu cara untuk menilai sejauh mana model atau algoritma dilakukan.

Ramalan model klasifikasi disusun ke dalam matriks kekeliruan. Nilai kiraan setiap label kelas telah digunakan untuk memecahkan jumlah bilangan ramalan yang betul dan salah.

Ia memberikan butiran tentang kesalahan yang dibuat oleh pengelas serta pelbagai jenis ralat yang disebabkan oleh pengelas.

25. Apakah sebenarnya analisis komponen prinsip?

Dengan meminimumkan bilangan pembolehubah yang berkorelasi antara satu sama lain, matlamatnya adalah untuk meminimumkan dimensi pengumpulan data. Tetapi adalah penting untuk mengekalkan kepelbagaian sebanyak mungkin.

Pembolehubah diubah menjadi satu set pembolehubah yang sama sekali baru dipanggil komponen utama.

PC ini adalah ortogon kerana ia adalah vektor eigen matriks kovarians.

26. Mengapakah putaran komponen begitu penting kepada PCA (analisis komponen utama)?

Putaran adalah penting dalam PCA kerana ia mengoptimumkan pemisahan antara varians yang diperolehi oleh setiap komponen, menjadikan tafsiran komponen lebih mudah.

Kami memerlukan komponen lanjutan untuk menyatakan variasi komponen jika komponen tidak diputar.

27. Bagaimanakah regularisasi dan normalisasi berbeza antara satu sama lain?

Normalisasi:

Data diubah semasa penormalan. Anda harus menormalkan data jika ia mempunyai skala yang berbeza secara drastik, terutamanya dari rendah ke tinggi. Laraskan setiap lajur supaya statistik asas semuanya serasi.

Untuk memastikan tiada kehilangan ketepatan, ini berguna. Mengesan isyarat sambil mengabaikan bunyi adalah salah satu objektif latihan model.

Terdapat kemungkinan overfitting jika model diberi kawalan sepenuhnya untuk mengurangkan ralat.

Regularisasi:

Dalam regularisasi, fungsi ramalan diubah suai. Ini tertakluk kepada beberapa kawalan melalui penyelarasan, yang mengutamakan fungsi pemasangan yang lebih mudah berbanding yang rumit.

28. Bagaimanakah penormalan dan penyeragaman berbeza antara satu sama lain?

Dua teknik yang paling banyak digunakan untuk penskalaan ciri ialah normalisasi dan penyeragaman.

Normalisasi:

Menskala semula data agar sesuai dengan julat [0,1] dikenali sebagai normalisasi.
Apabila semua parameter mesti mempunyai skala positif yang sama, normalisasi berguna, tetapi outlier set data hilang.

Regularisasi:

Data diskala semula untuk mempunyai min 0 dan sisihan piawai 1 sebagai sebahagian daripada proses penyeragaman (Unit varians)

29. Apakah sebenarnya yang dimaksudkan dengan "faktor inflasi varians"?

Nisbah varians model kepada varians model dengan hanya satu pembolehubah bebas dikenali sebagai faktor inflasi variasi (VIF).

VIF menganggarkan jumlah multikolineariti hadir dalam satu set beberapa pembolehubah regresi.

Varians model (VIF) Model dengan Satu Varians Pembolehubah Bebas

30. Berdasarkan saiz set latihan, bagaimanakah anda memilih pengelas?

Model berat sebelah tinggi, varians rendah berprestasi lebih baik untuk set latihan pendek memandangkan pemasangan lampau kurang berkemungkinan. Naive Bayes adalah satu contoh.

Untuk mewakili interaksi yang lebih rumit untuk set latihan yang besar, model dengan berat sebelah rendah dan varians tinggi adalah lebih baik. Regresi logistik adalah contoh yang baik.

31. Apakah algoritma dalam pembelajaran mesin yang dirujuk sebagai "pelajar malas" dan mengapa?

Seorang pelajar yang lembap, KNN ialah algoritma pembelajaran mesin. Oleh kerana K-NN mengira jarak secara dinamik setiap kali ia ingin mengelaskan dan bukannya mempelajari sebarang nilai atau pembolehubah yang dipelajari mesin daripada data latihan, ia menghafal set data latihan.

Ini menjadikan K-NN seorang yang malas belajar.

32. Apakah Keluk ROC dan AUC?

Prestasi model klasifikasi pada semua ambang diwakili secara grafik oleh lengkung ROC. Ia mempunyai kadar positif benar dan kriteria kadar positif palsu.

Ringkasnya, kawasan di bawah lengkung ROC dikenali sebagai AUC (Area Under the ROC Curve). Luas dua dimensi keluk ROC dari (0,0) hingga AUC diukur (1,1). Untuk menilai model klasifikasi binari, ia digunakan sebagai statistik prestasi.

33. Apakah hiperparameter? Apakah yang menjadikan mereka unik daripada parameter model?

Pembolehubah dalaman model dikenali sebagai parameter model. Menggunakan data latihan, nilai parameter dianggarkan.

Tidak diketahui oleh model, hiperparameter ialah pembolehubah. Nilai tidak boleh ditentukan daripada data, oleh itu ia kerap digunakan untuk mengira parameter model.

34. Apakah yang dimaksudkan dengan Skor F1, ingatan semula dan ketepatan?

Ukuran kekeliruan ialah metrik yang digunakan untuk mengukur keberkesanan model pengelasan. Frasa berikut boleh digunakan untuk menerangkan metrik kekeliruan dengan lebih baik:

TP: Positif Benar – Ini adalah nilai positif yang dijangkakan dengan betul. Ia mencadangkan bahawa nilai kelas yang diunjurkan dan kelas sebenar adalah kedua-duanya positif.

TN: Negatif Benar- Ini ialah nilai buruk yang diramalkan dengan tepat. Ia mencadangkan bahawa kedua-dua nilai kelas sebenar dan kelas yang dijangkakan adalah negatif.

Nilai ini—positif palsu dan negatif palsu—berlaku apabila kelas sebenar anda berbeza daripada kelas yang dijangkakan.

Kini,

Nisbah kadar positif sebenar (TP) kepada semua pemerhatian yang dibuat dalam kelas sebenar dipanggil ingat semula, juga dikenali sebagai sensitiviti.

Panggilan semula ialah TP/(TP+FN).

Ketepatan ialah ukuran nilai ramalan positif, yang membandingkan bilangan positif yang benar-benar diramalkan oleh model dengan bilangan positif yang betul yang diramalkan dengan tepat.

Ketepatan ialah TP/(TP + FP)

Metrik prestasi yang paling mudah untuk difahami ialah ketepatan, iaitu hanya perkadaran pemerhatian yang diramalkan dengan betul kepada semua pemerhatian.

Ketepatan adalah sama dengan (TP+TN)/(TP+FP+FN+TN).

Ketepatan dan Ingat kembali ditimbang dan dipuratakan untuk memberikan Skor F1. Akibatnya, skor ini mempertimbangkan kedua-dua positif palsu dan negatif palsu.

F1 selalunya lebih bernilai daripada ketepatan, terutamanya jika anda mempunyai taburan kelas yang tidak sama rata, walaupun secara intuitif ia tidak semudah untuk difahami seperti ketepatan.

Ketepatan terbaik dicapai apabila kos positif palsu dan negatif palsu adalah setanding. Adalah lebih baik untuk memasukkan kedua-dua Precision dan Recall jika kos yang dikaitkan dengan positif palsu dan negatif palsu berbeza dengan ketara.

35. Apakah sebenarnya pengesahan silang?

Pendekatan pensampelan semula statistik yang dipanggil pengesahan silang dalam pembelajaran mesin menggunakan beberapa subset set data untuk melatih dan menilai algoritma pembelajaran mesin merentas beberapa pusingan.

Sekumpulan data baharu yang tidak digunakan untuk melatih model diuji menggunakan pengesahan silang untuk melihat sejauh mana model meramalkannya. Pemasangan data yang berlebihan dihalang melalui pengesahan silang.

K-Fold Kaedah pensampelan semula yang paling kerap digunakan membahagikan keseluruhan set data kepada set K yang sama saiz. Ia dipanggil pengesahan silang.

36. Katakan anda mendapati model anda mempunyai varians yang ketara. Algoritma apakah, pada pendapat anda, yang paling sesuai untuk menangani situasi ini?

Menguruskan kebolehubahan yang tinggi

Kita harus menggunakan teknik pembungkusan untuk masalah dengan variasi yang besar.

Persampelan berulang data rawak akan digunakan oleh algoritma pembungkusan untuk membahagikan data kepada subkumpulan. Setelah data telah dibahagikan, kami boleh menggunakan data rawak dan prosedur latihan khusus untuk menjana peraturan.

Selepas itu, tinjauan pendapat boleh digunakan untuk menggabungkan ramalan model.

37. Apakah yang membezakan regresi Ridge daripada regresi Lasso?

Dua kaedah regularisasi yang digunakan secara meluas ialah regresi Lasso (juga dipanggil L1) dan Ridge (kadang-kadang dipanggil L2). Ia digunakan untuk mengelakkan overfitting data.

Untuk mencari penyelesaian terbaik dan meminimumkan kerumitan, teknik ini digunakan untuk menghukum pekali. Dengan menghukum jumlah nilai mutlak pekali, regresi Lasso beroperasi.

Fungsi penalti dalam regresi Ridge atau L2 diperoleh daripada jumlah kuasa dua pekali.

38. Manakah yang lebih penting: prestasi model atau ketepatan model? Yang mana satu dan mengapa anda akan menyukainya?

Ini adalah soalan yang mengelirukan, oleh itu seseorang harus terlebih dahulu memahami apa itu Prestasi Model. Jika prestasi ditakrifkan sebagai kelajuan, maka ia bergantung pada jenis aplikasi; sebarang aplikasi yang melibatkan situasi masa nyata memerlukan kelajuan tinggi sebagai komponen penting.

Contohnya, Hasil Carian terbaik akan menjadi kurang bernilai jika keputusan Pertanyaan mengambil masa terlalu lama untuk tiba.

Jika Prestasi digunakan sebagai justifikasi mengapa ketepatan dan ingat semula harus diutamakan melebihi ketepatan, maka skor F1 akan lebih berguna daripada ketepatan dalam menunjukkan kes perniagaan untuk mana-mana set data yang tidak seimbang.

39. Bagaimanakah anda menguruskan set data dengan ketidaksamaan?

Set data yang tidak seimbang boleh mendapat manfaat daripada teknik pensampelan. Pensampelan boleh dilakukan sama ada dalam cara kurang atau lebihan sampel.

Di bawah Persampelan membolehkan kami mengecilkan saiz kelas majoriti agar sepadan dengan kelas minoriti, yang membantu dalam meningkatkan kelajuan berkaitan penyimpanan dan pelaksanaan masa jalan tetapi juga boleh mengakibatkan kehilangan data berharga.

Untuk membetulkan isu kehilangan maklumat yang disebabkan oleh pensampelan berlebihan, kami menambah sampel kelas Minoriti; namun, ini menyebabkan kita menghadapi masalah overfitting.

Strategi tambahan termasuk:

Persampelan Berasaskan Kluster- Contoh kelas minoriti dan majoriti secara individu tertakluk kepada teknik pengelompokan K-means dalam situasi ini. Ini dilakukan untuk mencari kelompok set data. Kemudian, setiap kluster dilebihkan sampel supaya semua kelas mempunyai saiz yang sama dan semua kluster dalam kelas mempunyai bilangan kejadian yang sama.
SMOTE: Teknik Persampelan Terlebih Minoriti Sintetik- Sekeping data daripada kelas minoriti digunakan sebagai contoh, selepas itu contoh tiruan tambahan yang setanding dengannya dihasilkan dan ditambahkan pada set data asal. Kaedah ini berfungsi dengan baik dengan titik data berangka.

40. Bagaimanakah anda boleh membezakan antara boosting dan bagging?

Teknik Ensemble mempunyai versi yang dikenali sebagai bagging dan boosting.

membonceng-

Untuk algoritma dengan variasi yang tinggi, bagging ialah teknik yang digunakan untuk menurunkan varians. Satu keluarga pengelas sedemikian yang terdedah kepada berat sebelah ialah keluarga pokok keputusan.

Jenis data yang dilatih oleh pepohon keputusan mempunyai kesan yang ketara pada prestasinya. Oleh kerana itu, walaupun dengan penalaan halus yang sangat tinggi, generalisasi hasil kadangkala jauh lebih sukar untuk diperoleh di dalamnya.

Jika data latihan pokok keputusan diubah, hasilnya berbeza dengan ketara.

Akibatnya, pembungkusan digunakan, di mana banyak pepohon keputusan dicipta, setiap satunya dilatih menggunakan sampel data asal, dan hasil akhirnya ialah purata semua model berbeza ini.

Mendorong:

Boosting ialah teknik membuat ramalan dengan sistem pengelas n-lemah di mana setiap pengelas lemah menebus kekurangan pengelasnya yang lebih kuat. Kami merujuk kepada pengelas yang berprestasi teruk pada set data tertentu sebagai "pengelas lemah".

Peningkatan jelas merupakan satu proses dan bukannya algoritma. Regresi logistik dan pokok keputusan cetek adalah contoh biasa pengelas lemah.

Adaboost, Gradient Boosting dan XGBoost ialah dua algoritma rangsangan yang paling popular, namun, terdapat banyak lagi.

41. Terangkan perbezaan antara pembelajaran induktif dan deduktif.

Apabila belajar melalui contoh daripada satu set contoh yang diperhatikan, model menggunakan pembelajaran induktif untuk mencapai kesimpulan umum. Sebaliknya, dengan pembelajaran deduktif, model menggunakan hasil sebelum membentuk sendiri.

Pembelajaran induktif ialah proses membuat kesimpulan daripada pemerhatian.

Pembelajaran deduktif ialah proses mencipta pemerhatian berdasarkan inferens.

Kesimpulan

tahniah! Ini ialah 40 soalan temuduga teratas dan ke atas untuk pembelajaran mesin yang kini anda tahu jawapannya. Sains data dan kecerdasan buatan pekerjaan akan terus mendapat permintaan seiring dengan kemajuan teknologi.

Calon yang mengemas kini pengetahuan mereka tentang teknologi canggih ini dan meningkatkan set kemahiran mereka boleh mencari pelbagai jenis peluang pekerjaan dengan gaji yang kompetitif.

Anda boleh meneruskan dengan menjawab temu duga sekarang kerana anda mempunyai pemahaman yang kukuh tentang cara menjawab beberapa soalan temu duga pembelajaran mesin yang ditanya secara meluas.

Bergantung pada matlamat anda, ambil langkah berikut. Sediakan untuk temu duga dengan melawat Hashdork's Siri Temu ramah.

40+ Soalan Temuduga Pembelajaran Mesin Teratas