ຄຳຖາມສໍາພາດການຮຽນຮູ້ເຄື່ອງຈັກ 40+ ອັນດັບຕົ້ນ (2024)

ສາລະບານ[ເຊື່ອງ][ສະແດງ]

1. ອະທິບາຍຄວາມແຕກຕ່າງລະຫວ່າງການຮຽນຮູ້ເຄື່ອງຈັກ, ປັນຍາປະດິດ, ແລະການຮຽນຮູ້ເລິກ.
2. ກະລຸນາອະທິບາຍປະເພດຕ່າງໆຂອງການຮຽນຮູ້ເຄື່ອງຈັກ.
3. ຄວາມລຳອຽງທຽບກັບຄວາມຜັນຜວນຂອງການຄ້າແມ່ນຫຍັງ?
4. ຂັ້ນຕອນການຮຽນຮູ້ຂອງເຄື່ອງຈັກໄດ້ພັດທະນາຢ່າງຫຼວງຫຼາຍຕາມການເວລາ. ຄົນເຮົາເລືອກວິທີທີ່ຖືກຕ້ອງເພື່ອໃຊ້ຊຸດຂໍ້ມູນແນວໃດ?
5. ຄວາມຜູກພັນ ແລະ ຄວາມສຳພັນແຕກຕ່າງກັນແນວໃດ?
6. ໃນການຮຽນຮູ້ເຄື່ອງຈັກ, clustering ຫມາຍຄວາມວ່າແນວໃດ?
7. ລະບົບການຮຽນຮູ້ເຄື່ອງຈັກທີ່ທ່ານຕ້ອງການແມ່ນຫຍັງ?
8. Linear Regression in Machine Learning: ມັນແມ່ນຫຍັງ?
9. ອະທິບາຍຄວາມແຕກຕ່າງລະຫວ່າງ KNN ແລະ k-means clustering.
10. “ຄວາມລຳອຽງທາງເລືອກ” ໝາຍຄວາມວ່າແນວໃດສຳລັບເຈົ້າ?
11. ທິດສະດີ Bayes ແມ່ນຫຍັງແທ້?
12. ໃນຮູບແບບການຮຽນຮູ້ເຄື່ອງຈັກ, 'ຊຸດການຝຶກອົບຮົມ' ແລະ 'ຊຸດທົດສອບ' ແມ່ນຫຍັງ?
13. ສົມມຸດຕິຖານໃນການຮຽນຮູ້ເຄື່ອງຈັກແມ່ນຫຍັງ?
14. ການຮຽນຮູ້ເຄື່ອງຈັກເກີນຄວາມເໝາະສົມໝາຍເຖິງຫຍັງ ແລະສາມາດປ້ອງກັນໄດ້ແນວໃດ?
15. ຕົວຈັດປະເພດ Naive Bayes ແມ່ນຫຍັງແທ້?
16. ຫນ້າທີ່ຄ່າໃຊ້ຈ່າຍແລະຫນ້າທີ່ສູນເສຍຫມາຍຄວາມວ່າແນວໃດ?
17. ຮູບແບບການຈໍາແນກອັນໃດທີ່ແຕກຕ່າງຈາກຮູບແບບການຈໍາແນກ?
18. ອະທິບາຍການປ່ຽນແປງລະຫວ່າງຄວາມຜິດພາດປະເພດ I ແລະ Type II.
19. ໃນການຮຽນຮູ້ເຄື່ອງຈັກ, ເຕັກນິກການຮຽນຮູ້ຂອງ Ensemble ແມ່ນຫຍັງ?
20. ຕົວແບບພາລາມິເຕີແມ່ນຫຍັງແທ້? ໃຫ້ຕົວຢ່າງ.
21. ອະທິບາຍການກັ່ນຕອງຮ່ວມມື. ເຊັ່ນດຽວກັນກັບການກັ່ນຕອງເນື້ອຫາ?
22. ເຈົ້າໝາຍເຖິງຫຍັງແທ້ໂດຍຊຸດເວລາ?
23. ອະທິບາຍການປ່ຽນແປງລະຫວ່າງ algorithms ການ Boosting Gradient ແລະ Random Forest.
24. ເປັນຫຍັງທ່ານຕ້ອງການມາຕຣິກເບື້ອງສັບສົນ? ມັນແມ່ນຫຍັງ?
25. ການວິເຄາະອົງປະກອບຫຼັກການແມ່ນຫຍັງ?
26. ເປັນຫຍັງການຫມູນວຽນອົງປະກອບຈຶ່ງສໍາຄັນຕໍ່ PCA (ການວິເຄາະອົງປະກອບຫຼັກ)?
27. ການເຮັດໃຫ້ເປັນປົກກະຕິ ແລະ ປົກກະຕິແຕກຕ່າງກັນແນວໃດ?
28. ການປົກກະຕິ ແລະ ມາດຕະຖານຕ່າງຈາກກັນແນວໃດ?
29. "ປັດໄຈອັດຕາເງິນເຟີ້ທີ່ປ່ຽນແປງ" ຫມາຍຄວາມວ່າແນວໃດ?
30. ອີງຕາມຂະຫນາດຂອງຊຸດການຝຶກອົບຮົມ, ທ່ານຈະເລືອກເອົາປະເພດແນວໃດ?
31. ສູດການຄິດໄລ່ອັນໃດໃນການຮຽນຮູ້ຂອງເຄື່ອງຈັກເອີ້ນວ່າ “ຜູ້ຮຽນຂີ້ຄ້ານ” ແລະຍ້ອນຫຍັງ?
32. ເສັ້ນໂຄ້ງ ROC ແລະ AUC ແມ່ນຫຍັງ?
33. hyperparameters ແມ່ນຫຍັງ? ສິ່ງທີ່ເຮັດໃຫ້ພວກເຂົາເປັນເອກະລັກຈາກຕົວກໍານົດການຂອງຕົວແບບ?
34. F1 ຄະແນນ, ການເອີ້ນຄືນ, ແລະຄວາມແມ່ນຍໍາຫມາຍຄວາມວ່າແນວໃດ?
35. ການກວດສອບຂ້າມຜ່ານແມ່ນຫຍັງ?
36. ໃຫ້ເວົ້າວ່າທ່ານຄົ້ນພົບວ່າຕົວແບບຂອງທ່ານມີຄວາມແຕກຕ່າງກັນຢ່າງຫຼວງຫຼາຍ. ໃນຄວາມຄິດເຫັນຂອງທ່ານ, algorithm ໃດທີ່ເຫມາະສົມທີ່ສຸດເພື່ອຈັດການກັບສະຖານະການນີ້?
37. ຄວາມແຕກຕ່າງຂອງການຖົດຖອຍຂອງ Ridge ຈາກ Lasso regression ແມ່ນຫຍັງ?
38. ອັນໃດສໍາຄັນກວ່າ: ການປະຕິບັດຕົວແບບຫຼືຄວາມຖືກຕ້ອງຂອງຕົວແບບ? ອັນໃດ ແລະ ເປັນຫຍັງເຈົ້າຈຶ່ງມັກມັນ?
39. ເຈົ້າຈະຈັດການຊຸດຂໍ້ມູນທີ່ມີຄວາມບໍ່ສະເໝີພາບກັນແນວໃດ?
40. ເຈົ້າສາມາດແຍກແຍະລະຫວ່າງການຊຸກຍູ້ແລະການໃສ່ຖົງໄດ້ແນວໃດ?
41. ອະທິບາຍຄວາມແຕກຕ່າງລະຫວ່າງການຮຽນຮູ້ແບບ inductive ແລະ deductive.
ສະຫຼຸບ

ທຸລະກິດກໍາລັງນໍາໃຊ້ເຕັກໂນໂລຢີທີ່ກ້າວຫນ້າເຊັ່ນ: ປັນຍາປະດິດ (AI) ແລະການຮຽນຮູ້ເຄື່ອງຈັກ, ເພື່ອເພີ່ມການເຂົ້າເຖິງຂໍ້ມູນແລະການບໍລິການໃຫ້ກັບບຸກຄົນ.

ເທັກໂນໂລຍີເຫຼົ່ານີ້ໄດ້ຖືກຮັບຮອງເອົາໂດຍຫຼາຍໆອຸດສາຫະກໍາ, ລວມທັງການທະນາຄານ, ການເງິນ, ການຂາຍຍ່ອຍ, ການຜະລິດ, ແລະການດູແລສຸຂະພາບ.

ຫນຶ່ງໃນບົດບາດຂອງອົງການຈັດຕັ້ງທີ່ຊອກຫາຫຼາຍທີ່ສຸດທີ່ໃຊ້ AI ແມ່ນສໍາລັບນັກວິທະຍາສາດຂໍ້ມູນ, ວິສະວະກອນປັນຍາປະດິດ, ວິສະວະກອນການຮຽນຮູ້ເຄື່ອງຈັກ, ແລະນັກວິເຄາະຂໍ້ມູນ.

ຕອບນີ້ຈະນໍາທ່ານຜ່ານຄວາມຫລາກຫລາຍຂອງ ການຮຽນຮູ້ເຄື່ອງຈັກ ຄໍາຖາມສໍາພາດ, ຈາກພື້ນຖານເຖິງສະລັບສັບຊ້ອນ, ເພື່ອຊ່ວຍໃຫ້ທ່ານໄດ້ຮັບຄວາມພ້ອມສໍາລັບຄໍາຖາມທີ່ທ່ານສາມາດຖືກຖາມໃນເວລາທີ່ຊອກຫາວຽກເຮັດງານທໍາທີ່ເຫມາະສົມຂອງທ່ານ.

1. ອະທິບາຍຄວາມແຕກຕ່າງລະຫວ່າງການຮຽນຮູ້ເຄື່ອງຈັກ, ປັນຍາປະດິດ, ແລະການຮຽນຮູ້ເລິກ.

ປັນຍາທຽມໃຊ້ວິທີການຮຽນຮູ້ເຄື່ອງຈັກ ແລະການຮຽນຮູ້ເລິກຫຼາຍອັນທີ່ຊ່ວຍໃຫ້ລະບົບຄອມພິວເຕີສາມາດປະຕິບັດວຽກງານຕ່າງໆໂດຍໃຊ້ປັນຍາທີ່ຄ້າຍຄືກັບມະນຸດດ້ວຍເຫດຜົນ ແລະກົດລະບຽບ.

ການຮຽນຮູ້ຂອງເຄື່ອງຈັກໃຊ້ສະຖິຕິທີ່ຫຼາກຫຼາຍ ແລະວິທີການຮຽນຮູ້ແບບເລິກລັບເພື່ອເຮັດໃຫ້ເຄື່ອງຈັກສາມາດຮຽນຮູ້ຈາກການປະຕິບັດກ່ອນໜ້າຂອງເຂົາເຈົ້າ ແລະ ມີຄວາມຊຳນານຫຼາຍຂຶ້ນໃນການເຮັດໜ້າທີ່ໃດໜຶ່ງດ້ວຍຕົນເອງໂດຍບໍ່ມີການຄວບຄຸມຈາກມະນຸດ.

ການຮຽນຮູ້ເລິກແມ່ນຊຸດຂອງລະບົບສູດການຄິດໄລ່ທີ່ຊ່ວຍໃຫ້ຊອບແວຮຽນຮູ້ຈາກຕົວມັນເອງແລະປະຕິບັດຫນ້າທີ່ທາງການຄ້າທີ່ຫລາກຫລາຍເຊັ່ນ: ການຮັບຮູ້ສຽງແລະຮູບພາບ.

ລະບົບທີ່ເປີດເຜີຍ multilayered ຂອງເຂົາເຈົ້າ ເຄືອຂ່າຍ neural ຂໍ້ມູນຈໍານວນຫຼວງຫຼາຍສໍາລັບການຮຽນຮູ້ແມ່ນສາມາດເຮັດການຮຽນຮູ້ເລິກ.

2. ກະລຸນາອະທິບາຍປະເພດຕ່າງໆຂອງການຮຽນຮູ້ເຄື່ອງຈັກ.

ການຮຽນຮູ້ເຄື່ອງຈັກມີຢູ່ໃນສາມປະເພດທີ່ແຕກຕ່າງກັນຢ່າງກວ້າງຂວາງ:

ການຮຽນຮູ້ແບບມີການຄວບຄຸມເບິ່ງແຍງ: ແບບຈໍາລອງສ້າງການຄາດເດົາ ຫຼືການຕັດສິນໂດຍໃຊ້ຂໍ້ມູນທີ່ມີປ້າຍກຳກັບ ຫຼືຂໍ້ມູນປະຫວັດສາດໃນການຮຽນຮູ້ຂອງເຄື່ອງຈັກທີ່ມີການເບິ່ງແຍງ. ຊຸດຂໍ້ມູນທີ່ໄດ້ຖືກແທັກຫຼືຕິດສະຫຼາກເພື່ອເພີ່ມຄວາມ ໝາຍ ຂອງມັນຖືກເອີ້ນວ່າຂໍ້ມູນທີ່ຕິດສະຫຼາກ.
ການຮຽນຮູ້ແບບບໍ່ມີການຄວບຄຸມເບິ່ງແຍງ: ພວກເຮົາບໍ່ມີຂໍ້ມູນທີ່ມີປ້າຍກຳກັບສຳລັບການຮຽນຮູ້ທີ່ບໍ່ມີການເບິ່ງແຍງກວດກາ. ໃນຂໍ້ມູນຂາເຂົ້າ, ແບບຈໍາລອງສາມາດຊອກຫາຮູບແບບ, ຄວາມແປກປະຫລາດ, ແລະຄວາມກ່ຽວຂ້ອງກັນ.
ການຮຽນຮູ້ເສີມ: ຮູບແບບສາມາດ ຮຽນຮູ້ໂດຍການນໍາໃຊ້ເສີມ ການຮຽນຮູ້ແລະລາງວັນທີ່ມັນໄດ້ຮັບສໍາລັບພຶດຕິກໍາທີ່ຜ່ານມາ.

3. ຄວາມລຳອຽງທຽບກັບຄວາມຜັນຜວນຂອງການຄ້າແມ່ນຫຍັງ?

Overfitting ແມ່ນຜົນມາຈາກຄວາມລໍາອຽງ, ເຊິ່ງແມ່ນລະດັບທີ່ຕົວແບບທີ່ເຫມາະສົມກັບຂໍ້ມູນ. ອະຄະຕິແມ່ນເກີດມາຈາກການສົມມຸດຕິຖານທີ່ບໍ່ຖືກຕ້ອງຫຼືງ່າຍດາຍເກີນໄປໃນຂອງທ່ານ ບົບການຮຽນຮູ້ເຄື່ອງຈັກ.

ຄວາມແຕກຕ່າງຫມາຍເຖິງຄວາມຜິດພາດທີ່ເກີດຈາກຄວາມສັບສົນໃນ ML algorithm ຂອງທ່ານ, ເຊິ່ງເຮັດໃຫ້ເກີດຄວາມອ່ອນໄຫວຕໍ່ກັບຄວາມແຕກຕ່າງກັນຢ່າງຫຼວງຫຼາຍໃນຂໍ້ມູນການຝຶກອົບຮົມແລະ overfitting.

ຄວາມແຕກຕ່າງແມ່ນຫຼາຍປານໃດທີ່ຕົວແບບແຕກຕ່າງກັນຂຶ້ນກັບວັດສະດຸປ້ອນ.

ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ຮູບແບບພື້ນຖານແມ່ນມີຄວາມລໍາອຽງທີ່ສຸດແຕ່ມີຄວາມຫມັ້ນຄົງ (ຄວາມແຕກຕ່າງກັນຕ່ໍາ). Overfitting ແມ່ນບັນຫາກັບຕົວແບບທີ່ສັບສົນ, ເຖິງແມ່ນວ່າພວກເຂົາຍັງຈັບພາບຄວາມເປັນຈິງຂອງຕົວແບບ (ຄວາມລໍາອຽງຕ່ໍາ).

ເພື່ອປ້ອງກັນບໍ່ໃຫ້ທັງສອງມີການປ່ຽນແປງສູງແລະຄວາມລໍາອຽງສູງ, ການຄ້າລະຫວ່າງຄວາມລໍາອຽງແລະຄວາມແຕກຕ່າງກັນແມ່ນມີຄວາມຈໍາເປັນສໍາລັບການຫຼຸດຜ່ອນຄວາມຜິດພາດທີ່ດີທີ່ສຸດ.

4. ຂັ້ນຕອນການຮຽນຮູ້ຂອງເຄື່ອງຈັກໄດ້ພັດທະນາຢ່າງຫຼວງຫຼາຍຕາມການເວລາ. ຄົນເຮົາເລືອກວິທີທີ່ຖືກຕ້ອງເພື່ອໃຊ້ຊຸດຂໍ້ມູນແນວໃດ?

ເຕັກນິກການຮຽນຮູ້ເຄື່ອງຈັກທີ່ຄວນຈະຖືກນໍາໃຊ້ພຽງແຕ່ຂຶ້ນກັບປະເພດຂອງຂໍ້ມູນໃນຊຸດຂໍ້ມູນສະເພາະ.

ເມື່ອຂໍ້ມູນເປັນເສັ້ນ, ການຖົດຖອຍເສັ້ນແມ່ນໃຊ້. ວິທີການກະເປົ໋າຈະປະຕິບັດໄດ້ດີກວ່າຖ້າຂໍ້ມູນຊີ້ໃຫ້ເຫັນເຖິງຄວາມບໍ່ເປັນເສັ້ນ. ພວກເຮົາສາມາດນໍາໃຊ້ຕົ້ນໄມ້ການຕັດສິນໃຈຫຼື SVM ຖ້າຂໍ້ມູນຕ້ອງໄດ້ຮັບການປະເມີນຫຼືຕີຄວາມຫມາຍສໍາລັບຈຸດປະສົງທາງການຄ້າ.

ເຄືອຂ່າຍ neural ອາດຈະເປັນປະໂຫຍດທີ່ຈະໄດ້ຮັບຄໍາຕອບທີ່ຖືກຕ້ອງຖ້າຫາກວ່າຊຸດຂໍ້ມູນປະກອບມີຮູບພາບ, ວິດີໂອ, ແລະສຽງ.

ທາງເລືອກຂອງສູດການຄິດໄລ່ສໍາລັບສະຖານະການສະເພາະໃດຫນຶ່ງຫຼືການເກັບກໍາຂໍ້ມູນບໍ່ສາມາດເຮັດໄດ້ພຽງແຕ່ໃນມາດຕະການດຽວ.

ສໍາລັບຈຸດປະສົງຂອງການພັດທະນາວິທີການທີ່ເຫມາະສົມທີ່ດີທີ່ສຸດ, ພວກເຮົາທໍາອິດຕ້ອງໄດ້ກວດກາຂໍ້ມູນໂດຍໃຊ້ການວິເຄາະຂໍ້ມູນການສໍາຫຼວດ (EDA) ແລະເຂົ້າໃຈເປົ້າຫມາຍຂອງການນໍາໃຊ້ຊຸດຂໍ້ມູນ.

5. ຄວາມຜູກພັນ ແລະ ຄວາມສຳພັນແຕກຕ່າງກັນແນວໃດ?

Covariance ປະເມີນວ່າຕົວແປສອງຕົວເຊື່ອມຕໍ່ກັນແນວໃດ ແລະວິທີໜຶ່ງອາດຈະປ່ຽນແປງໃນການຕອບສະໜອງຕໍ່ການປ່ຽນແປງໃນອີກອັນໜຶ່ງ.

ຖ້າຜົນໄດ້ຮັບເປັນບວກ, ມັນຊີ້ໃຫ້ເຫັນວ່າມີການເຊື່ອມໂຍງໂດຍກົງລະຫວ່າງຕົວແປແລະຫນຶ່ງຈະເພີ່ມຂຶ້ນຫຼືຫຼຸດລົງດ້ວຍການເພີ່ມຂຶ້ນຫຼືຫຼຸດລົງຂອງຕົວແປພື້ນຖານ, ສົມມຸດວ່າເງື່ອນໄຂອື່ນໆທັງຫມົດຄົງທີ່.

Correlation ວັດແທກການເຊື່ອມຕໍ່ລະຫວ່າງສອງຕົວແປແບບສຸ່ມແລະມີພຽງແຕ່ສາມຄ່າທີ່ແຕກຕ່າງກັນ: 1, 0, ແລະ -1.

6. ໃນການຮຽນຮູ້ເຄື່ອງຈັກ, clustering ຫມາຍຄວາມວ່າແນວໃດ?

ວິທີການຮຽນຮູ້ແບບບໍ່ມີການຄວບຄຸມທີ່ຈັດກຸ່ມຈຸດຂໍ້ມູນຮ່ວມກັນເອີ້ນວ່າກຸ່ມ. ດ້ວຍການເກັບກໍາຂໍ້ມູນຈຸດ, ເຕັກນິກການຈັດກຸ່ມສາມາດນໍາໃຊ້ໄດ້.

ທ່ານສາມາດຈັດກຸ່ມທັງຫມົດຂອງຈຸດຂໍ້ມູນຕາມຫນ້າທີ່ຂອງເຂົາເຈົ້າໂດຍນໍາໃຊ້ຍຸດທະສາດນີ້.

ລັກສະນະແລະຄຸນນະພາບຂອງຈຸດຂໍ້ມູນທີ່ຕົກຢູ່ໃນປະເພດດຽວກັນແມ່ນຄ້າຍຄືກັນ, ໃນຂະນະທີ່ຈຸດຂໍ້ມູນທີ່ຕົກຢູ່ໃນກຸ່ມແຍກຕ່າງຫາກແມ່ນແຕກຕ່າງກັນ.

ວິທີການນີ້ສາມາດຖືກນໍາໃຊ້ເພື່ອວິເຄາະຂໍ້ມູນສະຖິຕິ.

7. ລະບົບການຮຽນຮູ້ເຄື່ອງຈັກທີ່ທ່ານຕ້ອງການແມ່ນຫຍັງ?

ທ່ານມີໂອກາດທີ່ຈະສະແດງໃຫ້ເຫັນເຖິງຄວາມມັກແລະພອນສະຫວັນທີ່ເປັນເອກະລັກຂອງທ່ານໃນຄໍາຖາມນີ້, ເຊັ່ນດຽວກັນກັບຄວາມຮູ້ທີ່ສົມບູນແບບຂອງທ່ານກ່ຽວກັບເຕັກນິກການຮຽນຮູ້ເຄື່ອງຈັກຈໍານວນຫລາຍ.

ນີ້ແມ່ນວິທີການຮຽນຮູ້ເຄື່ອງຈັກທົ່ວໄປຈຳນວນໜຶ່ງທີ່ຈະຄິດກ່ຽວກັບ:

ການສືບສາຍຕາມເສັ້ນ
ການຖົດຖອຍ logistic
Bayes Naive
ຕົ້ນໄມ້ຕັດສິນໃຈ
K ໝາຍ ຄວາມວ່າ
ສູດການຄິດໄລ່ປ່າໄມ້ແບບສຸ່ມ
K-ໃກ້ຄຽງທີ່ສຸດ (KNN)

8. Linear Regression in Machine Learning: ມັນແມ່ນຫຍັງ?

ສູດການຄິດໄລ່ການຮຽນຮູ້ເຄື່ອງຈັກທີ່ມີການເບິ່ງແຍງແມ່ນການຖົດຖອຍແບບເສັ້ນ.

ມັນຖືກນໍາໃຊ້ໃນການວິເຄາະຄາດຄະເນເພື່ອກໍານົດການເຊື່ອມຕໍ່ເສັ້ນຊື່ລະຫວ່າງຕົວແປທີ່ຂຶ້ນກັບແລະເອກະລາດ.

ສົມຜົນການຖົດຖອຍເສັ້ນຊື່ມີດັ່ງນີ້:

Y = A + BX

ບ່ອນທີ່:

ຕົວແປ input ຫຼືເອກະລາດແມ່ນເອີ້ນວ່າ X.
ຕົວແປທີ່ຂຶ້ນກັບ ຫຼືຜົນຜະລິດແມ່ນ Y.
ຄ່າສໍາປະສິດຂອງ X ແມ່ນ b, ແລະການຂັດຂວາງຂອງມັນແມ່ນ a.

9. ອະທິບາຍຄວາມແຕກຕ່າງລະຫວ່າງ KNN ແລະ k-means clustering.

ຄວາມແຕກຕ່າງຕົ້ນຕໍແມ່ນວ່າ KNN (ວິທີການຈັດປະເພດ, ການຮຽນຮູ້ທີ່ມີການເບິ່ງແຍງ) ຕ້ອງການຈຸດທີ່ມີປ້າຍຊື່ໃນຂະນະທີ່ k-ຫມາຍຄວາມວ່າບໍ່ມີ (ວິທີການຈັດກຸ່ມ, ການຮຽນຮູ້ທີ່ບໍ່ມີການເບິ່ງແຍງ).

ທ່ານສາມາດຈັດປະເພດຂໍ້ມູນທີ່ຕິດສະຫຼາກເປັນຈຸດທີ່ບໍ່ມີປ້າຍກຳກັບໂດຍໃຊ້ K-Nearest Neighbors. K-means clustering ໃຊ້ໄລຍະຫ່າງສະເລ່ຍລະຫວ່າງຈຸດເພື່ອຮຽນຮູ້ວິທີຈັດກຸ່ມຈຸດທີ່ບໍ່ມີປ້າຍກຳກັບ.

10. “ຄວາມລຳອຽງທາງເລືອກ” ໝາຍຄວາມວ່າແນວໃດສຳລັບເຈົ້າ?

ຄວາມລຳອຽງໃນຂັ້ນຕອນການເກັບຕົວຢ່າງຂອງການທົດລອງແມ່ນເນື່ອງມາຈາກຄວາມບໍ່ຖືກຕ້ອງທາງສະຖິຕິ.

ກຸ່ມຕົວຢ່າງໜຶ່ງຖືກເລືອກເລື້ອຍໆກວ່າກຸ່ມອື່ນໃນການທົດລອງ ເນື່ອງຈາກຄວາມບໍ່ຖືກຕ້ອງ.

ຖ້າຄວາມລໍາອຽງຂອງການຄັດເລືອກບໍ່ໄດ້ຮັບການຍອມຮັບ, ມັນອາດຈະເຮັດໃຫ້ການສະຫລຸບທີ່ບໍ່ຖືກຕ້ອງ.

11. ທິດສະດີ Bayes ແມ່ນຫຍັງແທ້?

ເມື່ອພວກເຮົາຮູ້ເຖິງຄວາມເປັນໄປໄດ້ອື່ນໆ, ພວກເຮົາສາມາດກໍານົດຄວາມເປັນໄປໄດ້ໂດຍໃຊ້ Bayes' Theorem. ມັນສະຫນອງຄວາມເປັນໄປໄດ້ຫລັງຂອງການປະກົດຕົວໂດຍອີງໃສ່ຂໍ້ມູນກ່ອນ, ໃນຄໍາສັບຕ່າງໆອື່ນໆ.

ວິທີການທີ່ດີສໍາລັບການຄາດຄະເນຄວາມເປັນໄປໄດ້ຕາມເງື່ອນໄຂແມ່ນສະຫນອງໃຫ້ໂດຍທິດສະດີນີ້.

ໃນເວລາທີ່ການພັດທະນາການຈັດປະເພດການຄາດຄະເນບັນຫາຕົວແບບແລະການປັບຕົວແບບການຝຶກອົບຮົມ ຊຸດຂໍ້ມູນໃນການຮຽນຮູ້ເຄື່ອງຈັກ, Bayes' theorem ຖືກນໍາໃຊ້ (ເຊັ່ນ: Naive Bayes, Bayes Optimal Classifier).

12. ໃນຮູບແບບການຮຽນຮູ້ເຄື່ອງຈັກ, 'ຊຸດການຝຶກອົບຮົມ' ແລະ 'ຊຸດທົດສອບ' ແມ່ນຫຍັງ?

ຊຸດຝຶກອົບຮົມ:

ຊຸດຝຶກອົບຮົມປະກອບດ້ວຍຕົວຢ່າງທີ່ຖືກສົ່ງໄປຫາຕົວແບບສໍາລັບການວິເຄາະແລະການຮຽນຮູ້.
ນີ້ແມ່ນຂໍ້ມູນທີ່ຕິດສະຫຼາກທີ່ຈະນໍາໃຊ້ເພື່ອຝຶກອົບຮົມຕົວແບບ.
ໂດຍປົກກະຕິ, 70% ຂອງຂໍ້ມູນທັງໝົດແມ່ນໃຊ້ເປັນຊຸດຂໍ້ມູນການຝຶກອົບຮົມ.

ຊຸດທົດສອບ:

ຊຸດທົດສອບແມ່ນໃຊ້ເພື່ອປະເມີນຄວາມຖືກຕ້ອງຂອງການສ້າງສົມມຸດຕິຖານຂອງຕົວແບບ.
ພວກເຮົາທົດສອບໂດຍບໍ່ມີຂໍ້ມູນທີ່ມີປ້າຍຊື່ແລະຫຼັງຈາກນັ້ນໃຊ້ປ້າຍຊື່ເພື່ອຢືນຢັນຜົນໄດ້ຮັບ.
ສ່ວນທີ່ຍັງເຫຼືອ 30% ແມ່ນໃຊ້ເປັນຊຸດຂໍ້ມູນການທົດສອບ.

13. ສົມມຸດຕິຖານໃນການຮຽນຮູ້ເຄື່ອງຈັກແມ່ນຫຍັງ?

ການຮຽນຮູ້ເຄື່ອງຈັກເຮັດໃຫ້ການນຳໃຊ້ຊຸດຂໍ້ມູນທີ່ມີຢູ່ເພື່ອເຂົ້າໃຈຟັງຊັນທີ່ໃຫ້ໄວ້ທີ່ເຊື່ອມຕໍ່ການປ້ອນຂໍ້ມູນກັບຜົນຜະລິດໄດ້ດີຂຶ້ນ. ອັນນີ້ເອີ້ນວ່າ function approximation.

ໃນກໍລະນີນີ້, ການປະມານການຕ້ອງໄດ້ຮັບການຈ້າງງານສໍາລັບຫນ້າທີ່ເປົ້າຫມາຍທີ່ບໍ່ຮູ້ຈັກເພື່ອໂອນການສັງເກດການ conceivable ທັງຫມົດໂດຍອີງໃສ່ສະຖານະການທີ່ກໍານົດໄວ້ໃນວິທີທີ່ດີທີ່ສຸດທີ່ເປັນໄປໄດ້.

ໃນການຮຽນຮູ້ຂອງເຄື່ອງຈັກ, ການສົມມຸດຕິຖານແມ່ນຕົວແບບທີ່ຊ່ວຍໃນການປະເມີນຫນ້າທີ່ເປົ້າຫມາຍແລະສໍາເລັດການສ້າງແຜນທີ່ວັດສະດຸປ້ອນຫາຜົນໄດ້ຮັບທີ່ເຫມາະສົມ.

ການຄັດເລືອກແລະການອອກແບບຂອງ algorithms ອະນຸຍາດໃຫ້ສໍາລັບຄໍານິຍາມຂອງຊ່ອງຂອງ hypotheses ທີ່ເປັນໄປໄດ້ທີ່ສາມາດເປັນຕົວແທນໂດຍຕົວແບບ.

ສໍາລັບສົມມຸດຕິຖານອັນດຽວ, ຕົວພິມນ້ອຍ h (h) ແມ່ນໃຊ້, ແຕ່ຕົວພິມໃຫຍ່ h (H) ແມ່ນໃຊ້ສໍາລັບພື້ນທີ່ສົມມຸດຕິຖານທັງຫມົດທີ່ຖືກຄົ້ນຫາ. ພວກເຮົາຈະທົບທວນໂດຍຫຍໍ້ກ່ຽວກັບບັນທຶກເຫຼົ່ານີ້:

ສົມມຸດຕິຖານ (h) ເປັນຕົວແບບສະເພາະທີ່ອໍານວຍຄວາມສະດວກໃນການສ້າງແຜນທີ່ຂອງວັດສະດຸປ້ອນໄປຫາຜົນຜະລິດ, ເຊິ່ງຕໍ່ມາສາມາດຖືກນໍາໃຊ້ສໍາລັບການປະເມີນຜົນແລະການຄາດຄະເນ.
ຊຸດສົມມຸດຕິຖານ (H) ແມ່ນພື້ນທີ່ທີ່ສາມາດຄົ້ນຫາໄດ້ຂອງສົມມຸດຕິຖານທີ່ສາມາດຖືກນໍາໃຊ້ເພື່ອແຜນທີ່ວັດສະດຸປ້ອນກັບຜົນໄດ້ຮັບ. ກອບບັນຫາ, ແບບຈໍາລອງ, ແລະການຕັ້ງຄ່າແບບຈໍາລອງແມ່ນບາງຕົວຢ່າງຂອງຂໍ້ຈໍາກັດທົ່ວໄປ.

14. ການຮຽນຮູ້ເຄື່ອງຈັກເກີນຄວາມເໝາະສົມໝາຍເຖິງຫຍັງ ແລະສາມາດປ້ອງກັນໄດ້ແນວໃດ?

ເມື່ອເຄື່ອງຈັກພະຍາຍາມຮຽນຮູ້ຈາກຊຸດຂໍ້ມູນທີ່ບໍ່ພຽງພໍ, ການໃສ່ເກີນຈະເກີດຂຶ້ນ.

ດັ່ງນັ້ນ, overfitting ແມ່ນກົງກັນຂ້າມກັບປະລິມານຂໍ້ມູນ. ວິທີການກວດສອບຄວາມຖືກຕ້ອງຂ້າມອະນຸຍາດໃຫ້ overfitting ເພື່ອຫຼີກເວັ້ນສໍາລັບຊຸດຂໍ້ມູນຂະຫນາດນ້ອຍ. ຊຸດຂໍ້ມູນຖືກແບ່ງອອກເປັນສອງສ່ວນໃນວິທີການນີ້.

ຊຸດຂໍ້ມູນສໍາລັບການທົດສອບແລະການຝຶກອົບຮົມຈະປະກອບດ້ວຍສອງສ່ວນນີ້. ຊຸດຂໍ້ມູນການຝຶກອົບຮົມແມ່ນໃຊ້ເພື່ອສ້າງຕົວແບບ, ໃນຂະນະທີ່ຊຸດຂໍ້ມູນການທົດສອບຖືກນໍາໃຊ້ເພື່ອປະເມີນຕົວແບບໂດຍໃຊ້ວັດສະດຸປ້ອນທີ່ແຕກຕ່າງກັນ.

ນີ້ແມ່ນວິທີການປ້ອງກັນ overfitting.

15. ຕົວຈັດປະເພດ Naive Bayes ແມ່ນຫຍັງແທ້?

ວິທີການຈັດປະເພດຕ່າງໆປະກອບເປັນຕົວຈັດປະເພດ Naive Bayes. ຊຸດຂອງສູດການຄິດໄລ່ທີ່ເອີ້ນວ່າຕົວຈັດປະເພດເຫຼົ່ານີ້ທັງຫມົດເຮັດວຽກຢູ່ໃນແນວຄວາມຄິດພື້ນຖານດຽວກັນ.

ການສົມມຸດຕິຖານທີ່ເຮັດໂດຍນັກຈັດປະເພດ Bayes naive ແມ່ນວ່າລັກສະນະຫນຶ່ງຫຼືບໍ່ມີຕົວຕົນບໍ່ມີຜົນຕໍ່ການມີຫຼືບໍ່ມີຄຸນສົມບັດອື່ນ.

ເວົ້າອີກຢ່າງ ໜຶ່ງ, ນີ້ແມ່ນສິ່ງທີ່ພວກເຮົາເອີ້ນວ່າ "ໂງ່" ເພາະວ່າມັນເຮັດໃຫ້ສົມມຸດຕິຖານວ່າຄຸນລັກສະນະຂອງຊຸດຂໍ້ມູນແຕ່ລະຄົນມີຄວາມ ສຳ ຄັນເທົ່າທຽມກັນແລະເປັນເອກະລາດ.

ການຈັດປະເພດແມ່ນເຮັດໂດຍໃຊ້ຕົວຈັດປະເພດ Bayes naive. ພວກເຂົາເຈົ້າແມ່ນງ່າຍດາຍທີ່ຈະນໍາໃຊ້ແລະໃຫ້ຜົນໄດ້ຮັບທີ່ດີກວ່າການຄາດເດົາທີ່ສັບສົນຫຼາຍໃນເວລາທີ່ສະຖານທີ່ເອກະລາດແມ່ນຄວາມຈິງ.

ໃນການວິເຄາະຂໍ້ຄວາມ, ການກັ່ນຕອງຂີ້ເຫຍື້ອ, ແລະລະບົບການແນະນໍາ, ເຂົາເຈົ້າໄດ້ຖືກຈ້າງງານ.

16. ຫນ້າທີ່ຄ່າໃຊ້ຈ່າຍແລະຫນ້າທີ່ສູນເສຍຫມາຍຄວາມວ່າແນວໃດ?

ຄໍາວ່າ "ການສູນເສຍຫນ້າທີ່" ຫມາຍເຖິງຂະບວນການຂອງການສູນເສຍຄອມພິວເຕີ້ໃນເວລາທີ່ພຽງແຕ່ສ່ວນຫນຶ່ງຂອງຂໍ້ມູນຖືກພິຈາລະນາ.

ໃນທາງກົງກັນຂ້າມ, ພວກເຮົາໃຊ້ຫນ້າທີ່ຄ່າໃຊ້ຈ່າຍເພື່ອກໍານົດຈໍານວນຄວາມຜິດພາດທັງຫມົດສໍາລັບຂໍ້ມູນຈໍານວນຫລາຍ. ບໍ່ມີຄວາມແຕກຕ່າງທີ່ສໍາຄັນ.

ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ໃນຂະນະທີ່ຫນ້າທີ່ຄ່າໃຊ້ຈ່າຍລວມຄວາມແຕກຕ່າງສໍາລັບຊຸດຂໍ້ມູນການຝຶກອົບຮົມທັງຫມົດ, ຫນ້າທີ່ສູນເສຍໄດ້ຖືກອອກແບບເພື່ອເກັບກໍາຄວາມແຕກຕ່າງລະຫວ່າງມູນຄ່າຕົວຈິງແລະການຄາດຄະເນສໍາລັບບັນທຶກດຽວ.

17. ຮູບແບບການຈໍາແນກອັນໃດທີ່ແຕກຕ່າງຈາກຮູບແບບການຈໍາແນກ?

ຮູບແບບຈໍາແນກຮຽນຮູ້ຄວາມແຕກຕ່າງລະຫວ່າງຫຼາຍປະເພດຂໍ້ມູນ. ຮູບແບບການຜະລິດຈະເລືອກເອົາປະເພດຂໍ້ມູນທີ່ແຕກຕ່າງກັນ.

ກ່ຽວກັບບັນຫາການຈັດປະເພດ, ແບບຈໍາແນກຈໍາແນກມັກຈະປະຕິບັດຕົວແບບອື່ນ.

18. ອະທິບາຍການປ່ຽນແປງລະຫວ່າງຄວາມຜິດພາດປະເພດ I ແລະ Type II.

ບວກທີ່ບໍ່ຖືກຕ້ອງຕົກຢູ່ໃນປະເພດຂອງຄວາມຜິດພາດປະເພດ I, ໃນຂະນະທີ່ຜົນລົບທີ່ບໍ່ຖືກຕ້ອງແມ່ນຢູ່ພາຍໃຕ້ຄວາມຜິດພາດປະເພດ II (ການອ້າງວ່າບໍ່ມີຫຍັງເກີດຂຶ້ນເມື່ອມັນມີຕົວຈິງ).

19. ໃນການຮຽນຮູ້ເຄື່ອງຈັກ, ເຕັກນິກການຮຽນຮູ້ຂອງ Ensemble ແມ່ນຫຍັງ?

ເທັກນິກທີ່ເອີ້ນວ່າການຮຽນຮູ້ແບບກຸ່ມປະສົມກັບຕົວແບບການຮຽນຮູ້ເຄື່ອງຈັກຫຼາຍອັນເພື່ອຜະລິດແບບຈໍາລອງທີ່ມີພະລັງຫຼາຍຂຶ້ນ.

ຕົວແບບສາມາດປ່ຽນແປງໄດ້ດ້ວຍເຫດຜົນຕ່າງໆ. ສາເຫດຫຼາຍຢ່າງແມ່ນ:

ປະຊາກອນທີ່ຫຼາກຫຼາຍ
ສົມມຸດຕິຖານຕ່າງໆ
ວິທີການສ້າງແບບຈໍາລອງຕ່າງໆ

ພວກເຮົາຈະພົບບັນຫາໃນຂະນະທີ່ນໍາໃຊ້ຂໍ້ມູນການຝຶກອົບຮົມແລະການທົດສອບຂອງຕົວແບບ. ຄວາມລຳອຽງ, ຄວາມແຕກຕ່າງ, ແລະ ຄວາມຜິດພາດທີ່ບໍ່ສາມາດແກ້ໄຂໄດ້ແມ່ນເປັນໄປໄດ້ຂອງຄວາມຜິດພາດນີ້.

ໃນປັດຈຸບັນ, ພວກເຮົາເອີ້ນຄວາມສົມດູນລະຫວ່າງຄວາມລໍາອຽງແລະຄວາມແຕກຕ່າງກັນໃນຮູບແບບການຄ້າ bias-variance, ແລະມັນຄວນຈະມີຢູ່ສະເຫມີ. ການແລກປ່ຽນນີ້ແມ່ນສໍາເລັດໂດຍຜ່ານການນໍາໃຊ້ການຮຽນຮູ້ຂອງກຸ່ມ.

ເຖິງແມ່ນວ່າມີວິທີການປະສົມປະສານຕ່າງໆທີ່ມີຢູ່, ມີສອງຍຸດທະສາດທົ່ວໄປສໍາລັບການລວມຕົວແບບຈໍານວນຫຼາຍ:

ວິທີການພື້ນເມືອງທີ່ເອີ້ນວ່າ bagging ໃຊ້ຊຸດຝຶກອົບຮົມເພື່ອຜະລິດຊຸດຝຶກອົບຮົມເພີ່ມເຕີມ.
ການຊຸກຍູ້, ເປັນເຕັກນິກທີ່ຊັບຊ້ອນກວ່າ: ຄືກັບການໃສ່ຖົງ, ການຊຸກຍູ້ແມ່ນໃຊ້ເພື່ອຊອກຫາສູດການຍົກນໍ້າໜັກທີ່ເໝາະສົມສຳລັບຊຸດຝຶກຊ້ອມ.

20. ຕົວແບບພາລາມິເຕີແມ່ນຫຍັງແທ້? ໃຫ້ຕົວຢ່າງ.

ມີຈໍານວນຈໍາກັດຂອງຕົວກໍານົດການຢູ່ໃນຕົວແບບພາລາມິເຕີ. ເພື່ອຄາດຄະເນຂໍ້ມູນ, ທັງຫມົດທີ່ທ່ານຈໍາເປັນຕ້ອງຮູ້ແມ່ນຕົວກໍານົດການຂອງຕົວແບບ.

ຕໍ່ໄປນີ້ແມ່ນຕົວຢ່າງປົກກະຕິ: logistic regression, linear regression, ແລະ linear SVMs. ຮູບແບບທີ່ບໍ່ແມ່ນຕົວກໍານົດການແມ່ນມີຄວາມຍືດຫຍຸ່ນເນື່ອງຈາກພວກເຂົາສາມາດບັນຈຸພາລາມິເຕີທີ່ບໍ່ຈໍາກັດຈໍານວນ.

ຕົວກໍານົດການຂອງຕົວແບບແລະສະຖານະຂອງຂໍ້ມູນທີ່ສັງເກດເຫັນແມ່ນຈໍາເປັນສໍາລັບການຄາດຄະເນຂໍ້ມູນ. ນີ້ແມ່ນບາງຕົວຢ່າງປົກກະຕິ: ຮູບແບບຫົວຂໍ້, ຕົ້ນໄມ້ການຕັດສິນໃຈ, ແລະ k-ເພື່ອນບ້ານໃກ້ຄຽງ.

21. ອະທິບາຍການກັ່ນຕອງຮ່ວມມື. ເຊັ່ນດຽວກັນກັບການກັ່ນຕອງເນື້ອຫາ?

ວິທີການທີ່ພະຍາຍາມແລະເປັນຄວາມຈິງສໍາລັບການສ້າງຄໍາແນະນໍາເນື້ອຫາທີ່ປັບແຕ່ງແມ່ນການກັ່ນຕອງຮ່ວມມື.

ຮູບແບບຂອງລະບົບການແນະນໍາທີ່ເອີ້ນວ່າການກັ່ນຕອງແບບຮ່ວມມືກັນບອກລ່ວງຫນ້າຂອງເນື້ອຫາສົດໆໂດຍການດຸ່ນດ່ຽງຄວາມມັກຂອງຜູ້ໃຊ້ກັບຄວາມສົນໃຈຮ່ວມກັນ.

ຄວາມມັກຂອງຜູ້ໃຊ້ແມ່ນສິ່ງດຽວທີ່ລະບົບຄໍາແນະນໍາທີ່ອີງໃສ່ເນື້ອຫາພິຈາລະນາ. ໃນແງ່ຂອງການເລືອກກ່ອນຂອງຜູ້ໃຊ້, ຄໍາແນະນໍາໃຫມ່ແມ່ນສະຫນອງໃຫ້ຈາກອຸປະກອນທີ່ກ່ຽວຂ້ອງ.

22. ເຈົ້າໝາຍເຖິງຫຍັງແທ້ໂດຍຊຸດເວລາ?

ຊຸດເວລາເປັນຊຸດຂອງຕົວເລກຕາມລໍາດັບ. ໃນໄລຍະເວລາທີ່ກໍານົດໄວ້, ມັນຕິດຕາມການເຄື່ອນໄຫວຂອງຈຸດຂໍ້ມູນທີ່ເລືອກແລະເກັບກໍາຂໍ້ມູນແຕ່ລະໄລຍະ.

ບໍ່ມີການປ້ອນຂໍ້ມູນເວລາຂັ້ນຕ່ຳ ຫຼືສູງສຸດສຳລັບຊຸດເວລາ.

ຊຸດເວລາຖືກນໍາໃຊ້ເລື້ອຍໆໂດຍນັກວິເຄາະເພື່ອວິເຄາະຂໍ້ມູນຕາມຄວາມຕ້ອງການທີ່ເປັນເອກະລັກຂອງພວກເຂົາ.

23. ອະທິບາຍການປ່ຽນແປງລະຫວ່າງ algorithms ການ Boosting Gradient ແລະ Random Forest.

ປ່າ Random:

ຕົ້ນໄມ້ຕັດສິນໃຈຈຳນວນຫຼວງຫຼາຍຖືກໂຮມເຂົ້າກັນໃນຕອນທ້າຍ ແລະ ເປັນທີ່ຮູ້ຈັກເປັນປ່າສຸ່ມ.
ໃນຂະນະທີ່ການເພີ່ມລະດັບສີເຮັດໃຫ້ຕົ້ນໄມ້ແຕ່ລະຕົ້ນເປັນເອກະລາດຈາກຕົ້ນອື່ນໆ, ປ່າໄມ້ແບບສຸ່ມກໍ່ສ້າງແຕ່ລະຕົ້ນຕໍ່ຄັ້ງ.
Multiclass ການຊອກຄົ້ນຫາວັດຖຸ ເຮັດວຽກໄດ້ດີກັບປ່າໄມ້ແບບສຸ່ມ.

Gradient Boosting:

ໃນຂະນະທີ່ປ່າໄມ້ Random ເຂົ້າຮ່ວມຕົ້ນໄມ້ຕັດສິນໃຈໃນຕອນທ້າຍຂອງຂະບວນການ, Gradient Boosting Machines ສົມທົບພວກມັນໃນຕອນເລີ່ມຕົ້ນ.
ຖ້າພາລາມິເຕີຖືກປັບໃຫ້ເໝາະສົມ, ການເພີ່ມລະດັບຄວາມຖີ່ຈະດີກວ່າປ່າສຸ່ມໃນແງ່ຂອງຜົນໄດ້ຮັບ, ແຕ່ມັນບໍ່ແມ່ນທາງເລືອກທີ່ສະຫຼາດຖ້າຊຸດຂໍ້ມູນມີຈຸດນອກຫຼາຍ, ຄວາມຜິດປົກກະຕິ, ຫຼືສຽງລົບກວນເນື່ອງຈາກມັນອາດເຮັດໃຫ້ຕົວແບບນັ້ນເກີນຄວາມເໝາະສົມ.
ເມື່ອມີຂໍ້ມູນທີ່ບໍ່ສົມດູນ, ຍ້ອນວ່າມີຢູ່ໃນການປະເມີນຄວາມສ່ຽງໃນເວລາທີ່ແທ້ຈິງ, ການຊຸກຍູ້ gradient ປະຕິບັດໄດ້ດີ.

24. ເປັນຫຍັງທ່ານຕ້ອງການມາຕຣິກເບື້ອງສັບສົນ? ມັນແມ່ນຫຍັງ?

ຕາຕະລາງທີ່ເອີ້ນວ່າ confusion matrix, ບາງຄັ້ງເອີ້ນວ່າ error matrix, ຖືກນໍາໃຊ້ຢ່າງກວ້າງຂວາງເພື່ອສະແດງໃຫ້ເຫັນວ່າຮູບແບບການຈັດປະເພດ, ຫຼືການຈັດປະເພດ, ປະຕິບັດໃນຊຸດຂໍ້ມູນການທົດສອບທີ່ຮູ້ຄຸນຄ່າທີ່ແທ້ຈິງ.

ມັນຊ່ວຍໃຫ້ພວກເຮົາເຫັນວ່າຕົວແບບ ຫຼື algorithm ເຮັດວຽກແນວໃດ. ມັນເຮັດໃຫ້ມັນງ່າຍດາຍສໍາລັບພວກເຮົາທີ່ຈະສັງເກດເຫັນຄວາມເຂົ້າໃຈຜິດໃນບັນດາວິຊາຕ່າງໆ.

ມັນເຮັດໜ້າທີ່ເປັນວິທີການປະເມີນວ່າຕົວແບບ ຫຼື algorithm ຖືກປະຕິບັດໄດ້ດີປານໃດ.

ການຄາດຄະເນຂອງຮູບແບບການຈັດປະເພດແມ່ນຖືກລວບລວມເຂົ້າໄປໃນຕາຕະລາງສັບສົນ. ຄ່ານັບຂອງປ້າຍກຳກັບແຕ່ລະຊັ້ນຖືກໃຊ້ເພື່ອແຍກຈຳນວນທັງໝົດຂອງການຄາດຄະເນທີ່ຖືກຕ້ອງ ແລະບໍ່ຖືກຕ້ອງ.

ມັນໃຫ້ລາຍລະອຽດກ່ຽວກັບຄວາມຜິດທີ່ເຮັດໂດຍຕົວຈັດປະເພດເຊັ່ນດຽວກັນກັບປະເພດຕ່າງໆຂອງຄວາມຜິດພາດທີ່ເກີດຈາກຕົວຈັດປະເພດ.

25. ການວິເຄາະອົງປະກອບຫຼັກການແມ່ນຫຍັງ?

ໂດຍການຫຼຸດຜ່ອນຈໍານວນຕົວແປທີ່ພົວພັນກັບກັນແລະກັນ, ເປົ້າຫມາຍແມ່ນເພື່ອຫຼຸດຜ່ອນຂະຫນາດຂອງການລວບລວມຂໍ້ມູນ. ແຕ່ມັນເປັນສິ່ງສໍາຄັນທີ່ຈະຮັກສາຄວາມຫຼາກຫຼາຍເທົ່າທີ່ເປັນໄປໄດ້.

ຕົວແປຖືກປ່ຽນເປັນຊຸດຕົວແປໃໝ່ທັງໝົດທີ່ເອີ້ນວ່າອົງປະກອບຫຼັກ.

PCs ເຫຼົ່ານີ້ແມ່ນເປັນຮູບທໍ່ກົມນັບຕັ້ງແຕ່ພວກມັນເປັນ eigenvectors ຂອງ matrix covariance.

26. ເປັນຫຍັງການຫມູນວຽນອົງປະກອບຈຶ່ງສໍາຄັນຕໍ່ PCA (ການວິເຄາະອົງປະກອບຫຼັກ)?

ການຫມຸນແມ່ນສໍາຄັນໃນ PCA ເພາະວ່າມັນເພີ່ມປະສິດທິພາບການແຍກຄວາມແຕກຕ່າງທີ່ໄດ້ຮັບໂດຍແຕ່ລະອົງປະກອບ, ເຮັດໃຫ້ການຕີຄວາມຫມາຍຂອງອົງປະກອບງ່າຍກວ່າ.

ພວກເຮົາຮຽກຮ້ອງໃຫ້ມີການຂະຫຍາຍອົງປະກອບເພື່ອສະແດງໃຫ້ເຫັນການປ່ຽນແປງອົງປະກອບຖ້າຫາກວ່າອົງປະກອບບໍ່ໄດ້ຫມຸນ.

27. ການເຮັດໃຫ້ເປັນປົກກະຕິ ແລະ ປົກກະຕິແຕກຕ່າງກັນແນວໃດ?

ການເຮັດໃຫ້ປົກກະຕິ:

ຂໍ້ມູນຖືກປ່ຽນແປງໃນລະຫວ່າງການປົກກະຕິ. ທ່ານຄວນປັບຂໍ້ມູນໃຫ້ເປັນປົກກະຕິຖ້າມັນມີເກັດທີ່ມີຄວາມແຕກຕ່າງກັນຢ່າງຫຼວງຫຼາຍ, ໂດຍສະເພາະຈາກຕ່ໍາຫາສູງ. ປັບແຕ່ລະຖັນເພື່ອໃຫ້ສະຖິຕິພື້ນຖານເຂົ້າກັນໄດ້ທັງໝົດ.

ເພື່ອຮັບປະກັນວ່າບໍ່ມີການສູນເສຍຄວາມຊັດເຈນ, ນີ້ສາມາດເປັນປະໂຫຍດ. ການກວດສອບສັນຍານໃນຂະນະທີ່ບໍ່ສົນໃຈສິ່ງລົບກວນແມ່ນຫນຶ່ງໃນຈຸດປະສົງຂອງການຝຶກອົບຮົມແບບຈໍາລອງ.

ມີໂອກາດ overfitting ຖ້າຕົວແບບໄດ້ຮັບການຄວບຄຸມຢ່າງສົມບູນເພື່ອຫຼຸດຜ່ອນຄວາມຜິດພາດ.

ປົກກະຕິ:

ໃນການເປັນປົກກະຕິ, ຫນ້າທີ່ຄາດຄະເນໄດ້ຖືກດັດແກ້. ນີ້ແມ່ນຂຶ້ນກັບການຄວບຄຸມບາງຢ່າງໂດຍຜ່ານການປົກກະຕິ, ເຊິ່ງເຮັດໃຫ້ການທໍາງານທີ່ເຫມາະສົມທີ່ງ່າຍດາຍກວ່າທີ່ສັບສົນ.

28. ການປົກກະຕິ ແລະ ມາດຕະຖານຕ່າງຈາກກັນແນວໃດ?

ສອງເຕັກນິກທີ່ໃຊ້ກັນຢ່າງກວ້າງຂວາງທີ່ສຸດສໍາລັບການປັບຂະ ໜາດ ຄຸນສົມບັດແມ່ນການປົກກະຕິແລະມາດຕະຖານ.

ການເຮັດໃຫ້ປົກກະຕິ:

ການປັບຂະໜາດຂໍ້ມູນໃຫ້ເໝາະສົມກັບໄລຍະ [0,1] ເອີ້ນວ່າການເຮັດໃຫ້ເປັນປົກກະຕິ.
ເມື່ອຕົວກໍານົດການທັງຫມົດຕ້ອງມີຂະຫນາດບວກດຽວກັນ, ການປົກກະຕິແມ່ນເປັນປະໂຫຍດ, ແຕ່ outliers ຂອງຊຸດຂໍ້ມູນຈະສູນເສຍໄປ.

ປົກກະຕິ:

ຂໍ້ມູນຖືກປັບຂະໜາດໃຫ້ມີຄວາມໝາຍເປັນ 0 ແລະຄ່າບ່ຽງເບນມາດຕະຖານຂອງ 1 ເປັນສ່ວນໜຶ່ງຂອງຂະບວນການສ້າງມາດຕະຖານ (ຄວາມແຕກຕ່າງກັນຂອງຫົວໜ່ວຍ)

29. "ປັດໄຈອັດຕາເງິນເຟີ້ທີ່ປ່ຽນແປງ" ຫມາຍຄວາມວ່າແນວໃດ?

ອັດຕາສ່ວນຂອງການປ່ຽນແປງຂອງຕົວແບບຕໍ່ກັບຄວາມຜັນຜວນຂອງຕົວແບບທີ່ມີຕົວແປເອກະລາດອັນດຽວແມ່ນເປັນທີ່ຮູ້ຈັກເປັນປັດໄຈອັດຕາເງິນເຟີ້ການປ່ຽນແປງ (VIF).

VIF ຄາດຄະເນປະລິມານຂອງ multicollinearity ທີ່ມີຢູ່ໃນຊຸດຂອງຕົວແປ regression ຫຼາຍຊຸດ.

ຄວາມຜັນຜວນຂອງຕົວແບບ (VIF) ແບບມີຕົວແປແບບເອກະລາດໜຶ່ງຕົວແປ

30. ອີງຕາມຂະຫນາດຂອງຊຸດການຝຶກອົບຮົມ, ທ່ານຈະເລືອກເອົາປະເພດແນວໃດ?

ຮູບແບບທີ່ມີອະຄະຕິສູງ, ຄວາມແຕກຕ່າງທີ່ຕໍ່າຈະປະຕິບັດໄດ້ດີກວ່າຊຸດຝຶກຊ້ອມສັ້ນ ເນື່ອງຈາກການໃສ່ຕົວເກີນແມ່ນເປັນໄປໄດ້ໜ້ອຍກວ່າ. Naive Bayes ແມ່ນຕົວຢ່າງຫນຶ່ງ.

ເພື່ອເປັນຕົວແທນຂອງການໂຕ້ຕອບທີ່ສັບສົນຫຼາຍສໍາລັບຊຸດການຝຶກອົບຮົມຂະຫນາດໃຫຍ່, ຮູບແບບທີ່ມີຄວາມລໍາອຽງຕ່ໍາແລະຄວາມແຕກຕ່າງກັນສູງແມ່ນເຫມາະສົມ. Logistic regression ເປັນຕົວຢ່າງທີ່ດີ.

31. ສູດການຄິດໄລ່ອັນໃດໃນການຮຽນຮູ້ຂອງເຄື່ອງຈັກເອີ້ນວ່າ “ຜູ້ຮຽນຂີ້ຄ້ານ” ແລະຍ້ອນຫຍັງ?

ນັກຮຽນທີ່ຂີ້ຄ້ານ, KNN ແມ່ນລະບົບການຮຽນຮູ້ເຄື່ອງຈັກ. ເນື່ອງຈາກວ່າ K-NN ໄດນາມິກການຄິດໄລ່ໄລຍະທາງໃນແຕ່ລະຄັ້ງທີ່ມັນຕ້ອງການຈັດປະເພດແທນທີ່ຈະຮຽນຮູ້ຄ່າຫຼືຕົວແປທີ່ເຄື່ອງຈັກຮຽນຮູ້ຈາກຂໍ້ມູນການຝຶກອົບຮົມ, ມັນຈື່ຈໍາຊຸດຂໍ້ມູນການຝຶກອົບຮົມ.

ອັນນີ້ເຮັດໃຫ້ K-NN ເປັນຄົນຂີ້ຄ້ານຮຽນ.

32. ເສັ້ນໂຄ້ງ ROC ແລະ AUC ແມ່ນຫຍັງ?

ການປະຕິບັດຂອງຮູບແບບການຈັດປະເພດຢູ່ໃນທຸກເກນແມ່ນສະແດງເປັນຮູບແຕ້ມໂດຍເສັ້ນໂຄ້ງ ROC. ມັນມີອັດຕາທາງບວກທີ່ແທ້ຈິງແລະມາດຕະຖານອັດຕາທາງບວກຜິດ.

ເວົ້າງ່າຍໆ, ພື້ນທີ່ພາຍໃຕ້ເສັ້ນໂຄ້ງ ROC ຖືກເອີ້ນວ່າ AUC (ພື້ນທີ່ພາຍໃຕ້ເສັ້ນໂຄ້ງ ROC). ພື້ນທີ່ສອງມິຕິຂອງເສັ້ນໂຄ້ງ ROC ຈາກ (0,0) ຫາ AUC ແມ່ນການວັດແທກ (1,1). ສໍາລັບການປະເມີນຮູບແບບການຈັດປະເພດສອງ, ມັນແມ່ນການຈ້າງງານເປັນສະຖິຕິການປະຕິບັດ.

33. hyperparameters ແມ່ນຫຍັງ? ສິ່ງທີ່ເຮັດໃຫ້ພວກເຂົາເປັນເອກະລັກຈາກຕົວກໍານົດການຂອງຕົວແບບ?

ຕົວແປພາຍໃນຂອງຕົວແບບແມ່ນເປັນທີ່ຮູ້ຈັກເປັນຕົວກໍານົດການຂອງຕົວແບບ. ການນໍາໃຊ້ຂໍ້ມູນການຝຶກອົບຮົມ, ຄ່າຂອງພາລາມິເຕີແມ່ນປະມານ.

ບໍ່ຮູ້ຈັກກັບຕົວແບບ, hyperparameter ແມ່ນຕົວແປ. ມູນຄ່າບໍ່ສາມາດຖືກກໍານົດຈາກຂໍ້ມູນ, ດັ່ງນັ້ນພວກມັນຖືກໃຊ້ເລື້ອຍໆເພື່ອຄິດໄລ່ຕົວກໍານົດການແບບຈໍາລອງ.

34. F1 ຄະແນນ, ການເອີ້ນຄືນ, ແລະຄວາມແມ່ນຍໍາຫມາຍຄວາມວ່າແນວໃດ?

ມາດຕະການສັບສົນແມ່ນຕົວວັດແທກທີ່ໃຊ້ໃນການວັດແທກປະສິດທິພາບຂອງຮູບແບບການຈັດປະເພດ. ປະໂຫຍກຕໍ່ໄປນີ້ສາມາດໃຊ້ເພື່ອອະທິບາຍຕົວວັດແທກຄວາມສັບສົນໄດ້ດີຂຶ້ນ:

TP: ຄວາມຈິງໃນທາງບວກ - ນີ້ແມ່ນຄຸນຄ່າທາງບວກທີ່ຄາດວ່າຈະຖືກຕ້ອງ. ມັນຊີ້ໃຫ້ເຫັນວ່າຄ່າຂອງຊັ້ນຮຽນທີ່ຄາດຄະເນແລະຊັ້ນຮຽນຕົວຈິງແມ່ນທັງສອງບວກ.

TN: True Negatives- ເຫຼົ່ານີ້ແມ່ນຄ່າທາງລົບທີ່ຖືກຄາດຄະເນຢ່າງຖືກຕ້ອງ. ມັນຊີ້ໃຫ້ເຫັນວ່າທັງມູນຄ່າຂອງຊັ້ນຮຽນທີ່ແທ້ຈິງແລະຊັ້ນທີ່ຄາດວ່າຈະເປັນຄ່າລົບ.

ຄ່າເຫຼົ່ານີ້—ຄ່າບວກທີ່ບໍ່ຖືກຕ້ອງ ແລະຄ່າລົບທີ່ບໍ່ຖືກຕ້ອງ—ເກີດຂຶ້ນເມື່ອຫ້ອງຮຽນຕົວຈິງຂອງເຈົ້າແຕກຕ່າງຈາກຊັ້ນຮຽນທີ່ຄາດໄວ້.

ໃນປັດຈຸບັນ,

ອັດຕາສ່ວນຂອງອັດຕາທາງບວກທີ່ແທ້ຈິງ (TP) ການສັງເກດການທັງຫມົດທີ່ເຮັດໃນຫ້ອງຮຽນທີ່ແທ້ຈິງແມ່ນເອີ້ນວ່າ recall, ຍັງຮູ້ຈັກເປັນຄວາມອ່ອນໄຫວ.

ການເອີ້ນຄືນແມ່ນ TP/(TP+FN).

ຄວາມແມ່ນຍໍາແມ່ນການວັດແທກຂອງມູນຄ່າການຄາດເດົາທາງບວກ, ເຊິ່ງປຽບທຽບຈໍານວນຜົນບວກທີ່ຕົວແບບຄາດຄະເນຢ່າງແທ້ຈິງວ່າຈໍານວນຜົນບວກທີ່ຖືກຕ້ອງມັນຄາດຄະເນຢ່າງຖືກຕ້ອງ.

ຄວາມຊັດເຈນແມ່ນ TP/(TP + FP)

metric ການປະຕິບັດທີ່ງ່າຍທີ່ສຸດທີ່ຈະເຂົ້າໃຈແມ່ນຄວາມຖືກຕ້ອງ, ເຊິ່ງເປັນພຽງແຕ່ອັດຕາສ່ວນຂອງການສັງເກດການທີ່ຖືກຕ້ອງຕາມການສັງເກດການທັງຫມົດ.

ຄວາມຖືກຕ້ອງແມ່ນເທົ່າກັບ (TP+TN)/(TP+FP+FN+TN).

Precision ແລະ Recall ແມ່ນນ້ໍາຫນັກແລະສະເລ່ຍເພື່ອໃຫ້ຄະແນນ F1. ດັ່ງນັ້ນ, ຄະແນນນີ້ພິຈາລະນາທັງທາງບວກທີ່ບໍ່ຖືກຕ້ອງແລະທາງລົບທີ່ບໍ່ຖືກຕ້ອງ.

F1 ມັກຈະມີຄຸນຄ່າຫຼາຍກວ່າຄວາມຖືກຕ້ອງ, ໂດຍສະເພາະຖ້າທ່ານມີການແຈກຢາຍແບບບໍ່ເທົ່າທຽມກັນ, ເຖິງແມ່ນວ່າ intuitively ມັນບໍ່ງ່າຍດາຍທີ່ຈະເຂົ້າໃຈເຖິງຄວາມຖືກຕ້ອງ.

ຄວາມຖືກຕ້ອງທີ່ດີທີ່ສຸດແມ່ນບັນລຸໄດ້ເມື່ອຄ່າໃຊ້ຈ່າຍຂອງບວກທີ່ບໍ່ຖືກຕ້ອງແລະລົບທີ່ບໍ່ຖືກຕ້ອງແມ່ນປຽບທຽບ. ມັນດີກວ່າທີ່ຈະລວມເອົາທັງ Precision ແລະ Recall ຖ້າຄ່າໃຊ້ຈ່າຍທີ່ກ່ຽວຂ້ອງກັບຜົນບວກທີ່ບໍ່ຖືກຕ້ອງແລະຜົນລົບທີ່ບໍ່ຖືກຕ້ອງແຕກຕ່າງກັນຢ່າງຫຼວງຫຼາຍ.

35. ການກວດສອບຂ້າມຜ່ານແມ່ນຫຍັງ?

ວິທີການຍົກຕົວຢ່າງທາງສະຖິຕິທີ່ເອີ້ນວ່າການກວດສອບຂ້າມຜ່ານໃນການຮຽນຮູ້ເຄື່ອງຈັກໃຊ້ຊຸດຂໍ້ມູນຍ່ອຍຫຼາຍໆຊຸດເພື່ອຝຶກອົບຮົມ ແລະປະເມີນລະບົບການຮຽນຮູ້ຂອງເຄື່ອງຈັກໃນຫຼາຍໆຮອບ.

ຂໍ້ມູນຊຸດໃຫມ່ທີ່ບໍ່ໄດ້ໃຊ້ໃນການຝຶກອົບຮົມແບບຈໍາລອງໄດ້ຖືກທົດສອບໂດຍໃຊ້ການກວດສອບຂ້າມເພື່ອເບິ່ງວ່າຕົວແບບຄາດຄະເນມັນດີເທົ່າໃດ. ການ overfitting ຂໍ້ມູນແມ່ນປ້ອງກັນຜ່ານການກວດສອບຂ້າມ.

K-Fold ວິທີການຍົກຕົວຢ່າງທີ່ມັກໃຊ້ຫຼາຍທີ່ສຸດຈະແບ່ງຊຸດຂໍ້ມູນທັງໝົດອອກເປັນຊຸດ K ທີ່ມີຂະໜາດເທົ່າກັນ. ມັນຖືກເອີ້ນວ່າການກວດສອບຂ້າມ.

36. ໃຫ້ເວົ້າວ່າທ່ານຄົ້ນພົບວ່າຕົວແບບຂອງທ່ານມີຄວາມແຕກຕ່າງກັນຢ່າງຫຼວງຫຼາຍ. ໃນຄວາມຄິດເຫັນຂອງທ່ານ, algorithm ໃດທີ່ເຫມາະສົມທີ່ສຸດເພື່ອຈັດການກັບສະຖານະການນີ້?

ການຄຸ້ມຄອງການປ່ຽນແປງສູງ

ພວກເຮົາຄວນໃຊ້ເຕັກນິກການກະເປົ໋າສໍາລັບບັນຫາທີ່ມີການປ່ຽນແປງຂະຫນາດໃຫຍ່.

ການເກັບຕົວຢ່າງຊໍ້າຄືນຂອງຂໍ້ມູນແບບສຸ່ມຈະຖືກໃຊ້ໂດຍຂັ້ນຕອນການໃສ່ຖົງເພື່ອແບ່ງຂໍ້ມູນອອກເປັນກຸ່ມຍ່ອຍ. ເມື່ອຂໍ້ມູນຖືກແບ່ງອອກ, ພວກເຮົາສາມາດໃຊ້ຂໍ້ມູນແບບສຸ່ມແລະຂັ້ນຕອນການຝຶກອົບຮົມສະເພາະເພື່ອສ້າງກົດລະບຽບ.

ຫຼັງຈາກນັ້ນ, ການສໍາຫຼວດສາມາດຖືກນໍາໃຊ້ເພື່ອສົມທົບການຄາດເດົາຂອງຕົວແບບ.

37. ຄວາມແຕກຕ່າງຂອງການຖົດຖອຍຂອງ Ridge ຈາກ Lasso regression ແມ່ນຫຍັງ?

ສອງວິທີການປົກກະຕິທີ່ຖືກນໍາໃຊ້ຢ່າງກວ້າງຂວາງແມ່ນ Lasso (ຍັງເອີ້ນວ່າ L1) ແລະ Ridge (ບາງຄັ້ງເອີ້ນວ່າ L2) regression. ພວກມັນຖືກນໍາໃຊ້ເພື່ອປ້ອງກັນການ overfitting ຂອງຂໍ້ມູນ.

ເພື່ອຄົ້ນພົບການແກ້ໄຂທີ່ດີທີ່ສຸດແລະຫຼຸດຜ່ອນຄວາມສັບສົນ, ເຕັກນິກເຫຼົ່ານີ້ຖືກໃຊ້ເພື່ອລົງໂທດຄ່າສໍາປະສິດ. ໂດຍການລົງໂທດທັງໝົດຂອງຄ່າຢ່າງແທ້ຈິງຂອງຄ່າສໍາປະສິດ, ການຖົດຖອຍຂອງ Lasso ດໍາເນີນການ.

ຫນ້າທີ່ການລົງໂທດໃນ Ridge ຫຼື L2 regression ແມ່ນໄດ້ມາຈາກຜົນລວມຂອງສີ່ຫລ່ຽມຂອງຄ່າສໍາປະສິດ.

38. ອັນໃດສໍາຄັນກວ່າ: ການປະຕິບັດຕົວແບບຫຼືຄວາມຖືກຕ້ອງຂອງຕົວແບບ? ອັນໃດ ແລະ ເປັນຫຍັງເຈົ້າຈຶ່ງມັກມັນ?

ນີ້ແມ່ນຄໍາຖາມທີ່ຫຼອກລວງ, ດັ່ງນັ້ນທໍາອິດຄວນເຂົ້າໃຈສິ່ງທີ່ Model Performance ແມ່ນຫຍັງ. ຖ້າການປະຕິບັດຖືກກໍານົດເປັນຄວາມໄວ, ຫຼັງຈາກນັ້ນມັນຂຶ້ນກັບປະເພດຂອງຄໍາຮ້ອງສະຫມັກ; ຄໍາຮ້ອງສະຫມັກໃດໆທີ່ກ່ຽວຂ້ອງກັບສະຖານະການໃນເວລາທີ່ແທ້ຈິງຈະຕ້ອງໃຊ້ຄວາມໄວສູງເປັນອົງປະກອບທີ່ສໍາຄັນ.

ຕົວຢ່າງ, ຜົນການຄົ້ນຫາທີ່ດີທີ່ສຸດຈະກາຍເປັນມູນຄ່າຫນ້ອຍຖ້າຜົນການຄົ້ນຫາໃຊ້ເວລາດົນເກີນໄປທີ່ຈະມາຮອດ.

ຖ້າການປະຕິບັດຖືກນໍາໃຊ້ເປັນເຫດຜົນສໍາລັບເຫດຜົນທີ່ຄວາມຊັດເຈນແລະການເອີ້ນຄືນຄວນຈະຖືກຈັດລໍາດັບຄວາມສໍາຄັນຂ້າງເທິງຄວາມຖືກຕ້ອງ, ຄະແນນ F1 ຈະເປັນປະໂຫຍດຫຼາຍກ່ວາຄວາມຖືກຕ້ອງໃນການສະແດງກໍລະນີທຸລະກິດສໍາລັບຊຸດຂໍ້ມູນໃດໆທີ່ບໍ່ສົມດຸນ.

39. ເຈົ້າຈະຈັດການຊຸດຂໍ້ມູນທີ່ມີຄວາມບໍ່ສະເໝີພາບກັນແນວໃດ?

ຊຸດຂໍ້ມູນທີ່ບໍ່ສົມດຸນສາມາດໄດ້ຮັບຜົນປະໂຫຍດຈາກເຕັກນິກການເກັບຕົວຢ່າງ. ການເກັບຕົວຢ່າງສາມາດເຮັດໄດ້ໃນແບບທີ່ຕໍ່າກວ່າຫຼືແບບ oversampled.

ພາຍໃຕ້ການເກັບຕົວຢ່າງຊ່ວຍໃຫ້ພວກເຮົາສາມາດຫຍໍ້ຂະຫນາດຂອງຊັ້ນຮຽນສ່ວນໃຫຍ່ໃຫ້ກົງກັບຊົນກຸ່ມນ້ອຍ, ເຊິ່ງຊ່ວຍເພີ່ມຄວາມໄວໃນການເກັບຮັກສາແລະການປະຕິບັດເວລາແລ່ນແຕ່ຍັງສາມາດສົ່ງຜົນໃຫ້ການສູນເສຍຂໍ້ມູນທີ່ມີຄຸນຄ່າ.

ເພື່ອແກ້ໄຂບັນຫາການສູນເສຍຂໍ້ມູນທີ່ເກີດຈາກ oversampling, ພວກເຮົາ upsample ຊົນເຜົ່າຊົນເຜົ່າ; ຢ່າງໃດກໍຕາມ, ນີ້ເຮັດໃຫ້ພວກເຮົາເຂົ້າໄປໃນບັນຫາ overfitting.

ຍຸດທະສາດເພີ່ມເຕີມລວມມີ:

Cluster-Based Over Sampling- ຕົວຢ່າງຂອງຊົນກຸ່ມນ້ອຍ ແລະກຸ່ມສ່ວນໃຫຍ່ ແມ່ນຂຶ້ນກັບເຕັກນິກການຈັດກຸ່ມຂອງ K-means ໃນສະຖານະການນີ້. ນີ້ແມ່ນເຮັດເພື່ອຊອກຫາກຸ່ມຊຸດຂໍ້ມູນ. ຈາກນັ້ນ, ແຕ່ລະກຸ່ມຈະຖືກເອົາຕົວຢ່າງມາໃຫ້ຫຼາຍຊັ້ນເພື່ອໃຫ້ທຸກຊັ້ນຮຽນມີຂະໜາດດຽວກັນ ແລະທຸກກຸ່ມພາຍໃນຫ້ອງຮຽນມີຈຳນວນຕົວຢ່າງເທົ່າກັນ.
SMOTE: Synthetic Minority Over-sampling Technique- ຂໍ້ມູນຈາກກຸ່ມຊົນເຜົ່າສ່ວນໜ້ອຍຖືກໃຊ້ເປັນຕົວຢ່າງ, ຫລັງຈາກນັ້ນມີຕົວຢ່າງປອມເພີ່ມເຕີມທີ່ທຽບໄດ້ກັບມັນຖືກຜະລິດ ແລະເພີ່ມໃສ່ຊຸດຂໍ້ມູນຕົ້ນສະບັບ. ວິທີການນີ້ເຮັດວຽກໄດ້ດີກັບຈຸດຂໍ້ມູນຕົວເລກ.

40. ເຈົ້າສາມາດແຍກແຍະລະຫວ່າງການຊຸກຍູ້ແລະການໃສ່ຖົງໄດ້ແນວໃດ?

ເຕັກນິກ Ensemble ມີລຸ້ນທີ່ເອີ້ນວ່າ bagging ແລະ boosting.

ກະເປົາ-

ສໍາລັບສູດການຄິດໄລ່ທີ່ມີຄວາມແຕກຕ່າງສູງ, ການໃສ່ຖົງແມ່ນເຕັກນິກທີ່ໃຊ້ເພື່ອຫຼຸດຄວາມແຕກຕ່າງ. ຫນຶ່ງໃນຄອບຄົວດັ່ງກ່າວຂອງການຈັດປະເພດທີ່ມັກຈະມີຄວາມລໍາອຽງແມ່ນຄອບຄົວຕົ້ນໄມ້ການຕັດສິນໃຈ.

ປະເພດຂອງຂໍ້ມູນທີ່ຕົ້ນໄມ້ຕັດສິນໃຈໄດ້ຮັບການຝຶກອົບຮົມມີຜົນກະທົບຢ່າງຫຼວງຫຼາຍຕໍ່ການປະຕິບັດຂອງມັນ. ດ້ວຍເຫດນີ້, ເຖິງແມ່ນວ່າມີການປັບລະອຽດສູງຫຼາຍ, ການເຮັດໃຫ້ຜົນໄດ້ຮັບໂດຍທົ່ວໄປແມ່ນຍາກກວ່າທີ່ຈະໄດ້ມາໃນພວກມັນ.

ຖ້າຂໍ້ມູນການຝຶກອົບຮົມຂອງຕົ້ນໄມ້ຕັດສິນໃຈຖືກປ່ຽນແປງ, ຜົນໄດ້ຮັບຈະແຕກຕ່າງກັນຢ່າງຫຼວງຫຼາຍ.

ດັ່ງນັ້ນ, ຖົງໃສ່ຖົງຖືກນໍາໃຊ້, ເຊິ່ງມີການສ້າງຕົ້ນໄມ້ການຕັດສິນໃຈຫຼາຍ, ແຕ່ລະຄົນໄດ້ຮັບການຝຶກອົບຮົມໂດຍໃຊ້ຕົວຢ່າງຂອງຂໍ້ມູນຕົ້ນສະບັບ, ແລະຜົນໄດ້ຮັບສຸດທ້າຍແມ່ນສະເລ່ຍຂອງຮູບແບບທີ່ແຕກຕ່າງກັນທັງຫມົດເຫຼົ່ານີ້.

ການຊຸກຍູ້:

ການຊຸກຍູ້ແມ່ນເຕັກນິກຂອງການຄາດຄະເນທີ່ມີລະບົບການຈັດປະເພດ n-weak ເຊິ່ງແຕ່ລະຕົວຈັດປະເພດທີ່ອ່ອນແອເຮັດໃຫ້ຂໍ້ບົກຜ່ອງຂອງຕົວຈັດປະເພດທີ່ເຂັ້ມແຂງກວ່າ. ພວກເຮົາອ້າງອີງເຖິງຕົວຈັດປະເພດທີ່ປະຕິບັດບໍ່ດີຕໍ່ຊຸດຂໍ້ມູນທີ່ເປັນ "ຕົວຈັດປະເພດທີ່ອ່ອນແອ."

ການຊຸກຍູ້ແມ່ນແນ່ນອນເປັນຂະບວນການແທນທີ່ຈະເປັນສູດການຄິດໄລ່. ການຖົດຖອຍຂອງ logistic ແລະຕົ້ນໄມ້ການຕັດສິນໃຈຕື້ນແມ່ນຕົວຢ່າງທົ່ວໄປຂອງການຈັດປະເພດທີ່ອ່ອນແອ.

Adaboost, Gradient Boosting, ແລະ XGBoost ແມ່ນສອງລະບົບການຊຸກຍູ້ທີ່ນິຍົມຫຼາຍທີ່ສຸດ, ຢ່າງໃດກໍຕາມ, ມີຫຼາຍອັນ.

41. ອະທິບາຍຄວາມແຕກຕ່າງລະຫວ່າງການຮຽນຮູ້ແບບ inductive ແລະ deductive.

ເມື່ອຮຽນຮູ້ໂດຍຕົວຢ່າງຈາກຊຸດຂອງຕົວຢ່າງທີ່ສັງເກດເຫັນ, ແບບຈໍາລອງໃຊ້ການຮຽນຮູ້ແບບ inductive ເພື່ອມາຮອດການສະຫລຸບໂດຍທົ່ວໄປ. ໃນທາງກົງກັນຂ້າມ, ດ້ວຍການຮຽນຮູ້ແບບຫັກລົບ, ແບບຈໍາລອງໃຊ້ຜົນໄດ້ຮັບກ່ອນທີ່ຈະປະກອບເປັນຂອງຕົນເອງ.

ການຮຽນຮູ້ແບບ inductive ແມ່ນຂະບວນການຂອງການແຕ້ມບົດສະຫຼຸບຈາກການສັງເກດການ.

ການຮຽນຮູ້ແບບຫັກລົບແມ່ນຂະບວນການສ້າງການສັງເກດໂດຍອີງໃສ່ການສະຫຼຸບ.

ສະຫຼຸບ

ຊົມເຊີຍ! ນີ້ແມ່ນຄຳຖາມສໍາພາດ 40 ແລະຂ້າງເທິງສໍາລັບການຮຽນຮູ້ເຄື່ອງຈັກທີ່ຕອນນີ້ເຈົ້າຮູ້ຄໍາຕອບແລ້ວ. ວິທະຍາສາດຂໍ້ມູນ ແລະ ປັນຍາປະດິດ ອາຊີບຈະສືບຕໍ່ມີຄວາມຕ້ອງການຕາມຄວາມກ້າວຫນ້າຂອງເຕັກໂນໂລຢີ.

ຜູ້ສະຫມັກທີ່ປັບປຸງຄວາມຮູ້ຂອງເຂົາເຈົ້າກ່ຽວກັບເຕັກໂນໂລຢີທີ່ທັນສະ ໄໝ ເຫຼົ່ານີ້ແລະປັບປຸງຊຸດທັກສະຂອງພວກເຂົາສາມາດຊອກຫາຄວາມເປັນໄປໄດ້ການຈ້າງງານທີ່ຫລາກຫລາຍດ້ວຍຄ່າຈ້າງທີ່ແຂ່ງຂັນ.

ທ່ານສາມາດສືບຕໍ່ການຕອບການສໍາພາດໃນປັດຈຸບັນທີ່ທ່ານມີຄວາມເຂົ້າໃຈຢ່າງຫນັກແຫນ້ນກ່ຽວກັບວິທີການຕອບບາງຄໍາຖາມສໍາພາດການຮຽນຮູ້ເຄື່ອງຈັກທີ່ຖືກຖາມຢ່າງກວ້າງຂວາງ.

ອີງຕາມເປົ້າໝາຍຂອງທ່ານ, ໃຫ້ເຮັດຂັ້ນຕອນຕໍ່ໄປນີ້. ກະກຽມສໍາລັບການສໍາພາດໂດຍການຢ້ຽມຢາມຂອງ Hashdork ຊຸດສໍາພາດ.

ຄຳຖາມສໍາພາດການຮຽນຮູ້ເຄື່ອງຈັກ 40+ ອັນດັບຕົ້ນ