ສາລະບານ[ເຊື່ອງ][ສະແດງ]
- 1. ອະທິບາຍຄວາມແຕກຕ່າງລະຫວ່າງການຮຽນຮູ້ເຄື່ອງຈັກ, ປັນຍາປະດິດ, ແລະການຮຽນຮູ້ເລິກ.
- 2. ກະລຸນາອະທິບາຍປະເພດຕ່າງໆຂອງການຮຽນຮູ້ເຄື່ອງຈັກ.
- 3. ຄວາມລຳອຽງທຽບກັບຄວາມຜັນຜວນຂອງການຄ້າແມ່ນຫຍັງ?
- 4. ຂັ້ນຕອນການຮຽນຮູ້ຂອງເຄື່ອງຈັກໄດ້ພັດທະນາຢ່າງຫຼວງຫຼາຍຕາມການເວລາ. ຄົນເຮົາເລືອກວິທີທີ່ຖືກຕ້ອງເພື່ອໃຊ້ຊຸດຂໍ້ມູນແນວໃດ?
- 5. ຄວາມຜູກພັນ ແລະ ຄວາມສຳພັນແຕກຕ່າງກັນແນວໃດ?
- 6. ໃນການຮຽນຮູ້ເຄື່ອງຈັກ, clustering ຫມາຍຄວາມວ່າແນວໃດ?
- 7. ລະບົບການຮຽນຮູ້ເຄື່ອງຈັກທີ່ທ່ານຕ້ອງການແມ່ນຫຍັງ?
- 8. Linear Regression in Machine Learning: ມັນແມ່ນຫຍັງ?
- 9. ອະທິບາຍຄວາມແຕກຕ່າງລະຫວ່າງ KNN ແລະ k-means clustering.
- 10. “ຄວາມລຳອຽງທາງເລືອກ” ໝາຍຄວາມວ່າແນວໃດສຳລັບເຈົ້າ?
- 11. ທິດສະດີ Bayes ແມ່ນຫຍັງແທ້?
- 12. ໃນຮູບແບບການຮຽນຮູ້ເຄື່ອງຈັກ, 'ຊຸດການຝຶກອົບຮົມ' ແລະ 'ຊຸດທົດສອບ' ແມ່ນຫຍັງ?
- 13. ສົມມຸດຕິຖານໃນການຮຽນຮູ້ເຄື່ອງຈັກແມ່ນຫຍັງ?
- 14. ການຮຽນຮູ້ເຄື່ອງຈັກເກີນຄວາມເໝາະສົມໝາຍເຖິງຫຍັງ ແລະສາມາດປ້ອງກັນໄດ້ແນວໃດ?
- 15. ຕົວຈັດປະເພດ Naive Bayes ແມ່ນຫຍັງແທ້?
- 16. ຫນ້າທີ່ຄ່າໃຊ້ຈ່າຍແລະຫນ້າທີ່ສູນເສຍຫມາຍຄວາມວ່າແນວໃດ?
- 17. ຮູບແບບການຈໍາແນກອັນໃດທີ່ແຕກຕ່າງຈາກຮູບແບບການຈໍາແນກ?
- 18. ອະທິບາຍການປ່ຽນແປງລະຫວ່າງຄວາມຜິດພາດປະເພດ I ແລະ Type II.
- 19. ໃນການຮຽນຮູ້ເຄື່ອງຈັກ, ເຕັກນິກການຮຽນຮູ້ຂອງ Ensemble ແມ່ນຫຍັງ?
- 20. ຕົວແບບພາລາມິເຕີແມ່ນຫຍັງແທ້? ໃຫ້ຕົວຢ່າງ.
- 21. ອະທິບາຍການກັ່ນຕອງຮ່ວມມື. ເຊັ່ນດຽວກັນກັບການກັ່ນຕອງເນື້ອຫາ?
- 22. ເຈົ້າໝາຍເຖິງຫຍັງແທ້ໂດຍຊຸດເວລາ?
- 23. ອະທິບາຍການປ່ຽນແປງລະຫວ່າງ algorithms ການ Boosting Gradient ແລະ Random Forest.
- 24. ເປັນຫຍັງທ່ານຕ້ອງການມາຕຣິກເບື້ອງສັບສົນ? ມັນແມ່ນຫຍັງ?
- 25. ການວິເຄາະອົງປະກອບຫຼັກການແມ່ນຫຍັງ?
- 26. ເປັນຫຍັງການຫມູນວຽນອົງປະກອບຈຶ່ງສໍາຄັນຕໍ່ PCA (ການວິເຄາະອົງປະກອບຫຼັກ)?
- 27. ການເຮັດໃຫ້ເປັນປົກກະຕິ ແລະ ປົກກະຕິແຕກຕ່າງກັນແນວໃດ?
- 28. ການປົກກະຕິ ແລະ ມາດຕະຖານຕ່າງຈາກກັນແນວໃດ?
- 29. "ປັດໄຈອັດຕາເງິນເຟີ້ທີ່ປ່ຽນແປງ" ຫມາຍຄວາມວ່າແນວໃດ?
- 30. ອີງຕາມຂະຫນາດຂອງຊຸດການຝຶກອົບຮົມ, ທ່ານຈະເລືອກເອົາປະເພດແນວໃດ?
- 31. ສູດການຄິດໄລ່ອັນໃດໃນການຮຽນຮູ້ຂອງເຄື່ອງຈັກເອີ້ນວ່າ “ຜູ້ຮຽນຂີ້ຄ້ານ” ແລະຍ້ອນຫຍັງ?
- 32. ເສັ້ນໂຄ້ງ ROC ແລະ AUC ແມ່ນຫຍັງ?
- 33. hyperparameters ແມ່ນຫຍັງ? ສິ່ງທີ່ເຮັດໃຫ້ພວກເຂົາເປັນເອກະລັກຈາກຕົວກໍານົດການຂອງຕົວແບບ?
- 34. F1 ຄະແນນ, ການເອີ້ນຄືນ, ແລະຄວາມແມ່ນຍໍາຫມາຍຄວາມວ່າແນວໃດ?
- 35. ການກວດສອບຂ້າມຜ່ານແມ່ນຫຍັງ?
- 36. ໃຫ້ເວົ້າວ່າທ່ານຄົ້ນພົບວ່າຕົວແບບຂອງທ່ານມີຄວາມແຕກຕ່າງກັນຢ່າງຫຼວງຫຼາຍ. ໃນຄວາມຄິດເຫັນຂອງທ່ານ, algorithm ໃດທີ່ເຫມາະສົມທີ່ສຸດເພື່ອຈັດການກັບສະຖານະການນີ້?
- 37. ຄວາມແຕກຕ່າງຂອງການຖົດຖອຍຂອງ Ridge ຈາກ Lasso regression ແມ່ນຫຍັງ?
- 38. ອັນໃດສໍາຄັນກວ່າ: ການປະຕິບັດຕົວແບບຫຼືຄວາມຖືກຕ້ອງຂອງຕົວແບບ? ອັນໃດ ແລະ ເປັນຫຍັງເຈົ້າຈຶ່ງມັກມັນ?
- 39. ເຈົ້າຈະຈັດການຊຸດຂໍ້ມູນທີ່ມີຄວາມບໍ່ສະເໝີພາບກັນແນວໃດ?
- 40. ເຈົ້າສາມາດແຍກແຍະລະຫວ່າງການຊຸກຍູ້ແລະການໃສ່ຖົງໄດ້ແນວໃດ?
- 41. ອະທິບາຍຄວາມແຕກຕ່າງລະຫວ່າງການຮຽນຮູ້ແບບ inductive ແລະ deductive.
- ສະຫຼຸບ
ທຸລະກິດກໍາລັງນໍາໃຊ້ເຕັກໂນໂລຢີທີ່ກ້າວຫນ້າເຊັ່ນ: ປັນຍາປະດິດ (AI) ແລະການຮຽນຮູ້ເຄື່ອງຈັກ, ເພື່ອເພີ່ມການເຂົ້າເຖິງຂໍ້ມູນແລະການບໍລິການໃຫ້ກັບບຸກຄົນ.
ເທັກໂນໂລຍີເຫຼົ່ານີ້ໄດ້ຖືກຮັບຮອງເອົາໂດຍຫຼາຍໆອຸດສາຫະກໍາ, ລວມທັງການທະນາຄານ, ການເງິນ, ການຂາຍຍ່ອຍ, ການຜະລິດ, ແລະການດູແລສຸຂະພາບ.
ຫນຶ່ງໃນບົດບາດຂອງອົງການຈັດຕັ້ງທີ່ຊອກຫາຫຼາຍທີ່ສຸດທີ່ໃຊ້ AI ແມ່ນສໍາລັບນັກວິທະຍາສາດຂໍ້ມູນ, ວິສະວະກອນປັນຍາປະດິດ, ວິສະວະກອນການຮຽນຮູ້ເຄື່ອງຈັກ, ແລະນັກວິເຄາະຂໍ້ມູນ.
ຕອບນີ້ຈະນໍາທ່ານຜ່ານຄວາມຫລາກຫລາຍຂອງ ການຮຽນຮູ້ເຄື່ອງຈັກ ຄໍາຖາມສໍາພາດ, ຈາກພື້ນຖານເຖິງສະລັບສັບຊ້ອນ, ເພື່ອຊ່ວຍໃຫ້ທ່ານໄດ້ຮັບຄວາມພ້ອມສໍາລັບຄໍາຖາມທີ່ທ່ານສາມາດຖືກຖາມໃນເວລາທີ່ຊອກຫາວຽກເຮັດງານທໍາທີ່ເຫມາະສົມຂອງທ່ານ.
1. ອະທິບາຍຄວາມແຕກຕ່າງລະຫວ່າງການຮຽນຮູ້ເຄື່ອງຈັກ, ປັນຍາປະດິດ, ແລະການຮຽນຮູ້ເລິກ.
ປັນຍາທຽມໃຊ້ວິທີການຮຽນຮູ້ເຄື່ອງຈັກ ແລະການຮຽນຮູ້ເລິກຫຼາຍອັນທີ່ຊ່ວຍໃຫ້ລະບົບຄອມພິວເຕີສາມາດປະຕິບັດວຽກງານຕ່າງໆໂດຍໃຊ້ປັນຍາທີ່ຄ້າຍຄືກັບມະນຸດດ້ວຍເຫດຜົນ ແລະກົດລະບຽບ.
ການຮຽນຮູ້ຂອງເຄື່ອງຈັກໃຊ້ສະຖິຕິທີ່ຫຼາກຫຼາຍ ແລະວິທີການຮຽນຮູ້ແບບເລິກລັບເພື່ອເຮັດໃຫ້ເຄື່ອງຈັກສາມາດຮຽນຮູ້ຈາກການປະຕິບັດກ່ອນໜ້າຂອງເຂົາເຈົ້າ ແລະ ມີຄວາມຊຳນານຫຼາຍຂຶ້ນໃນການເຮັດໜ້າທີ່ໃດໜຶ່ງດ້ວຍຕົນເອງໂດຍບໍ່ມີການຄວບຄຸມຈາກມະນຸດ.
ການຮຽນຮູ້ເລິກແມ່ນຊຸດຂອງລະບົບສູດການຄິດໄລ່ທີ່ຊ່ວຍໃຫ້ຊອບແວຮຽນຮູ້ຈາກຕົວມັນເອງແລະປະຕິບັດຫນ້າທີ່ທາງການຄ້າທີ່ຫລາກຫລາຍເຊັ່ນ: ການຮັບຮູ້ສຽງແລະຮູບພາບ.
ລະບົບທີ່ເປີດເຜີຍ multilayered ຂອງເຂົາເຈົ້າ ເຄືອຂ່າຍ neural ຂໍ້ມູນຈໍານວນຫຼວງຫຼາຍສໍາລັບການຮຽນຮູ້ແມ່ນສາມາດເຮັດການຮຽນຮູ້ເລິກ.
2. ກະລຸນາອະທິບາຍປະເພດຕ່າງໆຂອງການຮຽນຮູ້ເຄື່ອງຈັກ.
ການຮຽນຮູ້ເຄື່ອງຈັກມີຢູ່ໃນສາມປະເພດທີ່ແຕກຕ່າງກັນຢ່າງກວ້າງຂວາງ:
- ການຮຽນຮູ້ແບບມີການຄວບຄຸມເບິ່ງແຍງ: ແບບຈໍາລອງສ້າງການຄາດເດົາ ຫຼືການຕັດສິນໂດຍໃຊ້ຂໍ້ມູນທີ່ມີປ້າຍກຳກັບ ຫຼືຂໍ້ມູນປະຫວັດສາດໃນການຮຽນຮູ້ຂອງເຄື່ອງຈັກທີ່ມີການເບິ່ງແຍງ. ຊຸດຂໍ້ມູນທີ່ໄດ້ຖືກແທັກຫຼືຕິດສະຫຼາກເພື່ອເພີ່ມຄວາມ ໝາຍ ຂອງມັນຖືກເອີ້ນວ່າຂໍ້ມູນທີ່ຕິດສະຫຼາກ.
- ການຮຽນຮູ້ແບບບໍ່ມີການຄວບຄຸມເບິ່ງແຍງ: ພວກເຮົາບໍ່ມີຂໍ້ມູນທີ່ມີປ້າຍກຳກັບສຳລັບການຮຽນຮູ້ທີ່ບໍ່ມີການເບິ່ງແຍງກວດກາ. ໃນຂໍ້ມູນຂາເຂົ້າ, ແບບຈໍາລອງສາມາດຊອກຫາຮູບແບບ, ຄວາມແປກປະຫລາດ, ແລະຄວາມກ່ຽວຂ້ອງກັນ.
- ການຮຽນຮູ້ເສີມ: ຮູບແບບສາມາດ ຮຽນຮູ້ໂດຍການນໍາໃຊ້ເສີມ ການຮຽນຮູ້ແລະລາງວັນທີ່ມັນໄດ້ຮັບສໍາລັບພຶດຕິກໍາທີ່ຜ່ານມາ.
3. ຄວາມລຳອຽງທຽບກັບຄວາມຜັນຜວນຂອງການຄ້າແມ່ນຫຍັງ?
Overfitting ແມ່ນຜົນມາຈາກຄວາມລໍາອຽງ, ເຊິ່ງແມ່ນລະດັບທີ່ຕົວແບບທີ່ເຫມາະສົມກັບຂໍ້ມູນ. ອະຄະຕິແມ່ນເກີດມາຈາກການສົມມຸດຕິຖານທີ່ບໍ່ຖືກຕ້ອງຫຼືງ່າຍດາຍເກີນໄປໃນຂອງທ່ານ ບົບການຮຽນຮູ້ເຄື່ອງຈັກ.
ຄວາມແຕກຕ່າງຫມາຍເຖິງຄວາມຜິດພາດທີ່ເກີດຈາກຄວາມສັບສົນໃນ ML algorithm ຂອງທ່ານ, ເຊິ່ງເຮັດໃຫ້ເກີດຄວາມອ່ອນໄຫວຕໍ່ກັບຄວາມແຕກຕ່າງກັນຢ່າງຫຼວງຫຼາຍໃນຂໍ້ມູນການຝຶກອົບຮົມແລະ overfitting.
ຄວາມແຕກຕ່າງແມ່ນຫຼາຍປານໃດທີ່ຕົວແບບແຕກຕ່າງກັນຂຶ້ນກັບວັດສະດຸປ້ອນ.
ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ຮູບແບບພື້ນຖານແມ່ນມີຄວາມລໍາອຽງທີ່ສຸດແຕ່ມີຄວາມຫມັ້ນຄົງ (ຄວາມແຕກຕ່າງກັນຕ່ໍາ). Overfitting ແມ່ນບັນຫາກັບຕົວແບບທີ່ສັບສົນ, ເຖິງແມ່ນວ່າພວກເຂົາຍັງຈັບພາບຄວາມເປັນຈິງຂອງຕົວແບບ (ຄວາມລໍາອຽງຕ່ໍາ).
ເພື່ອປ້ອງກັນບໍ່ໃຫ້ທັງສອງມີການປ່ຽນແປງສູງແລະຄວາມລໍາອຽງສູງ, ການຄ້າລະຫວ່າງຄວາມລໍາອຽງແລະຄວາມແຕກຕ່າງກັນແມ່ນມີຄວາມຈໍາເປັນສໍາລັບການຫຼຸດຜ່ອນຄວາມຜິດພາດທີ່ດີທີ່ສຸດ.
4. ຂັ້ນຕອນການຮຽນຮູ້ຂອງເຄື່ອງຈັກໄດ້ພັດທະນາຢ່າງຫຼວງຫຼາຍຕາມການເວລາ. ຄົນເຮົາເລືອກວິທີທີ່ຖືກຕ້ອງເພື່ອໃຊ້ຊຸດຂໍ້ມູນແນວໃດ?
ເຕັກນິກການຮຽນຮູ້ເຄື່ອງຈັກທີ່ຄວນຈະຖືກນໍາໃຊ້ພຽງແຕ່ຂຶ້ນກັບປະເພດຂອງຂໍ້ມູນໃນຊຸດຂໍ້ມູນສະເພາະ.
ເມື່ອຂໍ້ມູນເປັນເສັ້ນ, ການຖົດຖອຍເສັ້ນແມ່ນໃຊ້. ວິທີການກະເປົ໋າຈະປະຕິບັດໄດ້ດີກວ່າຖ້າຂໍ້ມູນຊີ້ໃຫ້ເຫັນເຖິງຄວາມບໍ່ເປັນເສັ້ນ. ພວກເຮົາສາມາດນໍາໃຊ້ຕົ້ນໄມ້ການຕັດສິນໃຈຫຼື SVM ຖ້າຂໍ້ມູນຕ້ອງໄດ້ຮັບການປະເມີນຫຼືຕີຄວາມຫມາຍສໍາລັບຈຸດປະສົງທາງການຄ້າ.
ເຄືອຂ່າຍ neural ອາດຈະເປັນປະໂຫຍດທີ່ຈະໄດ້ຮັບຄໍາຕອບທີ່ຖືກຕ້ອງຖ້າຫາກວ່າຊຸດຂໍ້ມູນປະກອບມີຮູບພາບ, ວິດີໂອ, ແລະສຽງ.
ທາງເລືອກຂອງສູດການຄິດໄລ່ສໍາລັບສະຖານະການສະເພາະໃດຫນຶ່ງຫຼືການເກັບກໍາຂໍ້ມູນບໍ່ສາມາດເຮັດໄດ້ພຽງແຕ່ໃນມາດຕະການດຽວ.
ສໍາລັບຈຸດປະສົງຂອງການພັດທະນາວິທີການທີ່ເຫມາະສົມທີ່ດີທີ່ສຸດ, ພວກເຮົາທໍາອິດຕ້ອງໄດ້ກວດກາຂໍ້ມູນໂດຍໃຊ້ການວິເຄາະຂໍ້ມູນການສໍາຫຼວດ (EDA) ແລະເຂົ້າໃຈເປົ້າຫມາຍຂອງການນໍາໃຊ້ຊຸດຂໍ້ມູນ.
5. ຄວາມຜູກພັນ ແລະ ຄວາມສຳພັນແຕກຕ່າງກັນແນວໃດ?
Covariance ປະເມີນວ່າຕົວແປສອງຕົວເຊື່ອມຕໍ່ກັນແນວໃດ ແລະວິທີໜຶ່ງອາດຈະປ່ຽນແປງໃນການຕອບສະໜອງຕໍ່ການປ່ຽນແປງໃນອີກອັນໜຶ່ງ.
ຖ້າຜົນໄດ້ຮັບເປັນບວກ, ມັນຊີ້ໃຫ້ເຫັນວ່າມີການເຊື່ອມໂຍງໂດຍກົງລະຫວ່າງຕົວແປແລະຫນຶ່ງຈະເພີ່ມຂຶ້ນຫຼືຫຼຸດລົງດ້ວຍການເພີ່ມຂຶ້ນຫຼືຫຼຸດລົງຂອງຕົວແປພື້ນຖານ, ສົມມຸດວ່າເງື່ອນໄຂອື່ນໆທັງຫມົດຄົງທີ່.
Correlation ວັດແທກການເຊື່ອມຕໍ່ລະຫວ່າງສອງຕົວແປແບບສຸ່ມແລະມີພຽງແຕ່ສາມຄ່າທີ່ແຕກຕ່າງກັນ: 1, 0, ແລະ -1.
6. ໃນການຮຽນຮູ້ເຄື່ອງຈັກ, clustering ຫມາຍຄວາມວ່າແນວໃດ?
ວິທີການຮຽນຮູ້ແບບບໍ່ມີການຄວບຄຸມທີ່ຈັດກຸ່ມຈຸດຂໍ້ມູນຮ່ວມກັນເອີ້ນວ່າກຸ່ມ. ດ້ວຍການເກັບກໍາຂໍ້ມູນຈຸດ, ເຕັກນິກການຈັດກຸ່ມສາມາດນໍາໃຊ້ໄດ້.
ທ່ານສາມາດຈັດກຸ່ມທັງຫມົດຂອງຈຸດຂໍ້ມູນຕາມຫນ້າທີ່ຂອງເຂົາເຈົ້າໂດຍນໍາໃຊ້ຍຸດທະສາດນີ້.
ລັກສະນະແລະຄຸນນະພາບຂອງຈຸດຂໍ້ມູນທີ່ຕົກຢູ່ໃນປະເພດດຽວກັນແມ່ນຄ້າຍຄືກັນ, ໃນຂະນະທີ່ຈຸດຂໍ້ມູນທີ່ຕົກຢູ່ໃນກຸ່ມແຍກຕ່າງຫາກແມ່ນແຕກຕ່າງກັນ.
ວິທີການນີ້ສາມາດຖືກນໍາໃຊ້ເພື່ອວິເຄາະຂໍ້ມູນສະຖິຕິ.
7. ລະບົບການຮຽນຮູ້ເຄື່ອງຈັກທີ່ທ່ານຕ້ອງການແມ່ນຫຍັງ?
ທ່ານມີໂອກາດທີ່ຈະສະແດງໃຫ້ເຫັນເຖິງຄວາມມັກແລະພອນສະຫວັນທີ່ເປັນເອກະລັກຂອງທ່ານໃນຄໍາຖາມນີ້, ເຊັ່ນດຽວກັນກັບຄວາມຮູ້ທີ່ສົມບູນແບບຂອງທ່ານກ່ຽວກັບເຕັກນິກການຮຽນຮູ້ເຄື່ອງຈັກຈໍານວນຫລາຍ.
ນີ້ແມ່ນວິທີການຮຽນຮູ້ເຄື່ອງຈັກທົ່ວໄປຈຳນວນໜຶ່ງທີ່ຈະຄິດກ່ຽວກັບ:
- ການສືບສາຍຕາມເສັ້ນ
- ການຖົດຖອຍ logistic
- Bayes Naive
- ຕົ້ນໄມ້ຕັດສິນໃຈ
- K ໝາຍ ຄວາມວ່າ
- ສູດການຄິດໄລ່ປ່າໄມ້ແບບສຸ່ມ
- K-ໃກ້ຄຽງທີ່ສຸດ (KNN)
8. Linear Regression in Machine Learning: ມັນແມ່ນຫຍັງ?
ສູດການຄິດໄລ່ການຮຽນຮູ້ເຄື່ອງຈັກທີ່ມີການເບິ່ງແຍງແມ່ນການຖົດຖອຍແບບເສັ້ນ.
ມັນຖືກນໍາໃຊ້ໃນການວິເຄາະຄາດຄະເນເພື່ອກໍານົດການເຊື່ອມຕໍ່ເສັ້ນຊື່ລະຫວ່າງຕົວແປທີ່ຂຶ້ນກັບແລະເອກະລາດ.
ສົມຜົນການຖົດຖອຍເສັ້ນຊື່ມີດັ່ງນີ້:
Y = A + BX
ບ່ອນທີ່:
- ຕົວແປ input ຫຼືເອກະລາດແມ່ນເອີ້ນວ່າ X.
- ຕົວແປທີ່ຂຶ້ນກັບ ຫຼືຜົນຜະລິດແມ່ນ Y.
- ຄ່າສໍາປະສິດຂອງ X ແມ່ນ b, ແລະການຂັດຂວາງຂອງມັນແມ່ນ a.
9. ອະທິບາຍຄວາມແຕກຕ່າງລະຫວ່າງ KNN ແລະ k-means clustering.
ຄວາມແຕກຕ່າງຕົ້ນຕໍແມ່ນວ່າ KNN (ວິທີການຈັດປະເພດ, ການຮຽນຮູ້ທີ່ມີການເບິ່ງແຍງ) ຕ້ອງການຈຸດທີ່ມີປ້າຍຊື່ໃນຂະນະທີ່ k-ຫມາຍຄວາມວ່າບໍ່ມີ (ວິທີການຈັດກຸ່ມ, ການຮຽນຮູ້ທີ່ບໍ່ມີການເບິ່ງແຍງ).
ທ່ານສາມາດຈັດປະເພດຂໍ້ມູນທີ່ຕິດສະຫຼາກເປັນຈຸດທີ່ບໍ່ມີປ້າຍກຳກັບໂດຍໃຊ້ K-Nearest Neighbors. K-means clustering ໃຊ້ໄລຍະຫ່າງສະເລ່ຍລະຫວ່າງຈຸດເພື່ອຮຽນຮູ້ວິທີຈັດກຸ່ມຈຸດທີ່ບໍ່ມີປ້າຍກຳກັບ.
10. “ຄວາມລຳອຽງທາງເລືອກ” ໝາຍຄວາມວ່າແນວໃດສຳລັບເຈົ້າ?
ຄວາມລຳອຽງໃນຂັ້ນຕອນການເກັບຕົວຢ່າງຂອງການທົດລອງແມ່ນເນື່ອງມາຈາກຄວາມບໍ່ຖືກຕ້ອງທາງສະຖິຕິ.
ກຸ່ມຕົວຢ່າງໜຶ່ງຖືກເລືອກເລື້ອຍໆກວ່າກຸ່ມອື່ນໃນການທົດລອງ ເນື່ອງຈາກຄວາມບໍ່ຖືກຕ້ອງ.
ຖ້າຄວາມລໍາອຽງຂອງການຄັດເລືອກບໍ່ໄດ້ຮັບການຍອມຮັບ, ມັນອາດຈະເຮັດໃຫ້ການສະຫລຸບທີ່ບໍ່ຖືກຕ້ອງ.
11. ທິດສະດີ Bayes ແມ່ນຫຍັງແທ້?
ເມື່ອພວກເຮົາຮູ້ເຖິງຄວາມເປັນໄປໄດ້ອື່ນໆ, ພວກເຮົາສາມາດກໍານົດຄວາມເປັນໄປໄດ້ໂດຍໃຊ້ Bayes' Theorem. ມັນສະຫນອງຄວາມເປັນໄປໄດ້ຫລັງຂອງການປະກົດຕົວໂດຍອີງໃສ່ຂໍ້ມູນກ່ອນ, ໃນຄໍາສັບຕ່າງໆອື່ນໆ.
ວິທີການທີ່ດີສໍາລັບການຄາດຄະເນຄວາມເປັນໄປໄດ້ຕາມເງື່ອນໄຂແມ່ນສະຫນອງໃຫ້ໂດຍທິດສະດີນີ້.
ໃນເວລາທີ່ການພັດທະນາການຈັດປະເພດການຄາດຄະເນບັນຫາຕົວແບບແລະການປັບຕົວແບບການຝຶກອົບຮົມ ຊຸດຂໍ້ມູນໃນການຮຽນຮູ້ເຄື່ອງຈັກ, Bayes' theorem ຖືກນໍາໃຊ້ (ເຊັ່ນ: Naive Bayes, Bayes Optimal Classifier).
12. ໃນຮູບແບບການຮຽນຮູ້ເຄື່ອງຈັກ, 'ຊຸດການຝຶກອົບຮົມ' ແລະ 'ຊຸດທົດສອບ' ແມ່ນຫຍັງ?
ຊຸດຝຶກອົບຮົມ:
- ຊຸດຝຶກອົບຮົມປະກອບດ້ວຍຕົວຢ່າງທີ່ຖືກສົ່ງໄປຫາຕົວແບບສໍາລັບການວິເຄາະແລະການຮຽນຮູ້.
- ນີ້ແມ່ນຂໍ້ມູນທີ່ຕິດສະຫຼາກທີ່ຈະນໍາໃຊ້ເພື່ອຝຶກອົບຮົມຕົວແບບ.
- ໂດຍປົກກະຕິ, 70% ຂອງຂໍ້ມູນທັງໝົດແມ່ນໃຊ້ເປັນຊຸດຂໍ້ມູນການຝຶກອົບຮົມ.
ຊຸດທົດສອບ:
- ຊຸດທົດສອບແມ່ນໃຊ້ເພື່ອປະເມີນຄວາມຖືກຕ້ອງຂອງການສ້າງສົມມຸດຕິຖານຂອງຕົວແບບ.
- ພວກເຮົາທົດສອບໂດຍບໍ່ມີຂໍ້ມູນທີ່ມີປ້າຍຊື່ແລະຫຼັງຈາກນັ້ນໃຊ້ປ້າຍຊື່ເພື່ອຢືນຢັນຜົນໄດ້ຮັບ.
- ສ່ວນທີ່ຍັງເຫຼືອ 30% ແມ່ນໃຊ້ເປັນຊຸດຂໍ້ມູນການທົດສອບ.
13. ສົມມຸດຕິຖານໃນການຮຽນຮູ້ເຄື່ອງຈັກແມ່ນຫຍັງ?
ການຮຽນຮູ້ເຄື່ອງຈັກເຮັດໃຫ້ການນຳໃຊ້ຊຸດຂໍ້ມູນທີ່ມີຢູ່ເພື່ອເຂົ້າໃຈຟັງຊັນທີ່ໃຫ້ໄວ້ທີ່ເຊື່ອມຕໍ່ການປ້ອນຂໍ້ມູນກັບຜົນຜະລິດໄດ້ດີຂຶ້ນ. ອັນນີ້ເອີ້ນວ່າ function approximation.
ໃນກໍລະນີນີ້, ການປະມານການຕ້ອງໄດ້ຮັບການຈ້າງງານສໍາລັບຫນ້າທີ່ເປົ້າຫມາຍທີ່ບໍ່ຮູ້ຈັກເພື່ອໂອນການສັງເກດການ conceivable ທັງຫມົດໂດຍອີງໃສ່ສະຖານະການທີ່ກໍານົດໄວ້ໃນວິທີທີ່ດີທີ່ສຸດທີ່ເປັນໄປໄດ້.
ໃນການຮຽນຮູ້ຂອງເຄື່ອງຈັກ, ການສົມມຸດຕິຖານແມ່ນຕົວແບບທີ່ຊ່ວຍໃນການປະເມີນຫນ້າທີ່ເປົ້າຫມາຍແລະສໍາເລັດການສ້າງແຜນທີ່ວັດສະດຸປ້ອນຫາຜົນໄດ້ຮັບທີ່ເຫມາະສົມ.
ການຄັດເລືອກແລະການອອກແບບຂອງ algorithms ອະນຸຍາດໃຫ້ສໍາລັບຄໍານິຍາມຂອງຊ່ອງຂອງ hypotheses ທີ່ເປັນໄປໄດ້ທີ່ສາມາດເປັນຕົວແທນໂດຍຕົວແບບ.
ສໍາລັບສົມມຸດຕິຖານອັນດຽວ, ຕົວພິມນ້ອຍ h (h) ແມ່ນໃຊ້, ແຕ່ຕົວພິມໃຫຍ່ h (H) ແມ່ນໃຊ້ສໍາລັບພື້ນທີ່ສົມມຸດຕິຖານທັງຫມົດທີ່ຖືກຄົ້ນຫາ. ພວກເຮົາຈະທົບທວນໂດຍຫຍໍ້ກ່ຽວກັບບັນທຶກເຫຼົ່ານີ້:
- ສົມມຸດຕິຖານ (h) ເປັນຕົວແບບສະເພາະທີ່ອໍານວຍຄວາມສະດວກໃນການສ້າງແຜນທີ່ຂອງວັດສະດຸປ້ອນໄປຫາຜົນຜະລິດ, ເຊິ່ງຕໍ່ມາສາມາດຖືກນໍາໃຊ້ສໍາລັບການປະເມີນຜົນແລະການຄາດຄະເນ.
- ຊຸດສົມມຸດຕິຖານ (H) ແມ່ນພື້ນທີ່ທີ່ສາມາດຄົ້ນຫາໄດ້ຂອງສົມມຸດຕິຖານທີ່ສາມາດຖືກນໍາໃຊ້ເພື່ອແຜນທີ່ວັດສະດຸປ້ອນກັບຜົນໄດ້ຮັບ. ກອບບັນຫາ, ແບບຈໍາລອງ, ແລະການຕັ້ງຄ່າແບບຈໍາລອງແມ່ນບາງຕົວຢ່າງຂອງຂໍ້ຈໍາກັດທົ່ວໄປ.
14. ການຮຽນຮູ້ເຄື່ອງຈັກເກີນຄວາມເໝາະສົມໝາຍເຖິງຫຍັງ ແລະສາມາດປ້ອງກັນໄດ້ແນວໃດ?
ເມື່ອເຄື່ອງຈັກພະຍາຍາມຮຽນຮູ້ຈາກຊຸດຂໍ້ມູນທີ່ບໍ່ພຽງພໍ, ການໃສ່ເກີນຈະເກີດຂຶ້ນ.
ດັ່ງນັ້ນ, overfitting ແມ່ນກົງກັນຂ້າມກັບປະລິມານຂໍ້ມູນ. ວິທີການກວດສອບຄວາມຖືກຕ້ອງຂ້າມອະນຸຍາດໃຫ້ overfitting ເພື່ອຫຼີກເວັ້ນສໍາລັບຊຸດຂໍ້ມູນຂະຫນາດນ້ອຍ. ຊຸດຂໍ້ມູນຖືກແບ່ງອອກເປັນສອງສ່ວນໃນວິທີການນີ້.
ຊຸດຂໍ້ມູນສໍາລັບການທົດສອບແລະການຝຶກອົບຮົມຈະປະກອບດ້ວຍສອງສ່ວນນີ້. ຊຸດຂໍ້ມູນການຝຶກອົບຮົມແມ່ນໃຊ້ເພື່ອສ້າງຕົວແບບ, ໃນຂະນະທີ່ຊຸດຂໍ້ມູນການທົດສອບຖືກນໍາໃຊ້ເພື່ອປະເມີນຕົວແບບໂດຍໃຊ້ວັດສະດຸປ້ອນທີ່ແຕກຕ່າງກັນ.
ນີ້ແມ່ນວິທີການປ້ອງກັນ overfitting.
15. ຕົວຈັດປະເພດ Naive Bayes ແມ່ນຫຍັງແທ້?
ວິທີການຈັດປະເພດຕ່າງໆປະກອບເປັນຕົວຈັດປະເພດ Naive Bayes. ຊຸດຂອງສູດການຄິດໄລ່ທີ່ເອີ້ນວ່າຕົວຈັດປະເພດເຫຼົ່ານີ້ທັງຫມົດເຮັດວຽກຢູ່ໃນແນວຄວາມຄິດພື້ນຖານດຽວກັນ.
ການສົມມຸດຕິຖານທີ່ເຮັດໂດຍນັກຈັດປະເພດ Bayes naive ແມ່ນວ່າລັກສະນະຫນຶ່ງຫຼືບໍ່ມີຕົວຕົນບໍ່ມີຜົນຕໍ່ການມີຫຼືບໍ່ມີຄຸນສົມບັດອື່ນ.
ເວົ້າອີກຢ່າງ ໜຶ່ງ, ນີ້ແມ່ນສິ່ງທີ່ພວກເຮົາເອີ້ນວ່າ "ໂງ່" ເພາະວ່າມັນເຮັດໃຫ້ສົມມຸດຕິຖານວ່າຄຸນລັກສະນະຂອງຊຸດຂໍ້ມູນແຕ່ລະຄົນມີຄວາມ ສຳ ຄັນເທົ່າທຽມກັນແລະເປັນເອກະລາດ.
ການຈັດປະເພດແມ່ນເຮັດໂດຍໃຊ້ຕົວຈັດປະເພດ Bayes naive. ພວກເຂົາເຈົ້າແມ່ນງ່າຍດາຍທີ່ຈະນໍາໃຊ້ແລະໃຫ້ຜົນໄດ້ຮັບທີ່ດີກວ່າການຄາດເດົາທີ່ສັບສົນຫຼາຍໃນເວລາທີ່ສະຖານທີ່ເອກະລາດແມ່ນຄວາມຈິງ.
ໃນການວິເຄາະຂໍ້ຄວາມ, ການກັ່ນຕອງຂີ້ເຫຍື້ອ, ແລະລະບົບການແນະນໍາ, ເຂົາເຈົ້າໄດ້ຖືກຈ້າງງານ.
16. ຫນ້າທີ່ຄ່າໃຊ້ຈ່າຍແລະຫນ້າທີ່ສູນເສຍຫມາຍຄວາມວ່າແນວໃດ?
ຄໍາວ່າ "ການສູນເສຍຫນ້າທີ່" ຫມາຍເຖິງຂະບວນການຂອງການສູນເສຍຄອມພິວເຕີ້ໃນເວລາທີ່ພຽງແຕ່ສ່ວນຫນຶ່ງຂອງຂໍ້ມູນຖືກພິຈາລະນາ.
ໃນທາງກົງກັນຂ້າມ, ພວກເຮົາໃຊ້ຫນ້າທີ່ຄ່າໃຊ້ຈ່າຍເພື່ອກໍານົດຈໍານວນຄວາມຜິດພາດທັງຫມົດສໍາລັບຂໍ້ມູນຈໍານວນຫລາຍ. ບໍ່ມີຄວາມແຕກຕ່າງທີ່ສໍາຄັນ.
ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ໃນຂະນະທີ່ຫນ້າທີ່ຄ່າໃຊ້ຈ່າຍລວມຄວາມແຕກຕ່າງສໍາລັບຊຸດຂໍ້ມູນການຝຶກອົບຮົມທັງຫມົດ, ຫນ້າທີ່ສູນເສຍໄດ້ຖືກອອກແບບເພື່ອເກັບກໍາຄວາມແຕກຕ່າງລະຫວ່າງມູນຄ່າຕົວຈິງແລະການຄາດຄະເນສໍາລັບບັນທຶກດຽວ.
17. ຮູບແບບການຈໍາແນກອັນໃດທີ່ແຕກຕ່າງຈາກຮູບແບບການຈໍາແນກ?
ຮູບແບບຈໍາແນກຮຽນຮູ້ຄວາມແຕກຕ່າງລະຫວ່າງຫຼາຍປະເພດຂໍ້ມູນ. ຮູບແບບການຜະລິດຈະເລືອກເອົາປະເພດຂໍ້ມູນທີ່ແຕກຕ່າງກັນ.
ກ່ຽວກັບບັນຫາການຈັດປະເພດ, ແບບຈໍາແນກຈໍາແນກມັກຈະປະຕິບັດຕົວແບບອື່ນ.
18. ອະທິບາຍການປ່ຽນແປງລະຫວ່າງຄວາມຜິດພາດປະເພດ I ແລະ Type II.
ບວກທີ່ບໍ່ຖືກຕ້ອງຕົກຢູ່ໃນປະເພດຂອງຄວາມຜິດພາດປະເພດ I, ໃນຂະນະທີ່ຜົນລົບທີ່ບໍ່ຖືກຕ້ອງແມ່ນຢູ່ພາຍໃຕ້ຄວາມຜິດພາດປະເພດ II (ການອ້າງວ່າບໍ່ມີຫຍັງເກີດຂຶ້ນເມື່ອມັນມີຕົວຈິງ).
19. ໃນການຮຽນຮູ້ເຄື່ອງຈັກ, ເຕັກນິກການຮຽນຮູ້ຂອງ Ensemble ແມ່ນຫຍັງ?
ເທັກນິກທີ່ເອີ້ນວ່າການຮຽນຮູ້ແບບກຸ່ມປະສົມກັບຕົວແບບການຮຽນຮູ້ເຄື່ອງຈັກຫຼາຍອັນເພື່ອຜະລິດແບບຈໍາລອງທີ່ມີພະລັງຫຼາຍຂຶ້ນ.
ຕົວແບບສາມາດປ່ຽນແປງໄດ້ດ້ວຍເຫດຜົນຕ່າງໆ. ສາເຫດຫຼາຍຢ່າງແມ່ນ:
- ປະຊາກອນທີ່ຫຼາກຫຼາຍ
- ສົມມຸດຕິຖານຕ່າງໆ
- ວິທີການສ້າງແບບຈໍາລອງຕ່າງໆ
ພວກເຮົາຈະພົບບັນຫາໃນຂະນະທີ່ນໍາໃຊ້ຂໍ້ມູນການຝຶກອົບຮົມແລະການທົດສອບຂອງຕົວແບບ. ຄວາມລຳອຽງ, ຄວາມແຕກຕ່າງ, ແລະ ຄວາມຜິດພາດທີ່ບໍ່ສາມາດແກ້ໄຂໄດ້ແມ່ນເປັນໄປໄດ້ຂອງຄວາມຜິດພາດນີ້.
ໃນປັດຈຸບັນ, ພວກເຮົາເອີ້ນຄວາມສົມດູນລະຫວ່າງຄວາມລໍາອຽງແລະຄວາມແຕກຕ່າງກັນໃນຮູບແບບການຄ້າ bias-variance, ແລະມັນຄວນຈະມີຢູ່ສະເຫມີ. ການແລກປ່ຽນນີ້ແມ່ນສໍາເລັດໂດຍຜ່ານການນໍາໃຊ້ການຮຽນຮູ້ຂອງກຸ່ມ.
ເຖິງແມ່ນວ່າມີວິທີການປະສົມປະສານຕ່າງໆທີ່ມີຢູ່, ມີສອງຍຸດທະສາດທົ່ວໄປສໍາລັບການລວມຕົວແບບຈໍານວນຫຼາຍ:
- ວິທີການພື້ນເມືອງທີ່ເອີ້ນວ່າ bagging ໃຊ້ຊຸດຝຶກອົບຮົມເພື່ອຜະລິດຊຸດຝຶກອົບຮົມເພີ່ມເຕີມ.
- ການຊຸກຍູ້, ເປັນເຕັກນິກທີ່ຊັບຊ້ອນກວ່າ: ຄືກັບການໃສ່ຖົງ, ການຊຸກຍູ້ແມ່ນໃຊ້ເພື່ອຊອກຫາສູດການຍົກນໍ້າໜັກທີ່ເໝາະສົມສຳລັບຊຸດຝຶກຊ້ອມ.
20. ຕົວແບບພາລາມິເຕີແມ່ນຫຍັງແທ້? ໃຫ້ຕົວຢ່າງ.
ມີຈໍານວນຈໍາກັດຂອງຕົວກໍານົດການຢູ່ໃນຕົວແບບພາລາມິເຕີ. ເພື່ອຄາດຄະເນຂໍ້ມູນ, ທັງຫມົດທີ່ທ່ານຈໍາເປັນຕ້ອງຮູ້ແມ່ນຕົວກໍານົດການຂອງຕົວແບບ.
ຕໍ່ໄປນີ້ແມ່ນຕົວຢ່າງປົກກະຕິ: logistic regression, linear regression, ແລະ linear SVMs. ຮູບແບບທີ່ບໍ່ແມ່ນຕົວກໍານົດການແມ່ນມີຄວາມຍືດຫຍຸ່ນເນື່ອງຈາກພວກເຂົາສາມາດບັນຈຸພາລາມິເຕີທີ່ບໍ່ຈໍາກັດຈໍານວນ.
ຕົວກໍານົດການຂອງຕົວແບບແລະສະຖານະຂອງຂໍ້ມູນທີ່ສັງເກດເຫັນແມ່ນຈໍາເປັນສໍາລັບການຄາດຄະເນຂໍ້ມູນ. ນີ້ແມ່ນບາງຕົວຢ່າງປົກກະຕິ: ຮູບແບບຫົວຂໍ້, ຕົ້ນໄມ້ການຕັດສິນໃຈ, ແລະ k-ເພື່ອນບ້ານໃກ້ຄຽງ.
21. ອະທິບາຍການກັ່ນຕອງຮ່ວມມື. ເຊັ່ນດຽວກັນກັບການກັ່ນຕອງເນື້ອຫາ?
ວິທີການທີ່ພະຍາຍາມແລະເປັນຄວາມຈິງສໍາລັບການສ້າງຄໍາແນະນໍາເນື້ອຫາທີ່ປັບແຕ່ງແມ່ນການກັ່ນຕອງຮ່ວມມື.
ຮູບແບບຂອງລະບົບການແນະນໍາທີ່ເອີ້ນວ່າການກັ່ນຕອງແບບຮ່ວມມືກັນບອກລ່ວງຫນ້າຂອງເນື້ອຫາສົດໆໂດຍການດຸ່ນດ່ຽງຄວາມມັກຂອງຜູ້ໃຊ້ກັບຄວາມສົນໃຈຮ່ວມກັນ.
ຄວາມມັກຂອງຜູ້ໃຊ້ແມ່ນສິ່ງດຽວທີ່ລະບົບຄໍາແນະນໍາທີ່ອີງໃສ່ເນື້ອຫາພິຈາລະນາ. ໃນແງ່ຂອງການເລືອກກ່ອນຂອງຜູ້ໃຊ້, ຄໍາແນະນໍາໃຫມ່ແມ່ນສະຫນອງໃຫ້ຈາກອຸປະກອນທີ່ກ່ຽວຂ້ອງ.
22. ເຈົ້າໝາຍເຖິງຫຍັງແທ້ໂດຍຊຸດເວລາ?
ຊຸດເວລາເປັນຊຸດຂອງຕົວເລກຕາມລໍາດັບ. ໃນໄລຍະເວລາທີ່ກໍານົດໄວ້, ມັນຕິດຕາມການເຄື່ອນໄຫວຂອງຈຸດຂໍ້ມູນທີ່ເລືອກແລະເກັບກໍາຂໍ້ມູນແຕ່ລະໄລຍະ.
ບໍ່ມີການປ້ອນຂໍ້ມູນເວລາຂັ້ນຕ່ຳ ຫຼືສູງສຸດສຳລັບຊຸດເວລາ.
ຊຸດເວລາຖືກນໍາໃຊ້ເລື້ອຍໆໂດຍນັກວິເຄາະເພື່ອວິເຄາະຂໍ້ມູນຕາມຄວາມຕ້ອງການທີ່ເປັນເອກະລັກຂອງພວກເຂົາ.
23. ອະທິບາຍການປ່ຽນແປງລະຫວ່າງ algorithms ການ Boosting Gradient ແລະ Random Forest.
ປ່າ Random:
- ຕົ້ນໄມ້ຕັດສິນໃຈຈຳນວນຫຼວງຫຼາຍຖືກໂຮມເຂົ້າກັນໃນຕອນທ້າຍ ແລະ ເປັນທີ່ຮູ້ຈັກເປັນປ່າສຸ່ມ.
- ໃນຂະນະທີ່ການເພີ່ມລະດັບສີເຮັດໃຫ້ຕົ້ນໄມ້ແຕ່ລະຕົ້ນເປັນເອກະລາດຈາກຕົ້ນອື່ນໆ, ປ່າໄມ້ແບບສຸ່ມກໍ່ສ້າງແຕ່ລະຕົ້ນຕໍ່ຄັ້ງ.
- Multiclass ການຊອກຄົ້ນຫາວັດຖຸ ເຮັດວຽກໄດ້ດີກັບປ່າໄມ້ແບບສຸ່ມ.
Gradient Boosting:
- ໃນຂະນະທີ່ປ່າໄມ້ Random ເຂົ້າຮ່ວມຕົ້ນໄມ້ຕັດສິນໃຈໃນຕອນທ້າຍຂອງຂະບວນການ, Gradient Boosting Machines ສົມທົບພວກມັນໃນຕອນເລີ່ມຕົ້ນ.
- ຖ້າພາລາມິເຕີຖືກປັບໃຫ້ເໝາະສົມ, ການເພີ່ມລະດັບຄວາມຖີ່ຈະດີກວ່າປ່າສຸ່ມໃນແງ່ຂອງຜົນໄດ້ຮັບ, ແຕ່ມັນບໍ່ແມ່ນທາງເລືອກທີ່ສະຫຼາດຖ້າຊຸດຂໍ້ມູນມີຈຸດນອກຫຼາຍ, ຄວາມຜິດປົກກະຕິ, ຫຼືສຽງລົບກວນເນື່ອງຈາກມັນອາດເຮັດໃຫ້ຕົວແບບນັ້ນເກີນຄວາມເໝາະສົມ.
- ເມື່ອມີຂໍ້ມູນທີ່ບໍ່ສົມດູນ, ຍ້ອນວ່າມີຢູ່ໃນການປະເມີນຄວາມສ່ຽງໃນເວລາທີ່ແທ້ຈິງ, ການຊຸກຍູ້ gradient ປະຕິບັດໄດ້ດີ.
24. ເປັນຫຍັງທ່ານຕ້ອງການມາຕຣິກເບື້ອງສັບສົນ? ມັນແມ່ນຫຍັງ?
ຕາຕະລາງທີ່ເອີ້ນວ່າ confusion matrix, ບາງຄັ້ງເອີ້ນວ່າ error matrix, ຖືກນໍາໃຊ້ຢ່າງກວ້າງຂວາງເພື່ອສະແດງໃຫ້ເຫັນວ່າຮູບແບບການຈັດປະເພດ, ຫຼືການຈັດປະເພດ, ປະຕິບັດໃນຊຸດຂໍ້ມູນການທົດສອບທີ່ຮູ້ຄຸນຄ່າທີ່ແທ້ຈິງ.
ມັນຊ່ວຍໃຫ້ພວກເຮົາເຫັນວ່າຕົວແບບ ຫຼື algorithm ເຮັດວຽກແນວໃດ. ມັນເຮັດໃຫ້ມັນງ່າຍດາຍສໍາລັບພວກເຮົາທີ່ຈະສັງເກດເຫັນຄວາມເຂົ້າໃຈຜິດໃນບັນດາວິຊາຕ່າງໆ.
ມັນເຮັດໜ້າທີ່ເປັນວິທີການປະເມີນວ່າຕົວແບບ ຫຼື algorithm ຖືກປະຕິບັດໄດ້ດີປານໃດ.
ການຄາດຄະເນຂອງຮູບແບບການຈັດປະເພດແມ່ນຖືກລວບລວມເຂົ້າໄປໃນຕາຕະລາງສັບສົນ. ຄ່ານັບຂອງປ້າຍກຳກັບແຕ່ລະຊັ້ນຖືກໃຊ້ເພື່ອແຍກຈຳນວນທັງໝົດຂອງການຄາດຄະເນທີ່ຖືກຕ້ອງ ແລະບໍ່ຖືກຕ້ອງ.
ມັນໃຫ້ລາຍລະອຽດກ່ຽວກັບຄວາມຜິດທີ່ເຮັດໂດຍຕົວຈັດປະເພດເຊັ່ນດຽວກັນກັບປະເພດຕ່າງໆຂອງຄວາມຜິດພາດທີ່ເກີດຈາກຕົວຈັດປະເພດ.
25. ການວິເຄາະອົງປະກອບຫຼັກການແມ່ນຫຍັງ?
ໂດຍການຫຼຸດຜ່ອນຈໍານວນຕົວແປທີ່ພົວພັນກັບກັນແລະກັນ, ເປົ້າຫມາຍແມ່ນເພື່ອຫຼຸດຜ່ອນຂະຫນາດຂອງການລວບລວມຂໍ້ມູນ. ແຕ່ມັນເປັນສິ່ງສໍາຄັນທີ່ຈະຮັກສາຄວາມຫຼາກຫຼາຍເທົ່າທີ່ເປັນໄປໄດ້.
ຕົວແປຖືກປ່ຽນເປັນຊຸດຕົວແປໃໝ່ທັງໝົດທີ່ເອີ້ນວ່າອົງປະກອບຫຼັກ.
PCs ເຫຼົ່ານີ້ແມ່ນເປັນຮູບທໍ່ກົມນັບຕັ້ງແຕ່ພວກມັນເປັນ eigenvectors ຂອງ matrix covariance.
26. ເປັນຫຍັງການຫມູນວຽນອົງປະກອບຈຶ່ງສໍາຄັນຕໍ່ PCA (ການວິເຄາະອົງປະກອບຫຼັກ)?
ການຫມຸນແມ່ນສໍາຄັນໃນ PCA ເພາະວ່າມັນເພີ່ມປະສິດທິພາບການແຍກຄວາມແຕກຕ່າງທີ່ໄດ້ຮັບໂດຍແຕ່ລະອົງປະກອບ, ເຮັດໃຫ້ການຕີຄວາມຫມາຍຂອງອົງປະກອບງ່າຍກວ່າ.
ພວກເຮົາຮຽກຮ້ອງໃຫ້ມີການຂະຫຍາຍອົງປະກອບເພື່ອສະແດງໃຫ້ເຫັນການປ່ຽນແປງອົງປະກອບຖ້າຫາກວ່າອົງປະກອບບໍ່ໄດ້ຫມຸນ.
27. ການເຮັດໃຫ້ເປັນປົກກະຕິ ແລະ ປົກກະຕິແຕກຕ່າງກັນແນວໃດ?
ການເຮັດໃຫ້ປົກກະຕິ:
ຂໍ້ມູນຖືກປ່ຽນແປງໃນລະຫວ່າງການປົກກະຕິ. ທ່ານຄວນປັບຂໍ້ມູນໃຫ້ເປັນປົກກະຕິຖ້າມັນມີເກັດທີ່ມີຄວາມແຕກຕ່າງກັນຢ່າງຫຼວງຫຼາຍ, ໂດຍສະເພາະຈາກຕ່ໍາຫາສູງ. ປັບແຕ່ລະຖັນເພື່ອໃຫ້ສະຖິຕິພື້ນຖານເຂົ້າກັນໄດ້ທັງໝົດ.
ເພື່ອຮັບປະກັນວ່າບໍ່ມີການສູນເສຍຄວາມຊັດເຈນ, ນີ້ສາມາດເປັນປະໂຫຍດ. ການກວດສອບສັນຍານໃນຂະນະທີ່ບໍ່ສົນໃຈສິ່ງລົບກວນແມ່ນຫນຶ່ງໃນຈຸດປະສົງຂອງການຝຶກອົບຮົມແບບຈໍາລອງ.
ມີໂອກາດ overfitting ຖ້າຕົວແບບໄດ້ຮັບການຄວບຄຸມຢ່າງສົມບູນເພື່ອຫຼຸດຜ່ອນຄວາມຜິດພາດ.
ປົກກະຕິ:
ໃນການເປັນປົກກະຕິ, ຫນ້າທີ່ຄາດຄະເນໄດ້ຖືກດັດແກ້. ນີ້ແມ່ນຂຶ້ນກັບການຄວບຄຸມບາງຢ່າງໂດຍຜ່ານການປົກກະຕິ, ເຊິ່ງເຮັດໃຫ້ການທໍາງານທີ່ເຫມາະສົມທີ່ງ່າຍດາຍກວ່າທີ່ສັບສົນ.
28. ການປົກກະຕິ ແລະ ມາດຕະຖານຕ່າງຈາກກັນແນວໃດ?
ສອງເຕັກນິກທີ່ໃຊ້ກັນຢ່າງກວ້າງຂວາງທີ່ສຸດສໍາລັບການປັບຂະ ໜາດ ຄຸນສົມບັດແມ່ນການປົກກະຕິແລະມາດຕະຖານ.
ການເຮັດໃຫ້ປົກກະຕິ:
- ການປັບຂະໜາດຂໍ້ມູນໃຫ້ເໝາະສົມກັບໄລຍະ [0,1] ເອີ້ນວ່າການເຮັດໃຫ້ເປັນປົກກະຕິ.
- ເມື່ອຕົວກໍານົດການທັງຫມົດຕ້ອງມີຂະຫນາດບວກດຽວກັນ, ການປົກກະຕິແມ່ນເປັນປະໂຫຍດ, ແຕ່ outliers ຂອງຊຸດຂໍ້ມູນຈະສູນເສຍໄປ.
ປົກກະຕິ:
- ຂໍ້ມູນຖືກປັບຂະໜາດໃຫ້ມີຄວາມໝາຍເປັນ 0 ແລະຄ່າບ່ຽງເບນມາດຕະຖານຂອງ 1 ເປັນສ່ວນໜຶ່ງຂອງຂະບວນການສ້າງມາດຕະຖານ (ຄວາມແຕກຕ່າງກັນຂອງຫົວໜ່ວຍ)
29. "ປັດໄຈອັດຕາເງິນເຟີ້ທີ່ປ່ຽນແປງ" ຫມາຍຄວາມວ່າແນວໃດ?
ອັດຕາສ່ວນຂອງການປ່ຽນແປງຂອງຕົວແບບຕໍ່ກັບຄວາມຜັນຜວນຂອງຕົວແບບທີ່ມີຕົວແປເອກະລາດອັນດຽວແມ່ນເປັນທີ່ຮູ້ຈັກເປັນປັດໄຈອັດຕາເງິນເຟີ້ການປ່ຽນແປງ (VIF).
VIF ຄາດຄະເນປະລິມານຂອງ multicollinearity ທີ່ມີຢູ່ໃນຊຸດຂອງຕົວແປ regression ຫຼາຍຊຸດ.
ຄວາມຜັນຜວນຂອງຕົວແບບ (VIF) ແບບມີຕົວແປແບບເອກະລາດໜຶ່ງຕົວແປ
30. ອີງຕາມຂະຫນາດຂອງຊຸດການຝຶກອົບຮົມ, ທ່ານຈະເລືອກເອົາປະເພດແນວໃດ?
ຮູບແບບທີ່ມີອະຄະຕິສູງ, ຄວາມແຕກຕ່າງທີ່ຕໍ່າຈະປະຕິບັດໄດ້ດີກວ່າຊຸດຝຶກຊ້ອມສັ້ນ ເນື່ອງຈາກການໃສ່ຕົວເກີນແມ່ນເປັນໄປໄດ້ໜ້ອຍກວ່າ. Naive Bayes ແມ່ນຕົວຢ່າງຫນຶ່ງ.
ເພື່ອເປັນຕົວແທນຂອງການໂຕ້ຕອບທີ່ສັບສົນຫຼາຍສໍາລັບຊຸດການຝຶກອົບຮົມຂະຫນາດໃຫຍ່, ຮູບແບບທີ່ມີຄວາມລໍາອຽງຕ່ໍາແລະຄວາມແຕກຕ່າງກັນສູງແມ່ນເຫມາະສົມ. Logistic regression ເປັນຕົວຢ່າງທີ່ດີ.
31. ສູດການຄິດໄລ່ອັນໃດໃນການຮຽນຮູ້ຂອງເຄື່ອງຈັກເອີ້ນວ່າ “ຜູ້ຮຽນຂີ້ຄ້ານ” ແລະຍ້ອນຫຍັງ?
ນັກຮຽນທີ່ຂີ້ຄ້ານ, KNN ແມ່ນລະບົບການຮຽນຮູ້ເຄື່ອງຈັກ. ເນື່ອງຈາກວ່າ K-NN ໄດນາມິກການຄິດໄລ່ໄລຍະທາງໃນແຕ່ລະຄັ້ງທີ່ມັນຕ້ອງການຈັດປະເພດແທນທີ່ຈະຮຽນຮູ້ຄ່າຫຼືຕົວແປທີ່ເຄື່ອງຈັກຮຽນຮູ້ຈາກຂໍ້ມູນການຝຶກອົບຮົມ, ມັນຈື່ຈໍາຊຸດຂໍ້ມູນການຝຶກອົບຮົມ.
ອັນນີ້ເຮັດໃຫ້ K-NN ເປັນຄົນຂີ້ຄ້ານຮຽນ.
32. ເສັ້ນໂຄ້ງ ROC ແລະ AUC ແມ່ນຫຍັງ?
ການປະຕິບັດຂອງຮູບແບບການຈັດປະເພດຢູ່ໃນທຸກເກນແມ່ນສະແດງເປັນຮູບແຕ້ມໂດຍເສັ້ນໂຄ້ງ ROC. ມັນມີອັດຕາທາງບວກທີ່ແທ້ຈິງແລະມາດຕະຖານອັດຕາທາງບວກຜິດ.
ເວົ້າງ່າຍໆ, ພື້ນທີ່ພາຍໃຕ້ເສັ້ນໂຄ້ງ ROC ຖືກເອີ້ນວ່າ AUC (ພື້ນທີ່ພາຍໃຕ້ເສັ້ນໂຄ້ງ ROC). ພື້ນທີ່ສອງມິຕິຂອງເສັ້ນໂຄ້ງ ROC ຈາກ (0,0) ຫາ AUC ແມ່ນການວັດແທກ (1,1). ສໍາລັບການປະເມີນຮູບແບບການຈັດປະເພດສອງ, ມັນແມ່ນການຈ້າງງານເປັນສະຖິຕິການປະຕິບັດ.
33. hyperparameters ແມ່ນຫຍັງ? ສິ່ງທີ່ເຮັດໃຫ້ພວກເຂົາເປັນເອກະລັກຈາກຕົວກໍານົດການຂອງຕົວແບບ?
ຕົວແປພາຍໃນຂອງຕົວແບບແມ່ນເປັນທີ່ຮູ້ຈັກເປັນຕົວກໍານົດການຂອງຕົວແບບ. ການນໍາໃຊ້ຂໍ້ມູນການຝຶກອົບຮົມ, ຄ່າຂອງພາລາມິເຕີແມ່ນປະມານ.
ບໍ່ຮູ້ຈັກກັບຕົວແບບ, hyperparameter ແມ່ນຕົວແປ. ມູນຄ່າບໍ່ສາມາດຖືກກໍານົດຈາກຂໍ້ມູນ, ດັ່ງນັ້ນພວກມັນຖືກໃຊ້ເລື້ອຍໆເພື່ອຄິດໄລ່ຕົວກໍານົດການແບບຈໍາລອງ.
34. F1 ຄະແນນ, ການເອີ້ນຄືນ, ແລະຄວາມແມ່ນຍໍາຫມາຍຄວາມວ່າແນວໃດ?
ມາດຕະການສັບສົນແມ່ນຕົວວັດແທກທີ່ໃຊ້ໃນການວັດແທກປະສິດທິພາບຂອງຮູບແບບການຈັດປະເພດ. ປະໂຫຍກຕໍ່ໄປນີ້ສາມາດໃຊ້ເພື່ອອະທິບາຍຕົວວັດແທກຄວາມສັບສົນໄດ້ດີຂຶ້ນ:
TP: ຄວາມຈິງໃນທາງບວກ - ນີ້ແມ່ນຄຸນຄ່າທາງບວກທີ່ຄາດວ່າຈະຖືກຕ້ອງ. ມັນຊີ້ໃຫ້ເຫັນວ່າຄ່າຂອງຊັ້ນຮຽນທີ່ຄາດຄະເນແລະຊັ້ນຮຽນຕົວຈິງແມ່ນທັງສອງບວກ.
TN: True Negatives- ເຫຼົ່ານີ້ແມ່ນຄ່າທາງລົບທີ່ຖືກຄາດຄະເນຢ່າງຖືກຕ້ອງ. ມັນຊີ້ໃຫ້ເຫັນວ່າທັງມູນຄ່າຂອງຊັ້ນຮຽນທີ່ແທ້ຈິງແລະຊັ້ນທີ່ຄາດວ່າຈະເປັນຄ່າລົບ.
ຄ່າເຫຼົ່ານີ້—ຄ່າບວກທີ່ບໍ່ຖືກຕ້ອງ ແລະຄ່າລົບທີ່ບໍ່ຖືກຕ້ອງ—ເກີດຂຶ້ນເມື່ອຫ້ອງຮຽນຕົວຈິງຂອງເຈົ້າແຕກຕ່າງຈາກຊັ້ນຮຽນທີ່ຄາດໄວ້.
ໃນປັດຈຸບັນ,
ອັດຕາສ່ວນຂອງອັດຕາທາງບວກທີ່ແທ້ຈິງ (TP) ການສັງເກດການທັງຫມົດທີ່ເຮັດໃນຫ້ອງຮຽນທີ່ແທ້ຈິງແມ່ນເອີ້ນວ່າ recall, ຍັງຮູ້ຈັກເປັນຄວາມອ່ອນໄຫວ.
ການເອີ້ນຄືນແມ່ນ TP/(TP+FN).
ຄວາມແມ່ນຍໍາແມ່ນການວັດແທກຂອງມູນຄ່າການຄາດເດົາທາງບວກ, ເຊິ່ງປຽບທຽບຈໍານວນຜົນບວກທີ່ຕົວແບບຄາດຄະເນຢ່າງແທ້ຈິງວ່າຈໍານວນຜົນບວກທີ່ຖືກຕ້ອງມັນຄາດຄະເນຢ່າງຖືກຕ້ອງ.
ຄວາມຊັດເຈນແມ່ນ TP/(TP + FP)
metric ການປະຕິບັດທີ່ງ່າຍທີ່ສຸດທີ່ຈະເຂົ້າໃຈແມ່ນຄວາມຖືກຕ້ອງ, ເຊິ່ງເປັນພຽງແຕ່ອັດຕາສ່ວນຂອງການສັງເກດການທີ່ຖືກຕ້ອງຕາມການສັງເກດການທັງຫມົດ.
ຄວາມຖືກຕ້ອງແມ່ນເທົ່າກັບ (TP+TN)/(TP+FP+FN+TN).
Precision ແລະ Recall ແມ່ນນ້ໍາຫນັກແລະສະເລ່ຍເພື່ອໃຫ້ຄະແນນ F1. ດັ່ງນັ້ນ, ຄະແນນນີ້ພິຈາລະນາທັງທາງບວກທີ່ບໍ່ຖືກຕ້ອງແລະທາງລົບທີ່ບໍ່ຖືກຕ້ອງ.
F1 ມັກຈະມີຄຸນຄ່າຫຼາຍກວ່າຄວາມຖືກຕ້ອງ, ໂດຍສະເພາະຖ້າທ່ານມີການແຈກຢາຍແບບບໍ່ເທົ່າທຽມກັນ, ເຖິງແມ່ນວ່າ intuitively ມັນບໍ່ງ່າຍດາຍທີ່ຈະເຂົ້າໃຈເຖິງຄວາມຖືກຕ້ອງ.
ຄວາມຖືກຕ້ອງທີ່ດີທີ່ສຸດແມ່ນບັນລຸໄດ້ເມື່ອຄ່າໃຊ້ຈ່າຍຂອງບວກທີ່ບໍ່ຖືກຕ້ອງແລະລົບທີ່ບໍ່ຖືກຕ້ອງແມ່ນປຽບທຽບ. ມັນດີກວ່າທີ່ຈະລວມເອົາທັງ Precision ແລະ Recall ຖ້າຄ່າໃຊ້ຈ່າຍທີ່ກ່ຽວຂ້ອງກັບຜົນບວກທີ່ບໍ່ຖືກຕ້ອງແລະຜົນລົບທີ່ບໍ່ຖືກຕ້ອງແຕກຕ່າງກັນຢ່າງຫຼວງຫຼາຍ.
35. ການກວດສອບຂ້າມຜ່ານແມ່ນຫຍັງ?
ວິທີການຍົກຕົວຢ່າງທາງສະຖິຕິທີ່ເອີ້ນວ່າການກວດສອບຂ້າມຜ່ານໃນການຮຽນຮູ້ເຄື່ອງຈັກໃຊ້ຊຸດຂໍ້ມູນຍ່ອຍຫຼາຍໆຊຸດເພື່ອຝຶກອົບຮົມ ແລະປະເມີນລະບົບການຮຽນຮູ້ຂອງເຄື່ອງຈັກໃນຫຼາຍໆຮອບ.
ຂໍ້ມູນຊຸດໃຫມ່ທີ່ບໍ່ໄດ້ໃຊ້ໃນການຝຶກອົບຮົມແບບຈໍາລອງໄດ້ຖືກທົດສອບໂດຍໃຊ້ການກວດສອບຂ້າມເພື່ອເບິ່ງວ່າຕົວແບບຄາດຄະເນມັນດີເທົ່າໃດ. ການ overfitting ຂໍ້ມູນແມ່ນປ້ອງກັນຜ່ານການກວດສອບຂ້າມ.
K-Fold ວິທີການຍົກຕົວຢ່າງທີ່ມັກໃຊ້ຫຼາຍທີ່ສຸດຈະແບ່ງຊຸດຂໍ້ມູນທັງໝົດອອກເປັນຊຸດ K ທີ່ມີຂະໜາດເທົ່າກັນ. ມັນຖືກເອີ້ນວ່າການກວດສອບຂ້າມ.
36. ໃຫ້ເວົ້າວ່າທ່ານຄົ້ນພົບວ່າຕົວແບບຂອງທ່ານມີຄວາມແຕກຕ່າງກັນຢ່າງຫຼວງຫຼາຍ. ໃນຄວາມຄິດເຫັນຂອງທ່ານ, algorithm ໃດທີ່ເຫມາະສົມທີ່ສຸດເພື່ອຈັດການກັບສະຖານະການນີ້?
ການຄຸ້ມຄອງການປ່ຽນແປງສູງ
ພວກເຮົາຄວນໃຊ້ເຕັກນິກການກະເປົ໋າສໍາລັບບັນຫາທີ່ມີການປ່ຽນແປງຂະຫນາດໃຫຍ່.
ການເກັບຕົວຢ່າງຊໍ້າຄືນຂອງຂໍ້ມູນແບບສຸ່ມຈະຖືກໃຊ້ໂດຍຂັ້ນຕອນການໃສ່ຖົງເພື່ອແບ່ງຂໍ້ມູນອອກເປັນກຸ່ມຍ່ອຍ. ເມື່ອຂໍ້ມູນຖືກແບ່ງອອກ, ພວກເຮົາສາມາດໃຊ້ຂໍ້ມູນແບບສຸ່ມແລະຂັ້ນຕອນການຝຶກອົບຮົມສະເພາະເພື່ອສ້າງກົດລະບຽບ.
ຫຼັງຈາກນັ້ນ, ການສໍາຫຼວດສາມາດຖືກນໍາໃຊ້ເພື່ອສົມທົບການຄາດເດົາຂອງຕົວແບບ.
37. ຄວາມແຕກຕ່າງຂອງການຖົດຖອຍຂອງ Ridge ຈາກ Lasso regression ແມ່ນຫຍັງ?
ສອງວິທີການປົກກະຕິທີ່ຖືກນໍາໃຊ້ຢ່າງກວ້າງຂວາງແມ່ນ Lasso (ຍັງເອີ້ນວ່າ L1) ແລະ Ridge (ບາງຄັ້ງເອີ້ນວ່າ L2) regression. ພວກມັນຖືກນໍາໃຊ້ເພື່ອປ້ອງກັນການ overfitting ຂອງຂໍ້ມູນ.
ເພື່ອຄົ້ນພົບການແກ້ໄຂທີ່ດີທີ່ສຸດແລະຫຼຸດຜ່ອນຄວາມສັບສົນ, ເຕັກນິກເຫຼົ່ານີ້ຖືກໃຊ້ເພື່ອລົງໂທດຄ່າສໍາປະສິດ. ໂດຍການລົງໂທດທັງໝົດຂອງຄ່າຢ່າງແທ້ຈິງຂອງຄ່າສໍາປະສິດ, ການຖົດຖອຍຂອງ Lasso ດໍາເນີນການ.
ຫນ້າທີ່ການລົງໂທດໃນ Ridge ຫຼື L2 regression ແມ່ນໄດ້ມາຈາກຜົນລວມຂອງສີ່ຫລ່ຽມຂອງຄ່າສໍາປະສິດ.
38. ອັນໃດສໍາຄັນກວ່າ: ການປະຕິບັດຕົວແບບຫຼືຄວາມຖືກຕ້ອງຂອງຕົວແບບ? ອັນໃດ ແລະ ເປັນຫຍັງເຈົ້າຈຶ່ງມັກມັນ?
ນີ້ແມ່ນຄໍາຖາມທີ່ຫຼອກລວງ, ດັ່ງນັ້ນທໍາອິດຄວນເຂົ້າໃຈສິ່ງທີ່ Model Performance ແມ່ນຫຍັງ. ຖ້າການປະຕິບັດຖືກກໍານົດເປັນຄວາມໄວ, ຫຼັງຈາກນັ້ນມັນຂຶ້ນກັບປະເພດຂອງຄໍາຮ້ອງສະຫມັກ; ຄໍາຮ້ອງສະຫມັກໃດໆທີ່ກ່ຽວຂ້ອງກັບສະຖານະການໃນເວລາທີ່ແທ້ຈິງຈະຕ້ອງໃຊ້ຄວາມໄວສູງເປັນອົງປະກອບທີ່ສໍາຄັນ.
ຕົວຢ່າງ, ຜົນການຄົ້ນຫາທີ່ດີທີ່ສຸດຈະກາຍເປັນມູນຄ່າຫນ້ອຍຖ້າຜົນການຄົ້ນຫາໃຊ້ເວລາດົນເກີນໄປທີ່ຈະມາຮອດ.
ຖ້າການປະຕິບັດຖືກນໍາໃຊ້ເປັນເຫດຜົນສໍາລັບເຫດຜົນທີ່ຄວາມຊັດເຈນແລະການເອີ້ນຄືນຄວນຈະຖືກຈັດລໍາດັບຄວາມສໍາຄັນຂ້າງເທິງຄວາມຖືກຕ້ອງ, ຄະແນນ F1 ຈະເປັນປະໂຫຍດຫຼາຍກ່ວາຄວາມຖືກຕ້ອງໃນການສະແດງກໍລະນີທຸລະກິດສໍາລັບຊຸດຂໍ້ມູນໃດໆທີ່ບໍ່ສົມດຸນ.
39. ເຈົ້າຈະຈັດການຊຸດຂໍ້ມູນທີ່ມີຄວາມບໍ່ສະເໝີພາບກັນແນວໃດ?
ຊຸດຂໍ້ມູນທີ່ບໍ່ສົມດຸນສາມາດໄດ້ຮັບຜົນປະໂຫຍດຈາກເຕັກນິກການເກັບຕົວຢ່າງ. ການເກັບຕົວຢ່າງສາມາດເຮັດໄດ້ໃນແບບທີ່ຕໍ່າກວ່າຫຼືແບບ oversampled.
ພາຍໃຕ້ການເກັບຕົວຢ່າງຊ່ວຍໃຫ້ພວກເຮົາສາມາດຫຍໍ້ຂະຫນາດຂອງຊັ້ນຮຽນສ່ວນໃຫຍ່ໃຫ້ກົງກັບຊົນກຸ່ມນ້ອຍ, ເຊິ່ງຊ່ວຍເພີ່ມຄວາມໄວໃນການເກັບຮັກສາແລະການປະຕິບັດເວລາແລ່ນແຕ່ຍັງສາມາດສົ່ງຜົນໃຫ້ການສູນເສຍຂໍ້ມູນທີ່ມີຄຸນຄ່າ.
ເພື່ອແກ້ໄຂບັນຫາການສູນເສຍຂໍ້ມູນທີ່ເກີດຈາກ oversampling, ພວກເຮົາ upsample ຊົນເຜົ່າຊົນເຜົ່າ; ຢ່າງໃດກໍຕາມ, ນີ້ເຮັດໃຫ້ພວກເຮົາເຂົ້າໄປໃນບັນຫາ overfitting.
ຍຸດທະສາດເພີ່ມເຕີມລວມມີ:
- Cluster-Based Over Sampling- ຕົວຢ່າງຂອງຊົນກຸ່ມນ້ອຍ ແລະກຸ່ມສ່ວນໃຫຍ່ ແມ່ນຂຶ້ນກັບເຕັກນິກການຈັດກຸ່ມຂອງ K-means ໃນສະຖານະການນີ້. ນີ້ແມ່ນເຮັດເພື່ອຊອກຫາກຸ່ມຊຸດຂໍ້ມູນ. ຈາກນັ້ນ, ແຕ່ລະກຸ່ມຈະຖືກເອົາຕົວຢ່າງມາໃຫ້ຫຼາຍຊັ້ນເພື່ອໃຫ້ທຸກຊັ້ນຮຽນມີຂະໜາດດຽວກັນ ແລະທຸກກຸ່ມພາຍໃນຫ້ອງຮຽນມີຈຳນວນຕົວຢ່າງເທົ່າກັນ.
- SMOTE: Synthetic Minority Over-sampling Technique- ຂໍ້ມູນຈາກກຸ່ມຊົນເຜົ່າສ່ວນໜ້ອຍຖືກໃຊ້ເປັນຕົວຢ່າງ, ຫລັງຈາກນັ້ນມີຕົວຢ່າງປອມເພີ່ມເຕີມທີ່ທຽບໄດ້ກັບມັນຖືກຜະລິດ ແລະເພີ່ມໃສ່ຊຸດຂໍ້ມູນຕົ້ນສະບັບ. ວິທີການນີ້ເຮັດວຽກໄດ້ດີກັບຈຸດຂໍ້ມູນຕົວເລກ.
40. ເຈົ້າສາມາດແຍກແຍະລະຫວ່າງການຊຸກຍູ້ແລະການໃສ່ຖົງໄດ້ແນວໃດ?
ເຕັກນິກ Ensemble ມີລຸ້ນທີ່ເອີ້ນວ່າ bagging ແລະ boosting.
ກະເປົາ-
ສໍາລັບສູດການຄິດໄລ່ທີ່ມີຄວາມແຕກຕ່າງສູງ, ການໃສ່ຖົງແມ່ນເຕັກນິກທີ່ໃຊ້ເພື່ອຫຼຸດຄວາມແຕກຕ່າງ. ຫນຶ່ງໃນຄອບຄົວດັ່ງກ່າວຂອງການຈັດປະເພດທີ່ມັກຈະມີຄວາມລໍາອຽງແມ່ນຄອບຄົວຕົ້ນໄມ້ການຕັດສິນໃຈ.
ປະເພດຂອງຂໍ້ມູນທີ່ຕົ້ນໄມ້ຕັດສິນໃຈໄດ້ຮັບການຝຶກອົບຮົມມີຜົນກະທົບຢ່າງຫຼວງຫຼາຍຕໍ່ການປະຕິບັດຂອງມັນ. ດ້ວຍເຫດນີ້, ເຖິງແມ່ນວ່າມີການປັບລະອຽດສູງຫຼາຍ, ການເຮັດໃຫ້ຜົນໄດ້ຮັບໂດຍທົ່ວໄປແມ່ນຍາກກວ່າທີ່ຈະໄດ້ມາໃນພວກມັນ.
ຖ້າຂໍ້ມູນການຝຶກອົບຮົມຂອງຕົ້ນໄມ້ຕັດສິນໃຈຖືກປ່ຽນແປງ, ຜົນໄດ້ຮັບຈະແຕກຕ່າງກັນຢ່າງຫຼວງຫຼາຍ.
ດັ່ງນັ້ນ, ຖົງໃສ່ຖົງຖືກນໍາໃຊ້, ເຊິ່ງມີການສ້າງຕົ້ນໄມ້ການຕັດສິນໃຈຫຼາຍ, ແຕ່ລະຄົນໄດ້ຮັບການຝຶກອົບຮົມໂດຍໃຊ້ຕົວຢ່າງຂອງຂໍ້ມູນຕົ້ນສະບັບ, ແລະຜົນໄດ້ຮັບສຸດທ້າຍແມ່ນສະເລ່ຍຂອງຮູບແບບທີ່ແຕກຕ່າງກັນທັງຫມົດເຫຼົ່ານີ້.
ການຊຸກຍູ້:
ການຊຸກຍູ້ແມ່ນເຕັກນິກຂອງການຄາດຄະເນທີ່ມີລະບົບການຈັດປະເພດ n-weak ເຊິ່ງແຕ່ລະຕົວຈັດປະເພດທີ່ອ່ອນແອເຮັດໃຫ້ຂໍ້ບົກຜ່ອງຂອງຕົວຈັດປະເພດທີ່ເຂັ້ມແຂງກວ່າ. ພວກເຮົາອ້າງອີງເຖິງຕົວຈັດປະເພດທີ່ປະຕິບັດບໍ່ດີຕໍ່ຊຸດຂໍ້ມູນທີ່ເປັນ "ຕົວຈັດປະເພດທີ່ອ່ອນແອ."
ການຊຸກຍູ້ແມ່ນແນ່ນອນເປັນຂະບວນການແທນທີ່ຈະເປັນສູດການຄິດໄລ່. ການຖົດຖອຍຂອງ logistic ແລະຕົ້ນໄມ້ການຕັດສິນໃຈຕື້ນແມ່ນຕົວຢ່າງທົ່ວໄປຂອງການຈັດປະເພດທີ່ອ່ອນແອ.
Adaboost, Gradient Boosting, ແລະ XGBoost ແມ່ນສອງລະບົບການຊຸກຍູ້ທີ່ນິຍົມຫຼາຍທີ່ສຸດ, ຢ່າງໃດກໍຕາມ, ມີຫຼາຍອັນ.
41. ອະທິບາຍຄວາມແຕກຕ່າງລະຫວ່າງການຮຽນຮູ້ແບບ inductive ແລະ deductive.
ເມື່ອຮຽນຮູ້ໂດຍຕົວຢ່າງຈາກຊຸດຂອງຕົວຢ່າງທີ່ສັງເກດເຫັນ, ແບບຈໍາລອງໃຊ້ການຮຽນຮູ້ແບບ inductive ເພື່ອມາຮອດການສະຫລຸບໂດຍທົ່ວໄປ. ໃນທາງກົງກັນຂ້າມ, ດ້ວຍການຮຽນຮູ້ແບບຫັກລົບ, ແບບຈໍາລອງໃຊ້ຜົນໄດ້ຮັບກ່ອນທີ່ຈະປະກອບເປັນຂອງຕົນເອງ.
ການຮຽນຮູ້ແບບ inductive ແມ່ນຂະບວນການຂອງການແຕ້ມບົດສະຫຼຸບຈາກການສັງເກດການ.
ການຮຽນຮູ້ແບບຫັກລົບແມ່ນຂະບວນການສ້າງການສັງເກດໂດຍອີງໃສ່ການສະຫຼຸບ.
ສະຫຼຸບ
ຊົມເຊີຍ! ນີ້ແມ່ນຄຳຖາມສໍາພາດ 40 ແລະຂ້າງເທິງສໍາລັບການຮຽນຮູ້ເຄື່ອງຈັກທີ່ຕອນນີ້ເຈົ້າຮູ້ຄໍາຕອບແລ້ວ. ວິທະຍາສາດຂໍ້ມູນ ແລະ ປັນຍາປະດິດ ອາຊີບຈະສືບຕໍ່ມີຄວາມຕ້ອງການຕາມຄວາມກ້າວຫນ້າຂອງເຕັກໂນໂລຢີ.
ຜູ້ສະຫມັກທີ່ປັບປຸງຄວາມຮູ້ຂອງເຂົາເຈົ້າກ່ຽວກັບເຕັກໂນໂລຢີທີ່ທັນສະ ໄໝ ເຫຼົ່ານີ້ແລະປັບປຸງຊຸດທັກສະຂອງພວກເຂົາສາມາດຊອກຫາຄວາມເປັນໄປໄດ້ການຈ້າງງານທີ່ຫລາກຫລາຍດ້ວຍຄ່າຈ້າງທີ່ແຂ່ງຂັນ.
ທ່ານສາມາດສືບຕໍ່ການຕອບການສໍາພາດໃນປັດຈຸບັນທີ່ທ່ານມີຄວາມເຂົ້າໃຈຢ່າງຫນັກແຫນ້ນກ່ຽວກັບວິທີການຕອບບາງຄໍາຖາມສໍາພາດການຮຽນຮູ້ເຄື່ອງຈັກທີ່ຖືກຖາມຢ່າງກວ້າງຂວາງ.
ອີງຕາມເປົ້າໝາຍຂອງທ່ານ, ໃຫ້ເຮັດຂັ້ນຕອນຕໍ່ໄປນີ້. ກະກຽມສໍາລັບການສໍາພາດໂດຍການຢ້ຽມຢາມຂອງ Hashdork ຊຸດສໍາພາດ.
ອອກຈາກ Reply ເປັນ