ສາລະບານ[ເຊື່ອງ][ສະແດງ]
ໂລກມີການປ່ຽນແປງຢ່າງໄວວາເນື່ອງຈາກປັນຍາປະດິດ, ແລະການຮຽນຮູ້ເຄື່ອງຈັກ, ເຊິ່ງມີຜົນກະທົບກັບທຸກໆດ້ານຂອງຊີວິດປະຈໍາວັນຂອງພວກເຮົາ.
ຈາກຜູ້ຊ່ວຍສຽງທີ່ໃຊ້ NLP ແລະການຮຽນຮູ້ຂອງເຄື່ອງຈັກເພື່ອຈອງການນັດໝາຍ, ຊອກຫາເຫດການໃນປະຕິທິນຂອງພວກເຮົາ, ແລະຫຼິ້ນເພງໃຫ້ກັບອຸປະກອນທີ່ມີຄວາມຖືກຕ້ອງຫຼາຍຈົນເຂົາເຈົ້າສາມາດຄາດການຄວາມຕ້ອງການຂອງພວກເຮົາໄດ້ກ່ອນທີ່ພວກເຮົາຈະພິຈາລະນາພວກມັນ.
ຄອມພິວເຕີສາມາດຫຼິ້ນໝາກຮຸກ, ເຮັດການຜ່າຕັດ, ແລະພັດທະນາໄປສູ່ເຄື່ອງຈັກທີ່ສະຫຼາດກວ່າ, ຄ້າຍຄືກັບມະນຸດດ້ວຍການຊ່ວຍເຫຼືອຂອງເຄື່ອງຈັກການຮຽນຮູ້ເຄື່ອງຈັກ.
ພວກເຮົາຢູ່ໃນເວລາທີ່ມີຄວາມກ້າວຫນ້າທາງດ້ານເຕັກໂນໂລຢີຢ່າງຕໍ່ເນື່ອງ, ແລະໂດຍການເບິ່ງວິທີການຄອມພິວເຕີໄດ້ພັດທະນາຜ່ານເວລາ, ພວກເຮົາສາມາດເຮັດການຄາດເດົາກ່ຽວກັບສິ່ງທີ່ຈະເກີດຂື້ນໃນອະນາຄົດ.
ປະຊາທິປະໄຕຂອງເຄື່ອງມືແລະວິທີການຄອມພິວເຕີແມ່ນຫນຶ່ງໃນລັກສະນະທີ່ສໍາຄັນຂອງການປະຕິວັດທີ່ໂດດເດັ່ນ. ນັກວິທະຍາສາດຂໍ້ມູນ ໄດ້ສ້າງຄອມພິວເຕີທີ່ມີພະລັງງານຂະຫຍາຍຕົວໃນໄລຍະ XNUMX ປີທີ່ຜ່ານມາໂດຍການປະຕິບັດວິທີການທີ່ທັນສະໄຫມຢ່າງບໍ່ມີຄວາມພະຍາຍາມ. ຜົນໄດ້ຮັບແມ່ນຫນ້າປະຫລາດໃຈ.
ໃນບົດຂຽນນີ້, ພວກເຮົາຈະເບິ່ງຢ່າງໃກ້ຊິດ ການຮຽນຮູ້ເຄື່ອງຈັກ ສູດການຄິດໄລ່ ແລະການປ່ຽນແປງທັງໝົດຂອງພວກມັນ.
ດັ່ງນັ້ນ, Machine Learning algorithms ແມ່ນຫຍັງ?
ວິທີການທີ່ໃຊ້ໂດຍລະບົບ AI ເພື່ອປະຕິບັດວຽກງານຂອງມັນ - ໂດຍທົ່ວໄປແລ້ວ, ການຄາດຄະເນມູນຄ່າຜົນຜະລິດຈາກຂໍ້ມູນປ້ອນຂໍ້ມູນ - ເປັນທີ່ຮູ້ຈັກເປັນວິທີການຮຽນຮູ້ເຄື່ອງຈັກ.
ຂັ້ນຕອນການຮຽນຮູ້ເຄື່ອງຈັກແມ່ນຂະບວນການທີ່ນໍາໃຊ້ຂໍ້ມູນແລະຖືກນໍາໃຊ້ເພື່ອສ້າງຕົວແບບການຮຽນຮູ້ເຄື່ອງຈັກທີ່ກຽມພ້ອມສໍາລັບການຜະລິດ. ຖ້າການຮຽນຮູ້ເຄື່ອງຈັກແມ່ນລົດໄຟທີ່ເຮັດວຽກ, ຫຼັງຈາກນັ້ນເຄື່ອງຈັກການຮຽນຮູ້ເຄື່ອງຈັກແມ່ນເຄື່ອງຈັກທີ່ເຄື່ອນຍ້າຍວຽກ.
ວິທີການຮຽນຮູ້ເຄື່ອງຈັກທີ່ດີທີ່ສຸດທີ່ຈະໃຊ້ຈະຖືກກໍານົດໂດຍບັນຫາທຸລະກິດທີ່ເຈົ້າພະຍາຍາມແກ້ໄຂ, ປະເພດຂອງຊຸດຂໍ້ມູນທີ່ເຈົ້າກໍາລັງໃຊ້, ແລະຊັບພະຍາກອນທີ່ເຈົ້າມີ.
ສູດການຄິດໄລ່ການຮຽນຮູ້ເຄື່ອງຈັກແມ່ນຕົວແບບທີ່ປ່ຽນຊຸດຂໍ້ມູນໃຫ້ເປັນຕົວແບບ. ອີງຕາມການຈັດລຽງຂອງບັນຫາທີ່ທ່ານກໍາລັງພະຍາຍາມຕອບ, ພະລັງງານການປະມວນຜົນທີ່ມີຢູ່, ແລະປະເພດຂອງຂໍ້ມູນທີ່ທ່ານມີ, ການຊີ້ນໍາ, ບໍ່ມີການຄວບຄຸມດູແລ, ຫຼືວິທີການເສີມສ້າງການຮຽນຮູ້ສາມາດປະຕິບັດໄດ້ດີ.
ດັ່ງນັ້ນ, ພວກເຮົາໄດ້ເວົ້າກ່ຽວກັບການຮຽນຮູ້ແບບຄວບຄຸມ, ບໍ່ມີການເບິ່ງແຍງ, ແລະການເສີມສ້າງ, ແຕ່ວ່າພວກເຂົາແມ່ນຫຍັງ? ໃຫ້ສໍາຫຼວດເຂົາເຈົ້າ.
ການຮຽນຮູ້ທີ່ມີການຄວບຄຸມ, ບໍ່ມີການຄວບຄຸມແລະເສີມຂະຫຍາຍການ
ການຮຽນຮູ້ທີ່ຖືກຄວບຄຸມ
ໃນການຮຽນຮູ້ທີ່ມີການເບິ່ງແຍງ, ຮູບແບບ AI ໄດ້ຖືກພັດທະນາໂດຍອີງໃສ່ວັດສະດຸປ້ອນທີ່ໄດ້ສະຫນອງໃຫ້ແລະປ້າຍຊື່ທີ່ເປັນຕົວແທນຂອງຜົນໄດ້ຮັບທີ່ຄາດຄະເນ. ອີງຕາມການປ້ອນຂໍ້ມູນແລະຜົນໄດ້ຮັບ, ຕົວແບບການພັດທະນາສົມຜົນການສ້າງແຜນທີ່, ແລະການນໍາໃຊ້ສົມຜົນການສ້າງແຜນທີ່, ມັນຄາດຄະເນປ້າຍຂອງການນໍາເຂົ້າໃນອະນາຄົດ.
ໃຫ້ເວົ້າວ່າພວກເຮົາຈໍາເປັນຕ້ອງສ້າງແບບຈໍາລອງທີ່ສາມາດຈໍາແນກລະຫວ່າງຫມາແລະແມວ. ຮູບຫຼາຍຮູບຂອງແມວ ແລະ ໝາຖືກປ້ອນໃສ່ຕົວແບບທີ່ມີປ້າຍຊີ້ບອກບໍ່ວ່າຈະເປັນແມວ ຫຼື ໝາ ເພື່ອຝຶກຕົວແບບ.
ຮູບແບບສະແຫວງຫາການສ້າງຕັ້ງສົມຜົນທີ່ກ່ຽວຂ້ອງກັບປ້າຍຊື່ຢູ່ໃນຮູບຖ່າຍທີ່ປ້ອນໃສ່ກັບຮູບພາບເຫຼົ່ານັ້ນ. ເຖິງແມ່ນວ່າຕົວແບບບໍ່ເຄີຍເຫັນຮູບພາບມາກ່ອນ, ຫຼັງຈາກການຝຶກອົບຮົມ, ມັນສາມາດລະບຸໄດ້ວ່າມັນເປັນຂອງແມວຫຼືຫມາ.
ການຮຽນຮູ້ທີ່ບໍ່ມີການຄວບຄຸມ
ການຮຽນຮູ້ທີ່ບໍ່ມີການເບິ່ງແຍງກ່ຽວຂ້ອງກັບການຝຶກອົບຮົມແບບຈໍາລອງ AI ພຽງແຕ່ຢູ່ໃນວັດສະດຸປ້ອນໂດຍບໍ່ມີການຕິດປ້າຍຊື່. ຮູບແບບການແບ່ງຂໍ້ມູນການປ້ອນເຂົ້າເປັນກຸ່ມທີ່ມີລັກສະນະທີ່ກ່ຽວຂ້ອງ.
ຫຼັງຈາກນັ້ນ, ປ້າຍຊື່ໃນອະນາຄົດຂອງວັດສະດຸປ້ອນຈະຖືກຄາດຄະເນຂຶ້ນກັບວ່າຄຸນລັກສະນະຂອງມັນກົງກັບການຈັດປະເພດໃດນຶ່ງ. ພິຈາລະນາສະຖານະການທີ່ພວກເຮົາຕ້ອງແບ່ງກຸ່ມຂອງບານສີແດງແລະສີຟ້າອອກເປັນສອງປະເພດ.
ໃຫ້ສົມມຸດວ່າລັກສະນະອື່ນໆຂອງບານແມ່ນຄືກັນ, ຍົກເວັ້ນສີ. ບົນພື້ນຖານຂອງວິທີການທີ່ມັນສາມາດແບ່ງບານອອກເປັນສອງຫ້ອງຮຽນ, ຮູບແບບຊອກຫາລັກສະນະທີ່ແຕກຕ່າງກັນລະຫວ່າງບານໄດ້.
ບານສອງກຸ່ມ—ໜຶ່ງສີຟ້າ ແລະໜຶ່ງສີແດງ—ຖືກຜະລິດເມື່ອບານຖືກແບ່ງອອກເປັນສອງກຸ່ມໂດຍອີງໃສ່ສີຂອງພວກມັນ.
ການຮຽນຮູ້ການເສີມສ້າງ
ໃນການຮຽນຮູ້ການເສີມສ້າງ, ຮູບແບບ AI ຊອກຫາການເພີ່ມກໍາໄລໂດຍລວມໂດຍການປະຕິບັດເຊັ່ນດຽວກັນກັບມັນສາມາດເຮັດໄດ້ໃນສະຖານະການສະເພາະໃດຫນຶ່ງ. ຄວາມຄິດເຫັນກ່ຽວກັບຜົນໄດ້ຮັບທີ່ຜ່ານມາຂອງມັນຊ່ວຍໃຫ້ຕົວແບບຮຽນຮູ້.
ຄິດກ່ຽວກັບສະຖານະການໃນເວລາທີ່ຫຸ່ນຍົນໄດ້ຮັບຄໍາແນະນໍາໃຫ້ເລືອກເອົາເສັ້ນທາງລະຫວ່າງຈຸດ A ແລະ B. ທໍາອິດຫຸ່ນຍົນຈະເລືອກເອົາທັງສອງວິຊາເພາະວ່າມັນບໍ່ມີປະສົບການມາກ່ອນ.
ຫຸ່ນຍົນໄດ້ຮັບການປ້ອນຂໍ້ມູນໃນເສັ້ນທາງທີ່ມັນໃຊ້ ແລະໄດ້ຮັບຄວາມຮູ້ຈາກມັນ. ຫຸ່ນຍົນສາມາດນໍາໃຊ້ການປ້ອນຂໍ້ມູນເພື່ອແກ້ໄຂບັນຫາໃນຄັ້ງຕໍ່ໄປທີ່ມັນພົບສະຖານະການທີ່ຄ້າຍຄືກັນ.
ຕົວຢ່າງ, ຖ້າຫຸ່ນຍົນເລືອກທາງເລືອກ B ແລະໄດ້ຮັບລາງວັນ, ເຊັ່ນ: ຄວາມຄິດເຫັນໃນທາງບວກ, ມັນເຂົ້າໃຈວ່າເວລານີ້ມັນຕ້ອງເລືອກວິທີ B ເພື່ອເພີ່ມລາງວັນຂອງມັນ.
ດຽວນີ້, ໃນທີ່ສຸດສິ່ງທີ່ເຈົ້າ ກຳ ລັງລໍຖ້າຢູ່, ແມ່ນ algorithms.
ຂັ້ນຕອນການຮຽນຮູ້ເຄື່ອງຈັກຕົ້ນຕໍ
1. Linear Regression
ວິທີການຮຽນຮູ້ເຄື່ອງຈັກທີ່ງ່າຍດາຍທີ່ສຸດທີ່ deviates ຈາກການຮຽນຮູ້ທີ່ມີການເບິ່ງແຍງແມ່ນການຖົດຖອຍແບບເສັ້ນ. ດ້ວຍຄວາມຮູ້ຈາກຕົວແປເອກະລາດ, ສ່ວນຫຼາຍແມ່ນຖືກນໍາໃຊ້ເພື່ອແກ້ໄຂບັນຫາການຖົດຖອຍແລະສ້າງການຄາດຄະເນກ່ຽວກັບຕົວແປທີ່ຂຶ້ນກັບຢ່າງຕໍ່ເນື່ອງ.
ຊອກຫາເສັ້ນທີ່ເຫມາະສົມທີ່ສຸດ, ເຊິ່ງສາມາດຊ່ວຍໃນການຄາດຄະເນຜົນໄດ້ຮັບສໍາລັບຕົວແປທີ່ຂຶ້ນກັບຢ່າງຕໍ່ເນື່ອງ, ແມ່ນຈຸດປະສົງຂອງການຖົດຖອຍຂອງເສັ້ນ. ລາຄາເຮືອນ, ອາຍຸ, ແລະຄ່າຈ້າງແມ່ນບາງຕົວຢ່າງຂອງມູນຄ່າຢ່າງຕໍ່ເນື່ອງ.
ແບບຈຳລອງທີ່ຮູ້ກັນວ່າເປັນການຖົດຖອຍແບບເສັ້ນແບບງ່າຍໆໃຊ້ເສັ້ນຊື່ເພື່ອຄິດໄລ່ການເຊື່ອມໂຍງລະຫວ່າງຕົວແປເອກະລາດອັນໜຶ່ງ ແລະ ຕົວແປທີ່ຂຶ້ນກັບ. ມີຕົວແປເອກະລາດຫຼາຍກວ່າສອງຕົວແປໃນການຖົດຖອຍເສັ້ນຊື່ຫຼາຍຕົວ.
ຮູບແບບການຖົດຖອຍເສັ້ນຊື່ມີສີ່ສົມມຸດຖານພື້ນຖານ:
- Linearity: ມີການເຊື່ອມຕໍ່ເສັ້ນຊື່ລະຫວ່າງ X ແລະສະເລ່ຍຂອງ Y.
- Homoscedasticity: ສໍາລັບຄ່າຂອງ X ທຸກອັນ, ຄວາມແຕກຕ່າງທີ່ເຫຼືອແມ່ນຄືກັນ.
- ເອກະລາດ: ການສັງເກດການເປັນເອກະລາດຂອງກັນແລະກັນໃນເງື່ອນໄຂຂອງເອກະລາດ.
- ຄວາມປົກກະຕິ: ເມື່ອ X ຖືກແກ້ໄຂ, Y ແມ່ນແຈກຢາຍຕາມປົກກະຕິ.
Linear regression ປະຕິບັດຫນ້າຊົມເຊີຍສໍາລັບຂໍ້ມູນທີ່ສາມາດແຍກອອກຕາມເສັ້ນ. ມັນສາມາດຄວບຄຸມ overfitting ໂດຍການນໍາໃຊ້ເປັນປົກກະຕິ, ການກວດສອບຂ້າມ, ແລະເຕັກນິກການຫຼຸດຜ່ອນຂະຫນາດ. ຢ່າງໃດກໍ່ຕາມ, ມີບາງກໍລະນີທີ່ຕ້ອງການວິສະວະກໍາຄຸນນະສົມບັດຢ່າງກວ້າງຂວາງ, ເຊິ່ງບາງຄັ້ງສາມາດສົ່ງຜົນໃຫ້ overfitting ແລະສິ່ງລົບກວນ.
2. Logistic Regression
ການຖົດຖອຍຂອງ logistic ແມ່ນເຕັກນິກການຮຽນຮູ້ເຄື່ອງຈັກອື່ນທີ່ອອກຈາກການຮຽນຮູ້ທີ່ມີການເບິ່ງແຍງ. ການນໍາໃຊ້ທີ່ສໍາຄັນຂອງມັນແມ່ນການຈັດປະເພດ, ໃນຂະນະທີ່ມັນຍັງສາມາດຖືກນໍາໃຊ້ສໍາລັບບັນຫາການຖົດຖອຍ.
ການຖົດຖອຍຂອງ logistic ແມ່ນໃຊ້ເພື່ອຄາດຄະເນຕົວແປທີ່ຂຶ້ນກັບປະເພດໂດຍນໍາໃຊ້ຂໍ້ມູນຈາກປັດໃຈເອກະລາດ. ເປົ້າຫມາຍແມ່ນເພື່ອຈັດປະເພດຜົນໄດ້ຮັບ, ເຊິ່ງພຽງແຕ່ສາມາດຫຼຸດລົງລະຫວ່າງ 0 ຫາ 1.
ປະລິມານນໍ້າໜັກຂອງວັດສະດຸປ້ອນທັງໝົດຖືກປະມວນຜົນໂດຍຟັງຊັນ sigmoid, ຟັງຊັນການເປີດໃຊ້ງານທີ່ແປງຄ່າລະຫວ່າງ 0 ຫາ 1.
ພື້ນຖານຂອງການຖົດຖອຍຂອງ logistic ແມ່ນການຄາດຄະເນຄວາມເປັນໄປໄດ້ສູງສຸດ, ວິທີການສໍາລັບການຄິດໄລ່ພາລາມິເຕີຂອງການແຈກຢາຍຄວາມເປັນໄປໄດ້ທີ່ສົມມຸດຕິຖານໃຫ້ຂໍ້ມູນສະເພາະທີ່ສັງເກດເຫັນ.
3. ຕົ້ນໄມ້ການຕັດສິນໃຈ
ວິທີການການຮຽນຮູ້ເຄື່ອງຈັກອີກອັນໜຶ່ງທີ່ແຍກອອກຈາກການຮຽນຮູ້ແບບມີການຄວບຄຸມດູແລແມ່ນຕົ້ນໄມ້ການຕັດສິນໃຈ. ສໍາລັບທັງສອງບັນຫາການຈັດປະເພດແລະການຖົດຖອຍ, ວິທີການຕັດຕົ້ນໄມ້ສາມາດຖືກນໍາໃຊ້.
ເຄື່ອງມືການຕັດສິນໃຈນີ້, ຊຶ່ງຄ້າຍຄືກັບຕົ້ນໄມ້, ການນໍາໃຊ້ການເປັນຕາຫນ້າເພື່ອສະແດງໃຫ້ເຫັນການກະທໍາຂອງຜົນໄດ້ຮັບທີ່ຄາດຫວັງ, ຄ່າໃຊ້ຈ່າຍ, ແລະຜົນຕອບແທນ. ໂດຍການແບ່ງຂໍ້ມູນອອກເປັນສ່ວນແຍກຕ່າງຫາກ, ຄວາມຄິດແມ່ນຄ້າຍຄືກັນກັບຈິດໃຈຂອງມະນຸດ.
ຂໍ້ມູນໄດ້ຖືກແບ່ງອອກເປັນພາກສ່ວນທີ່ແຕກຕ່າງກັນຫຼາຍເທົ່າທີ່ພວກເຮົາສາມາດ granulate ມັນ. ຈຸດປະສົງຕົ້ນຕໍຂອງ Decision Tree ແມ່ນເພື່ອສ້າງຕົວແບບການຝຶກອົບຮົມທີ່ສາມາດນໍາໃຊ້ເພື່ອຄາດຄະເນຫ້ອງຮຽນຂອງຕົວແປເປົ້າຫມາຍ. ຄ່າທີ່ຂາດຫາຍໄປສາມາດຖືກຈັດການໂດຍອັດຕະໂນມັດໂດຍໃຊ້ Decision Tree.
ບໍ່ມີຄວາມຕ້ອງການສໍາລັບການເຂົ້າລະຫັດດຽວ, ຕົວແປ dummy, ຫຼືຂັ້ນຕອນການປິ່ນປົວຂໍ້ມູນອື່ນໆ. ມັນເຄັ່ງຄັດໃນຄວາມຮູ້ສຶກວ່າມັນເປັນການຍາກທີ່ຈະເພີ່ມຂໍ້ມູນສົດໃສ່ມັນ. ຖ້າເຈົ້າໄດ້ຮັບຂໍ້ມູນທີ່ຕິດສະຫຼາກເພີ່ມເຕີມ, ເຈົ້າຄວນຝຶກຕົ້ນໄມ້ຄືນໃໝ່ໃນຊຸດຂໍ້ມູນທັງໝົດ.
ດັ່ງນັ້ນ, ຕົ້ນໄມ້ການຕັດສິນໃຈແມ່ນທາງເລືອກທີ່ບໍ່ດີສໍາລັບຄໍາຮ້ອງສະຫມັກໃດໆທີ່ຕ້ອງການການປ່ຽນແປງແບບເຄື່ອນໄຫວ.
ອີງຕາມປະເພດຂອງຕົວແປເປົ້າຫມາຍ, ຕົ້ນໄມ້ການຕັດສິນໃຈແບ່ງອອກເປັນສອງປະເພດ:
- ຕົວແປປະເພດ: ເປັນໄມ້ຢືນຕົ້ນການຕັດສິນໃຈທີ່ຕົວແປເປົ້າໝາຍແມ່ນປະເພດ.
- ຕົວແປຢ່າງຕໍ່ເນື່ອງ: ເປັນໄມ້ຢືນຕົ້ນການຕັດສິນໃຈທີ່ຕົວແປເປົ້າຫມາຍແມ່ນຢ່າງຕໍ່ເນື່ອງ.
4. ປ່າສະຫງວນ
Random Forest Method ແມ່ນເທັກນິກການຮຽນຮູ້ເຄື່ອງຈັກຕໍ່ໄປ ແລະເປັນວິທີຄວບຄຸມການຮຽນຮູ້ເຄື່ອງຈັກທີ່ໃຊ້ຢ່າງກວ້າງຂວາງໃນການຈັດປະເພດ ແລະບັນຫາການຖົດຖອຍ. ມັນຍັງເປັນວິທີການທີ່ອີງໃສ່ຕົ້ນໄມ້, ຄ້າຍຄືກັບຕົ້ນໄມ້ການຕັດສິນໃຈ.
ປ່າໄມ້ຂອງຕົ້ນໄມ້, ຫຼືຕົ້ນໄມ້ຕັດສິນຈໍານວນຫຼາຍ, ຖືກນໍາໃຊ້ໂດຍວິທີການປ່າໄມ້ແບບສຸ່ມເພື່ອຕັດສິນ. ເມື່ອຈັດການກັບວຽກງານການຈັດປະເພດ, ວິທີການປ່າໄມ້ແບບສຸ່ມໄດ້ໃຊ້ຕົວແປປະເພດໃນຂະນະທີ່ຈັດການກັບວຽກງານການຖົດຖອຍກັບຊຸດຂໍ້ມູນທີ່ມີຕົວແປຢ່າງຕໍ່ເນື່ອງ.
ກຸ່ມ, ຫຼືການປະສົມຂອງຫຼາຍຕົວແບບ, ແມ່ນສິ່ງທີ່ວິທີການປ່າໄມ້ແບບສຸ່ມເຮັດ, ຊຶ່ງຫມາຍຄວາມວ່າການຄາດເດົາແມ່ນເຮັດໂດຍໃຊ້ກຸ່ມຂອງຕົວແບບແທນທີ່ຈະພຽງແຕ່ຫນຶ່ງ.
ຄວາມສາມາດໃນການນໍາໃຊ້ສໍາລັບທັງສອງບັນຫາການຈັດປະເພດແລະການຖົດຖອຍ, ເຊິ່ງປະກອບດ້ວຍສ່ວນໃຫຍ່ຂອງລະບົບການຮຽນຮູ້ເຄື່ອງຈັກທີ່ທັນສະໄຫມ, ເປັນຜົນປະໂຫຍດທີ່ສໍາຄັນຂອງປ່າສຸ່ມ.
ສອງຍຸດທະສາດທີ່ແຕກຕ່າງກັນຖືກນໍາໃຊ້ໂດຍ Ensemble:
- ການກະເປົ໋າ: ໂດຍການເຮັດສິ່ງນີ້, ຂໍ້ມູນເພີ່ມເຕີມແມ່ນຜະລິດສໍາລັບຊຸດຂໍ້ມູນການຝຶກອົບຮົມ. ເພື່ອຫຼຸດຜ່ອນການປ່ຽນແປງຂອງການຄາດຄະເນ, ນີ້ແມ່ນເຮັດ.
- ການຊຸກຍູ້ແມ່ນຂະບວນການລວມເອົາຜູ້ຮຽນທີ່ອ່ອນແອກັບຜູ້ຮຽນທີ່ເຂັ້ມແຂງໂດຍການສ້າງຕົວແບບຕໍ່ເນື່ອງ, ເຮັດໃຫ້ຕົວແບບສຸດທ້າຍມີຄວາມຖືກຕ້ອງສູງສຸດ.
5. Naive Bayes
ບັນຫາການຈັດປະເພດຄູ່ (ສອງຊັ້ນ) ແລະຫຼາຍຊັ້ນສາມາດແກ້ໄຂໄດ້ໂດຍໃຊ້ເຕັກນິກ Naive Bayes. ເມື່ອວິທີການຖືກອະທິບາຍໂດຍໃຊ້ binary ຫຼືຄ່າປະເພດ, ມັນງ່າຍທີ່ສຸດທີ່ຈະເຂົ້າໃຈ. ການສົມມຸດຕິຖານທີ່ເຮັດໂດຍນັກຈັດປະເພດ Naive Bayes ແມ່ນວ່າການມີຢູ່ຂອງລັກສະນະຫນຶ່ງໃນຫ້ອງຮຽນບໍ່ມີຜົນຕໍ່ລັກສະນະອື່ນໆ.
ສູດຂ້າງເທິງຊີ້ໃຫ້ເຫັນ:
- P(H): ຄວາມເປັນໄປໄດ້ທີ່ສົມມຸດຕິຖານ H ແມ່ນຖືກຕ້ອງ. ຄວາມເປັນໄປໄດ້ກ່ອນໜ້ານີ້ເອີ້ນວ່ານີ້.
- P(E): ຄວາມເປັນໄປໄດ້ຂອງຫຼັກຖານ
- P(E|H): ຄວາມເປັນໄປໄດ້ທີ່ສົມມຸດຕິຖານໄດ້ຮັບການສະຫນັບສະຫນູນຈາກຫຼັກຖານ.
- P(H|E): ຄວາມເປັນໄປໄດ້ທີ່ສົມມຸດຕິຖານເປັນຄວາມຈິງ, ໂດຍໃຫ້ຫຼັກຖານ.
ການຈັດປະເພດ Naive Bayes ຈະພິຈາລະນາແຕ່ລະລັກສະນະເຫຼົ່ານີ້ເປັນສ່ວນບຸກຄົນໃນເວລາທີ່ກໍານົດຄວາມເປັນໄປໄດ້ຂອງຜົນໄດ້ຮັບທີ່ແນ່ນອນ, ເຖິງແມ່ນວ່າຄຸນລັກສະນະເຫຼົ່ານີ້ຈະເຊື່ອມຕໍ່ກັນ. ຮູບແບບ Naive Bayesian ແມ່ນງ່າຍດາຍໃນການກໍ່ສ້າງແລະມີປະສິດທິພາບສໍາລັບຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່.
ມັນເປັນທີ່ຮູ້ຈັກທີ່ຈະປະຕິບັດໄດ້ດີກ່ວາເຕັກນິກການຈັດປະເພດທີ່ສັບສົນທີ່ສຸດໃນຂະນະທີ່ເປັນພື້ນຖານ. ມັນເປັນການລວບລວມຂອງ algorithms ທີ່ທັງຫມົດແມ່ນອີງໃສ່ທິດສະດີ Bayes ', ແທນທີ່ຈະເປັນວິທີການດຽວ.
6. K-Nearest Neighbors
ເຕັກນິກ K-nearest ປະເທດເພື່ອນບ້ານ (kNN) ແມ່ນຊຸດຍ່ອຍຂອງການຮຽນຮູ້ເຄື່ອງຈັກທີ່ມີການຄວບຄຸມທີ່ສາມາດນໍາໃຊ້ເພື່ອແກ້ໄຂບັນຫາການຈັດປະເພດແລະການຖົດຖອຍ. ສູດການຄິດໄລ່ KNN ສົມມຸດວ່າສາມາດພົບເຫັນວັດຖຸທີ່ປຽບທຽບໄດ້ຢູ່ໃກ້ໆ.
ຂ້າພະເຈົ້າຈື່ໄດ້ວ່າມັນເປັນການເຕົ້າໂຮມຂອງບຸກຄົນທີ່ມີຈິດໃຈດຽວກັນ. kNN ເຮັດໃຫ້ປະໂຫຍດຂອງແນວຄວາມຄິດຂອງຄວາມຄ້າຍຄືກັນລະຫວ່າງຈຸດຂໍ້ມູນອື່ນໆໂດຍໃຊ້ຄວາມໃກ້ຊິດ, ຄວາມໃກ້ຊິດ, ຫຼືໄລຍະຫ່າງ. ເພື່ອຕິດປ້າຍກຳກັບຂໍ້ມູນທີ່ບໍ່ເຫັນໂດຍອ້າງອີງໃສ່ຈຸດຂໍ້ມູນທີ່ສາມາດສັງເກດໄດ້ທີ່ໃກ້ທີ່ສຸດ, ວິທີການທາງຄະນິດສາດແມ່ນໃຊ້ເພື່ອກຳນົດການແຍກລະຫວ່າງຈຸດໃນກາຟ.
ທ່ານຕ້ອງກໍານົດໄລຍະຫ່າງລະຫວ່າງຈຸດຂໍ້ມູນເພື່ອກໍານົດຈຸດປຽບທຽບທີ່ໃກ້ທີ່ສຸດ. ການວັດແທກໄລຍະທາງເຊັ່ນ: ໄລຍະ Euclidean, ໄລຍະ Hamming, ໄລຍະ Manhattan, ແລະໄລຍະ Minkowski ສາມາດຖືກນໍາໃຊ້ສໍາລັບການນີ້. K ແມ່ນເປັນທີ່ຮູ້ຈັກເປັນຕົວເລກໃກ້ຄຽງທີ່ສຸດ, ແລະມັນມັກຈະເປັນຕົວເລກຄີກ.
KNN ສາມາດຖືກນໍາໃຊ້ກັບບັນຫາການຈັດປະເພດແລະການຖົດຖອຍ. ການຄາດຄະເນທີ່ເຮັດໃນເວລາທີ່ KNN ຖືກນໍາໃຊ້ກັບບັນຫາການຖົດຖອຍແມ່ນອີງໃສ່ຄ່າສະເລ່ຍຫຼືຄ່າປານກາງຂອງ K- ປະກົດການທີ່ຄ້າຍຄືກັນຫຼາຍທີ່ສຸດ.
ຜົນໄດ້ຮັບຂອງວິທີການຈັດປະເພດໂດຍອີງໃສ່ KNN ສາມາດຖືກກໍານົດວ່າເປັນຊັ້ນທີ່ມີຄວາມຖີ່ສູງສຸດໃນບັນດາ K ທີ່ປະກົດຕົວທີ່ຄ້າຍຄືກັນທີ່ສຸດ. ທຸກໆຕົວຢ່າງທີ່ສໍາຄັນລົງຄະແນນສຽງສໍາລັບຊັ້ນຮຽນຂອງພວກເຂົາ, ແລະການຄາດຄະເນແມ່ນຂຶ້ນກັບຫ້ອງຮຽນທີ່ໄດ້ຮັບຄະແນນສຽງຫຼາຍທີ່ສຸດ.
7. K ຫມາຍຄວາມວ່າ
ມັນເປັນເຕັກນິກສໍາລັບການຮຽນຮູ້ທີ່ບໍ່ມີການເບິ່ງແຍງທີ່ແກ້ໄຂບັນຫາກຸ່ມ. ຊຸດຂໍ້ມູນຖືກແບ່ງອອກເປັນກຸ່ມບາງກຸ່ມ—ໂທຫາມັນ K—ໃນລັກສະນະທີ່ຈຸດຂໍ້ມູນຂອງແຕ່ລະກຸ່ມມີຄວາມເປັນເອກະພາບ ແລະ ແຕກຕ່າງຈາກກຸ່ມອື່ນ.
ວິທີການຈັດກຸ່ມ K ຫມາຍຄວາມວ່າ:
- ສໍາລັບແຕ່ລະກຸ່ມ, K-means algorithm ເລືອກ k centroids, ຫຼືຈຸດ.
- ດ້ວຍກຸ່ມ centroids ຫຼື K ທີ່ໃກ້ທີ່ສຸດ, ແຕ່ລະຈຸດຂໍ້ມູນປະກອບເປັນກຸ່ມ.
- ໃນປັດຈຸບັນ, centroids ໃຫມ່ແມ່ນຜະລິດຂື້ນກັບສະມາຊິກຂອງກຸ່ມທີ່ມີຢູ່ແລ້ວ.
- ໄລຍະຫ່າງທີ່ໃກ້ທີ່ສຸດສໍາລັບແຕ່ລະຈຸດຂໍ້ມູນແມ່ນຄິດໄລ່ໂດຍໃຊ້ centroids ທີ່ຖືກປັບປຸງເຫຼົ່ານີ້. ຈົນກ່ວາ centroids ບໍ່ປ່ຽນແປງ, ຂະບວນການນີ້ແມ່ນຊ້ໍາກັນ.
ມັນໄວກວ່າ, ເຊື່ອຖືໄດ້, ແລະເຂົ້າໃຈງ່າຍກວ່າ. ຖ້າມີບັນຫາ, ການປັບຕົວຂອງ k-means ເຮັດໃຫ້ການປັບຕົວງ່າຍດາຍ. ໃນເວລາທີ່ຊຸດຂໍ້ມູນແມ່ນແຕກຕ່າງກັນຫຼືຫ່າງໄກຈາກກັນແລະກັນ, ຜົນໄດ້ຮັບແມ່ນດີທີ່ສຸດ. ມັນບໍ່ສາມາດຈັດການຂໍ້ມູນທີ່ຜິດພາດຫຼື outliers ໄດ້.
8. ສະຫນັບສະຫນູນ Vector Machines
ເມື່ອນໍາໃຊ້ເຕັກນິກ SVM ເພື່ອຈັດປະເພດຂໍ້ມູນ, ຂໍ້ມູນດິບຖືກສະແດງເປັນຈຸດໆໃນຊ່ອງ n-dimensional (ບ່ອນທີ່ n ແມ່ນຈໍານວນລັກສະນະທີ່ທ່ານມີ). ຫຼັງຈາກນັ້ນ, ຂໍ້ມູນສາມາດຖືກຈັດປະເພດໄດ້ງ່າຍເພາະວ່າມູນຄ່າຂອງແຕ່ລະຄຸນສົມບັດໄດ້ຖືກເຊື່ອມຕໍ່ໄປຫາຈຸດປະສານງານສະເພາະ.
ເພື່ອແຍກຂໍ້ມູນ ແລະວາງໃສ່ໃນກາຟ, ນຳໃຊ້ສາຍທີ່ເອີ້ນວ່າຕົວຈັດປະເພດ. ວິທີການນີ້ວາງແຜນຂໍ້ມູນແຕ່ລະຈຸດເປັນຈຸດໃນຊ່ອງ n-ມິຕິມິຕິ, ບ່ອນທີ່ n ແມ່ນຈໍານວນຄຸນສົມບັດທີ່ເຈົ້າມີ ແລະຄ່າຂອງແຕ່ລະຄຸນສົມບັດແມ່ນຄ່າປະສານງານສະເພາະ.
ໃນປັດຈຸບັນພວກເຮົາຈະຊອກຫາເສັ້ນທີ່ແບ່ງຂໍ້ມູນອອກເປັນສອງຊຸດຂອງຂໍ້ມູນທີ່ໄດ້ຖືກຈັດປະເພດແຕກຕ່າງກັນ. ໄລຍະຫ່າງຈາກຈຸດທີ່ໃກ້ທີ່ສຸດໃນແຕ່ລະກຸ່ມຂອງສອງກຸ່ມຈະຢູ່ຫ່າງກັນທີ່ສຸດຕາມເສັ້ນນີ້.
ເນື່ອງຈາກສອງຈຸດທີ່ໃກ້ຄຽງທີ່ສຸດແມ່ນຈຸດທີ່ຫ່າງໄກທີ່ສຸດຈາກເສັ້ນໃນຕົວຢ່າງຂ້າງເທິງ, ເສັ້ນທີ່ແບ່ງຂໍ້ມູນອອກເປັນສອງກຸ່ມທີ່ຖືກຈັດປະເພດແຕກຕ່າງກັນແມ່ນເສັ້ນກາງ. ການຈັດປະເພດຂອງພວກເຮົາແມ່ນສາຍນີ້.
9. ການຫຼຸດຜ່ອນຂະຫນາດ
ການນໍາໃຊ້ວິທີການຫຼຸດຜ່ອນຂະຫນາດ, ຂໍ້ມູນການຝຶກອົບຮົມອາດມີຕົວແປການປ້ອນຂໍ້ມູນຫນ້ອຍລົງ. ໃນຄໍາສັບທີ່ງ່າຍດາຍ, ມັນຫມາຍເຖິງຂະບວນການຫຼຸດລົງຂະຫນາດຂອງຊຸດຄຸນສົມບັດຂອງທ່ານ. ໃຫ້ຈິນຕະນາການຊຸດຂໍ້ມູນຂອງທ່ານມີ 100 ຖັນ; ການຫຼຸດຜ່ອນຂະຫນາດຈະຫຼຸດລົງຈໍານວນນັ້ນເປັນ 20 ຖັນ.
ຮູບແບບດັ່ງກ່າວຈະເລີນເຕີບໂຕແບບອັດຕະໂນມັດຫຼາຍຂື້ນ ແລະມີຄວາມສ່ຽງທີ່ໃຫຍ່ກວ່າຂອງການໃສ່ຕົວເກີນຂະໜາດເມື່ອຈຳນວນຄຸນສົມບັດເພີ່ມຂຶ້ນ. ບັນຫາໃຫຍ່ທີ່ສຸດກັບການເຮັດວຽກກັບຂໍ້ມູນໃນຂະຫນາດທີ່ໃຫຍ່ກວ່າແມ່ນສິ່ງທີ່ເອີ້ນວ່າ "ຄໍາສາບແຊ່ງຂອງມິຕິ", ເຊິ່ງເກີດຂື້ນເມື່ອຂໍ້ມູນຂອງທ່ານມີຄຸນລັກສະນະຫຼາຍເກີນໄປ.
ອົງປະກອບຕໍ່ໄປນີ້ສາມາດຖືກນໍາໃຊ້ເພື່ອບັນລຸການຫຼຸດຜ່ອນຂະຫນາດ:
- ເພື່ອຊອກຫາ ແລະເລືອກລັກສະນະທີ່ກ່ຽວຂ້ອງ, ການເລືອກຄຸນສົມບັດແມ່ນໃຊ້.
- ການນໍາໃຊ້ຄຸນສົມບັດທີ່ມີຢູ່ແລ້ວ, ວິສະວະກໍາຄຸນສົມບັດສ້າງຄຸນສົມບັດໃຫມ່ດ້ວຍຕົນເອງ.
ສະຫຼຸບ
ການຮຽນຮູ້ເຄື່ອງຈັກແບບບໍ່ມີການຄວບຄຸມ ຫຼືຄວບຄຸມແມ່ນເປັນໄປໄດ້ທັງສອງຢ່າງ. ເລືອກການຮຽນຮູ້ແບບມີການຄວບຄຸມດູແລ ຖ້າຂໍ້ມູນຂອງທ່ານມີໜ້ອຍ ແລະຖືກຕິດປ້າຍກຳກັບສຳລັບການຝຶກອົບຮົມ.
ຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່ມັກຈະປະຕິບັດແລະສ້າງຜົນໄດ້ຮັບທີ່ດີກວ່າໂດຍໃຊ້ການຮຽນຮູ້ທີ່ບໍ່ມີການເບິ່ງແຍງ. ການຮຽນຮູ້ທີ່ລຶກລັບ ວິທີການຕ່າງໆແມ່ນດີທີ່ສຸດຖ້າທ່ານມີການເກັບກໍາຂໍ້ມູນຂະໜາດໃຫຍ່ທີ່ສາມາດໃຊ້ໄດ້.
ການຮຽນຮູ້ການເສີມສ້າງ ແລະການຮຽນຮູ້ເສີມເລິກແມ່ນບາງຫົວຂໍ້ທີ່ທ່ານໄດ້ສຶກສາ. ຄຸນລັກສະນະ, ການນໍາໃຊ້, ແລະຂໍ້ຈໍາກັດຂອງເຄືອຂ່າຍ neural ໃນປັດຈຸບັນແມ່ນຈະແຈ້ງສໍາລັບທ່ານ. ສຸດທ້າຍແຕ່ບໍ່ໄດ້ຢ່າງຫນ້ອຍ, ທ່ານໄດ້ພິຈາລະນາທາງເລືອກສໍາລັບພາສາການຂຽນໂປລແກລມ, IDEs, ແລະເວທີທີ່ແຕກຕ່າງກັນໃນເວລາທີ່ມັນມາກັບການສ້າງຂອງທ່ານເອງ. ຮູບແບບການຮຽນຮູ້ເຄື່ອງຈັກ.
ສິ່ງຕໍ່ໄປທີ່ທ່ານຕ້ອງເຮັດຄືການເລີ່ມຕົ້ນການສຶກສາແລະນໍາໃຊ້ແຕ່ລະຄົນ ການຮຽນຮູ້ເຄື່ອງຈັກ ວິທີການ. ເຖິງແມ່ນວ່າຫົວຂໍ້ແມ່ນກວ້າງ, ຫົວຂໍ້ໃດຫນຶ່ງສາມາດເຂົ້າໃຈໄດ້ໃນສອງສາມຊົ່ວໂມງຖ້າທ່ານສຸມໃສ່ຄວາມເລິກຂອງມັນ. ແຕ່ລະວິຊາຢືນຢູ່ຄົນດຽວຈາກຄົນອື່ນ.
ທ່ານຕ້ອງຄິດກ່ຽວກັບບັນຫາຫນຶ່ງໃນເວລາ, ສຶກສາມັນ, ເຮັດໃຫ້ມັນເຂົ້າໄປໃນການປະຕິບັດ, ແລະໃຊ້ພາສາທີ່ທ່ານເລືອກເພື່ອປະຕິບັດ algorithm ໃນມັນ.
ອອກຈາກ Reply ເປັນ