ສາລະບານ[ເຊື່ອງ][ສະແດງ]
ຖ້າທ່ານເປັນນັກຂຽນໂປລແກລມ Python ຫຼືຖ້າທ່ານກໍາລັງຊອກຫາຊຸດເຄື່ອງມືທີ່ມີປະສິດທິພາບເພື່ອນໍາໃຊ້ເພື່ອແນະນໍາການຮຽນຮູ້ເຄື່ອງຈັກເຂົ້າໃນລະບົບການຜະລິດ, Scikit-learn ແມ່ນຫ້ອງສະຫມຸດທີ່ທ່ານຈໍາເປັນຕ້ອງກວດເບິ່ງ.
Scikit-learn ແມ່ນເອກະສານທີ່ດີ ແລະໃຊ້ງ່າຍ, ບໍ່ວ່າເຈົ້າເປັນມືໃໝ່ໃນການຮຽນຮູ້ເຄື່ອງຈັກ, ຕ້ອງການລຸກຂຶ້ນ ແລະແລ່ນໄວ, ຫຼືຕ້ອງການໃຊ້ເຄື່ອງມືຄົ້ນຄວ້າ ML ທີ່ທັນສະໄໝທີ່ສຸດ.
ມັນອະນຸຍາດໃຫ້ທ່ານສ້າງແບບຈໍາລອງຂໍ້ມູນທີ່ຄາດເດົາໄດ້ພຽງແຕ່ສອງສາມເສັ້ນຂອງລະຫັດແລະຫຼັງຈາກນັ້ນນໍາໃຊ້ຕົວແບບນັ້ນເພື່ອໃຫ້ເຫມາະສົມກັບຂໍ້ມູນຂອງທ່ານເປັນຫ້ອງສະຫມຸດລະດັບສູງ. ມັນມີຄວາມຍືດຫຍຸ່ນແລະເຮັດວຽກໄດ້ດີກັບອື່ນໆ ຫ້ອງສະໝຸດ Python ເຊັ່ນ Matplotlib ສໍາລັບຕາຕະລາງ, NumPy ສໍາລັບ vectorization array, ແລະ pandas ສໍາລັບການເບິ່ງເຫັນຂໍ້ມູນ.
ໃນຄູ່ມືນີ້, ທ່ານຈະຊອກຫາທັງຫມົດກ່ຽວກັບສິ່ງທີ່ມັນແມ່ນ, ວິທີການທີ່ທ່ານສາມາດນໍາໃຊ້ມັນ, ຄຽງຄູ່ກັບຂໍ້ດີແລະຂໍ້ເສຍຂອງມັນ.
ແມ່ນຫຍັງ Scikit- ຮຽນຮູ້?
Scikit-learn (ເອີ້ນອີກຊື່ໜຶ່ງວ່າ sklearn) ສະເໜີຕົວແບບສະຖິຕິ ແລະການຮຽນຮູ້ຂອງເຄື່ອງຈັກທີ່ຫຼາກຫຼາຍ. ບໍ່ເຫມືອນກັບໂມດູນສ່ວນໃຫຍ່, sklearn ແມ່ນພັດທະນາຢູ່ໃນ Python ແທນທີ່ຈະ C. ເຖິງວ່າຈະມີການພັດທະນາໃນ Python, ປະສິດທິພາບຂອງ sklearn ແມ່ນໄດ້ກໍານົດການນໍາໃຊ້ NumPy ຂອງຕົນສໍາລັບການປະຕິບັດ algebra linear ປະສິດທິພາບສູງແລະ array.
Scikit-Learn ໄດ້ຖືກສ້າງຂື້ນເປັນສ່ວນຫນຶ່ງຂອງໂຄງການ Summer of Code ຂອງ Google ແລະນັບຕັ້ງແຕ່ນັ້ນມາເຮັດໃຫ້ຊີວິດຂອງນັກວິທະຍາສາດຂໍ້ມູນ Python-centric ຫຼາຍລ້ານຄົນທົ່ວໂລກງ່າຍຂຶ້ນ. ພາກສ່ວນຂອງຊຸດນີ້ສຸມໃສ່ການນໍາສະເຫນີຫ້ອງສະຫມຸດແລະສຸມໃສ່ອົງປະກອບຫນຶ່ງ - ການຫັນປ່ຽນຊຸດຂໍ້ມູນ, ເຊິ່ງເປັນບາດກ້າວທີ່ສໍາຄັນແລະສໍາຄັນທີ່ຈະເຮັດກ່ອນທີ່ຈະພັດທະນາຮູບແບບການຄາດຄະເນ.
ຫ້ອງສະຫມຸດແມ່ນອີງໃສ່ SciPy (Scientific Python), ເຊິ່ງຕ້ອງໄດ້ຮັບການຕິດຕັ້ງກ່ອນທີ່ທ່ານຈະສາມາດໃຊ້ scikit-learn. stack ນີ້ປະກອບມີລາຍການດັ່ງຕໍ່ໄປນີ້:
- NumPy: ຊຸດອາເຣ N-dimensional ມາດຕະຖານຂອງ Python
- SciPy: ມັນເປັນຊຸດພື້ນຖານສໍາລັບການຄອມພິວເຕີທາງວິທະຍາສາດ
- Pandas: ໂຄງສ້າງຂໍ້ມູນແລະການວິເຄາະ
- Matplotlib: ມັນເປັນຫ້ອງສະຫມຸດ 2D / 3D ທີ່ມີອໍານາດ
- Sympy: ຄະນິດສາດສັນຍາລັກ
- IPython: ປັບປຸງຄອນໂຊແບບໂຕ້ຕອບ
ຄໍາຮ້ອງສະຫມັກຂອງຫ້ອງສະຫມຸດ Scikit-learn
Scikit-learn ແມ່ນຊຸດ Python ແຫຼ່ງເປີດທີ່ມີການວິເຄາະຂໍ້ມູນທີ່ຊັບຊ້ອນ ແລະຄຸນສົມບັດການຂຸດຄົ້ນບໍ່ແຮ່. ມັນມາພ້ອມກັບລະບົບສູດການຄິດໄລ່ທີ່ສ້າງຂຶ້ນຫຼາຍອັນເພື່ອຊ່ວຍໃຫ້ທ່ານໄດ້ຮັບປະໂຫຍດສູງສຸດຈາກໂຄງການວິທະຍາສາດຂໍ້ມູນຂອງທ່ານ. ຫ້ອງສະໝຸດ Scikit-learn ແມ່ນໃຊ້ໃນວິທີຕໍ່ໄປນີ້.
1. ການຖົດຖອຍ
ການວິເຄາະ Regression ແມ່ນເຕັກນິກສະຖິຕິສໍາລັບການວິເຄາະແລະເຂົ້າໃຈການເຊື່ອມຕໍ່ລະຫວ່າງສອງຕົວແປຫຼືຫຼາຍກວ່ານັ້ນ. ວິທີການທີ່ໃຊ້ໃນການວິເຄາະການຖົດຖອຍຊ່ວຍໃນການກໍານົດວ່າອົງປະກອບໃດມີຄວາມກ່ຽວຂ້ອງ, ເຊິ່ງອາດຈະຖືກລະເລີຍ, ແລະວິທີການທີ່ພວກມັນພົວພັນກັບ. ເຕັກນິກການຖົດຖອຍ, ສໍາລັບຕົວຢ່າງ, ອາດຈະຖືກນໍາໃຊ້ເພື່ອເຂົ້າໃຈພຶດຕິກໍາຂອງລາຄາຫຼັກຊັບ.
ສູດການຄິດໄລ່ການຖົດຖອຍລວມມີ:
- Linear Regression
- Ridge Regression
- Lasso Regression
- ການຕັດຕົ້ນໄມ້ Regression
- ປ່າ Random
- ຮອງຮັບ Vector Machines (SVM)
2. ການຈັດປະເພດ
ວິທີການຈັດປະເພດແມ່ນວິທີການຮຽນຮູ້ແບບຄວບຄຸມທີ່ນໍາໃຊ້ຂໍ້ມູນການຝຶກອົບຮົມເພື່ອກໍານົດປະເພດຂອງການສັງເກດສົດ. ສູດການຄິດໄລ່ໃນການຈັດປະເພດຮຽນຮູ້ຈາກອັນທີ່ໃຫ້ ຊຸດຂໍ້ມູນ ຫຼືການສັງເກດການແລະຫຼັງຈາກນັ້ນຈັດປະເພດການສັງເກດການເພີ່ມເຕີມເຂົ້າໄປໃນຫນຶ່ງໃນຫຼາຍຫ້ອງຮຽນຫຼືກຸ່ມ. ຕົວຢ່າງ, ພວກເຂົາສາມາດຖືກໃຊ້ເພື່ອຈັດປະເພດການສື່ສານທາງອີເມລ໌ເປັນ spam ຫຼືບໍ່ແມ່ນ.
ຂັ້ນຕອນການຈັດປະເພດປະກອບມີດັ່ງຕໍ່ໄປນີ້:
- Logistic Regression
- K-ເພື່ອນບ້ານໃກ້ທີ່ສຸດ
- ສະຫນັບສະຫນູນ Vector Machine
- ຕົ້ນໄມ້ຕັດສິນໃຈ
- ປ່າ Random
3. ການຈັດກຸ່ມ
ສູດການຄິດໄລ່ຂອງກຸ່ມໃນ Scikit-learn ຖືກນໍາໃຊ້ເພື່ອຈັດລຽງຂໍ້ມູນອັດຕະໂນມັດທີ່ມີຄຸນສົມບັດຄ້າຍຄືກັນເປັນຊຸດ. Clustering ແມ່ນຂະບວນການຈັດກຸ່ມຊຸດຂອງລາຍການເພື່ອໃຫ້ຜູ້ທີ່ຢູ່ໃນກຸ່ມດຽວກັນມີຄວາມຄ້າຍຄືກັນກັບກຸ່ມອື່ນໆ. ຕົວຢ່າງຂໍ້ມູນລູກຄ້າອາດຈະຖືກແຍກອອກໂດຍອີງໃສ່ສະຖານທີ່ຂອງພວກເຂົາ.
ຂັ້ນຕອນການຈັດກຸ່ມປະກອບມີສິ່ງຕໍ່ໄປນີ້:
- DB-SCAN
- K-Means
- Mini-Batch K-Means
- ການຈັດກຸ່ມ Spectral
4. ການເລືອກຕົວແບບ
ຂັ້ນຕອນການເລືອກຕົວແບບໃຫ້ວິທີການປຽບທຽບ, ກວດສອບ, ແລະເລືອກພາລາມິເຕີ ແລະຕົວແບບທີ່ດີທີ່ສຸດເພື່ອໃຊ້ໃນການລິເລີ່ມວິທະຍາສາດຂໍ້ມູນ. ອີງຕາມຂໍ້ມູນ, ການຄັດເລືອກຕົວແບບແມ່ນບັນຫາຂອງການເລືອກຕົວແບບສະຖິຕິຈາກກຸ່ມຂອງຕົວແບບຂອງຜູ້ສະຫມັກ. ໃນສະຖານະການພື້ນຖານທີ່ສຸດ, ການລວບລວມຂໍ້ມູນທີ່ມີຢູ່ກ່ອນຫນ້າແມ່ນຖືກພິຈາລະນາ. ຢ່າງໃດກໍ່ຕາມ, ວຽກງານດັ່ງກ່າວອາດຈະປະກອບມີການອອກແບບການທົດລອງເພື່ອໃຫ້ຂໍ້ມູນທີ່ໄດ້ຮັບແມ່ນເຫມາະສົມກັບບັນຫາການເລືອກຕົວແບບ.
ໂມດູນການຄັດເລືອກຕົວແບບທີ່ສາມາດປັບປຸງຄວາມຖືກຕ້ອງໂດຍການປັບຕົວກໍານົດການປະກອບມີ:
- ການກວດສອບຂ້າມ
- ຊອກຫາຕາຂ່າຍໄຟຟ້າ
- Metrics
5. ການຫຼຸດຜ່ອນຂະຫນາດ
ການໂອນຂໍ້ມູນຈາກພື້ນທີ່ມິຕິລະດັບສູງໄປຫາພື້ນທີ່ມິຕິລະດັບຕ່ໍາເພື່ອໃຫ້ການສະແດງມິຕິມິຕິຕ່ໍາຮັກສາບາງລັກສະນະທີ່ສໍາຄັນຂອງຂໍ້ມູນຕົ້ນສະບັບ, ໂດຍສະເພາະແມ່ນຢູ່ໃກ້ກັບຂະຫນາດຂອງມັນ, ເອີ້ນວ່າການຫຼຸດຜ່ອນຂະຫນາດ. ຈໍານວນຕົວແປແບບສຸ່ມສໍາລັບການວິເຄາະແມ່ນຫຼຸດລົງເມື່ອຂະຫນາດຫຼຸດລົງ. ຕົວຢ່າງ, ຂໍ້ມູນທີ່ຢູ່ຫ່າງໄກອາດຈະບໍ່ຖືກພິຈາລະນາເພື່ອປັບປຸງປະສິດທິພາບຂອງການເບິ່ງເຫັນ.
ຂັ້ນຕອນການຫຼຸດຜ່ອນຄວາມມິຕິປະກອບມີສິ່ງຕໍ່ໄປນີ້:
- ການຄັດເລືອກຄຸນນະສົມບັດ
- ການວິເຄາະສ່ວນປະກອບຫຼັກ (PCA)
ການຕິດຕັ້ງ Scikit-learn
NumPy, SciPy, Matplotlib, IPython, Sympy, ແລະ Pandas ຈໍາເປັນຕ້ອງໄດ້ຕິດຕັ້ງກ່ອນທີ່ຈະໃຊ້ Scikit-learn. ໃຫ້ຕິດຕັ້ງພວກມັນໂດຍໃຊ້ pip ຈາກ console (ໃຊ້ໄດ້ກັບ Windows ເທົ່ານັ້ນ).
ໃຫ້ຕິດຕັ້ງ Scikit-learn ດຽວນີ້ທີ່ພວກເຮົາໄດ້ຕິດຕັ້ງຫ້ອງສະຫມຸດທີ່ຕ້ອງການ.
ຄຸນລັກສະນະ
Scikit-learn, ບາງຄັ້ງເອີ້ນວ່າ sklearn, ແມ່ນຊຸດເຄື່ອງມື Python ສໍາລັບການປະຕິບັດຕົວແບບການຮຽນຮູ້ເຄື່ອງຈັກ ແລະການສ້າງແບບຈໍາລອງສະຖິຕິ. ພວກເຮົາອາດຈະໃຊ້ມັນເພື່ອສ້າງແບບຈໍາລອງການຮຽນຮູ້ເຄື່ອງຈັກຫຼາຍອັນສໍາລັບການຖົດຖອຍ, ການຈັດປະເພດ, ແລະການຈັດກຸ່ມ, ເຊັ່ນດຽວກັນກັບເຄື່ອງມືສະຖິຕິສໍາລັບການປະເມີນແບບຈໍາລອງເຫຼົ່ານີ້. ມັນຍັງປະກອບມີການຫຼຸດຜ່ອນຂະຫນາດ, ການຄັດເລືອກຄຸນສົມບັດ, ການສະກັດເອົາຄຸນສົມບັດ, ວິທີການປະກອບ, ແລະຊຸດຂໍ້ມູນໃນຕົວ. ພວກເຮົາຈະສືບສວນແຕ່ລະຄຸນນະພາບເຫຼົ່ານີ້ເທື່ອລະອັນ.
1. ການນໍາເຂົ້າຊຸດຂໍ້ມູນ
Scikit-learn ປະກອບມີຊຸດຂໍ້ມູນທີ່ສ້າງຂຶ້ນກ່ອນ, ເຊັ່ນຊຸດຂໍ້ມູນ iris, ຊຸດຂໍ້ມູນລາຄາເຮືອນ, ຊຸດຂໍ້ມູນ Titanic, ແລະອື່ນໆ. ຂໍ້ໄດ້ປຽບທີ່ສໍາຄັນຂອງຊຸດຂໍ້ມູນເຫຼົ່ານີ້ແມ່ນງ່າຍດາຍທີ່ຈະເຂົ້າໃຈແລະສາມາດຖືກນໍາໃຊ້ເພື່ອພັດທະນາຕົວແບບ ML ທັນທີ. ຊຸດຂໍ້ມູນເຫຼົ່ານີ້ແມ່ນເຫມາະສົມສໍາລັບຈົວ. ເຊັ່ນດຽວກັນ, ທ່ານອາດຈະໃຊ້ sklearn ເພື່ອນໍາເຂົ້າຊຸດຂໍ້ມູນເພີ່ມເຕີມ. ເຊັ່ນດຽວກັນ, ທ່ານອາດຈະໃຊ້ມັນເພື່ອນໍາເຂົ້າຊຸດຂໍ້ມູນເພີ່ມເຕີມ.
2. ການແຍກຊຸດຂໍ້ມູນສຳລັບການຝຶກອົບຮົມ ແລະ ການທົດສອບ
Sklearn ລວມເອົາຄວາມສາມາດໃນການແບ່ງຊຸດຂໍ້ມູນເຂົ້າໄປໃນສ່ວນການຝຶກອົບຮົມແລະການທົດສອບ. ການແຍກຊຸດຂໍ້ມູນແມ່ນຕ້ອງການສໍາລັບການປະເມີນທີ່ບໍ່ເປັນກາງຂອງການປະຕິບັດການຄາດເດົາ. ພວກເຮົາອາດຈະລະບຸຈໍານວນຂໍ້ມູນຂອງພວກເຮົາຄວນຈະຖືກລວມເຂົ້າໃນຊຸດຂໍ້ມູນການຝຶກອົບຮົມແລະການທົດສອບ. ພວກເຮົາໄດ້ແບ່ງຊຸດຂໍ້ມູນໂດຍໃຊ້ການແບ່ງການທົດສອບທາງລົດໄຟເຊັ່ນວ່າຊຸດລົດໄຟປະກອບດ້ວຍ 80% ຂອງຂໍ້ມູນແລະຊຸດທົດສອບມີ 20%. ຊຸດຂໍ້ມູນສາມາດແບ່ງອອກໄດ້ດັ່ງນີ້:
3. Linear Regression
Linear Regression ແມ່ນເຕັກນິກການຮຽນຮູ້ເຄື່ອງຈັກໂດຍອີງໃສ່ການຮຽນຮູ້ແບບຄວບຄຸມ. ມັນປະຕິບັດວຽກງານການຖົດຖອຍ. ອີງຕາມຕົວແປເອກະລາດ, ການຖົດຖອຍແບບຈໍາລອງເປັນມູນຄ່າການຄາດຄະເນເປົ້າຫມາຍ. ມັນຖືກນໍາໃຊ້ສ່ວນໃຫຍ່ເພື່ອກໍານົດການເຊື່ອມຕໍ່ລະຫວ່າງຕົວແປແລະການຄາດເດົາ. ຮູບແບບການຖົດຖອຍທີ່ແຕກຕ່າງກັນແຕກຕ່າງກັນໃນປະເພດຂອງການເຊື່ອມຕໍ່ທີ່ພວກເຂົາປະເມີນລະຫວ່າງຕົວແປທີ່ຂຶ້ນກັບແລະເອກະລາດ, ເຊັ່ນດຽວກັນກັບຈໍານວນຕົວແປເອກະລາດທີ່ຖືກນໍາໃຊ້. ພວກເຮົາສາມາດສ້າງແບບຈໍາລອງ Linear Regression ໂດຍໃຊ້ sklearn ດັ່ງຕໍ່ໄປນີ້:
4. Logistic Regression
ວິທີການຈັດປະເພດທົ່ວໄປແມ່ນການຖົດຖອຍ logistic. ມັນຢູ່ໃນຄອບຄົວດຽວກັນກັບ polynomial ແລະ linear regression ແລະເປັນຂອງຄອບຄົວການຈັດປະເພດເສັ້ນ. ການຄົ້ນພົບຂອງການຖົດຖອຍຂອງ logistic ແມ່ນງ່າຍດາຍທີ່ຈະເຂົ້າໃຈແລະໄວທີ່ຈະຄິດໄລ່. ໃນທາງດຽວກັນກັບການຖົດຖອຍແບບເສັ້ນ, ການຖົດຖອຍຂອງ logistic ແມ່ນເຕັກນິກການຖົດຖອຍທີ່ມີການຄວບຄຸມ. ຕົວແປຜົນຜະລິດແມ່ນປະເພດ, ດັ່ງນັ້ນຄວາມແຕກຕ່າງເທົ່ານັ້ນ. ມັນສາມາດກໍານົດວ່າຄົນເຈັບມີພະຍາດຫົວໃຈຫຼືບໍ່.
ບັນຫາການຈັດປະເພດຕ່າງໆ, ເຊັ່ນ: ການກວດສອບ spam, ອາດຈະຖືກແກ້ໄຂໂດຍໃຊ້ logistic regression. ການຄາດຄະເນຂອງພະຍາດເບົາຫວານ, ການກໍານົດວ່າຜູ້ບໍລິໂພກຈະຊື້ຜະລິດຕະພັນສະເພາະໃດຫນຶ່ງຫຼືປ່ຽນເປັນຄູ່ແຂ່ງ, ກໍານົດວ່າຜູ້ໃຊ້ຈະຄລິກໃສ່ການເຊື່ອມຕໍ່ການຕະຫຼາດສະເພາະໃດຫນຶ່ງ, ແລະຫຼາຍໆສະຖານະການແມ່ນພຽງແຕ່ບາງຕົວຢ່າງ.
5. ຕົ້ນໄມ້ການຕັດສິນໃຈ
ເຕັກນິກການຈັດປະເພດແລະການຄາດຄະເນທີ່ມີປະສິດທິພາບທີ່ສຸດແລະຖືກນໍາໃຊ້ຢ່າງກວ້າງຂວາງແມ່ນຕົ້ນໄມ້ການຕັດສິນໃຈ. ຕົ້ນໄມ້ການຕັດສິນໃຈແມ່ນໂຄງສ້າງຕົ້ນໄມ້ທີ່ຄ້າຍຄືກັບຕາຕະລາງການໄຫຼ, ໂດຍແຕ່ລະ node ພາຍໃນເປັນຕົວແທນຂອງການທົດສອບກ່ຽວກັບຄຸນລັກສະນະ, ແຕ່ລະສາຂາເປັນຕົວແທນຂອງບົດສະຫຼຸບຂອງການທົດສອບ, ແລະແຕ່ລະຂໍ້ຂອງໃບ (terminal node) ຖືປ້າຍປະເພດ.
ເມື່ອຕົວແປທີ່ຂຶ້ນກັບບໍ່ມີຄວາມສໍາພັນທາງເສັ້ນກັບຕົວແປທີ່ເປັນເອກະລາດ, ເຊັ່ນວ່າເມື່ອການຖົດຖອຍຂອງເສັ້ນຊື່ບໍ່ໄດ້ຜົນການຄົ້ນພົບທີ່ຖືກຕ້ອງ, ຕົ້ນໄມ້ການຕັດສິນໃຈຈະເປັນປະໂຫຍດ. ວັດຖຸ DecisionTreeRegression() ອາດຈະຖືກນໍາໃຊ້ໃນລັກສະນະທີ່ຄ້າຍຄືກັນເພື່ອນໍາໃຊ້ຕົ້ນໄມ້ການຕັດສິນໃຈສໍາລັບການຖົດຖອຍ.
6. ປ່າສະຫງວນ
ປ່າສຸ່ມເປັນ ການຮຽນຮູ້ເຄື່ອງຈັກ ວິທີການແກ້ໄຂບັນຫາການຖົດຖອຍແລະການຈັດປະເພດ. ມັນເຮັດໃຫ້ການນໍາໃຊ້ການຮຽນຮູ້ ensemble, ເຊິ່ງເປັນເຕັກນິກທີ່ປະສົມປະສານການຈັດປະເພດຫຼາຍເພື່ອແກ້ໄຂບັນຫາທີ່ສັບສົນ. ວິທີການປ່າໄມ້ແບບສຸ່ມແມ່ນປະກອບດ້ວຍຕົ້ນໄມ້ຕັດສິນໃຈຈໍານວນຫລາຍ. ມັນອາດຈະຖືກນໍາໃຊ້ເພື່ອຈັດປະເພດຄໍາຮ້ອງສະຫມັກກູ້ຢືມເງິນ, ການກວດສອບພຶດຕິກໍາການສໍ້ໂກງ, ແລະຄາດຄະເນການລະບາດຂອງພະຍາດ.
7. Confusion Matrix
ມາຕຣິກເບື້ອງທີ່ສັບສົນແມ່ນຕາຕະລາງທີ່ໃຊ້ເພື່ອອະທິບາຍການປະຕິບັດຕົວແບບການຈັດປະເພດ. ສີ່ຄໍາຕໍ່ໄປນີ້ໄດ້ຖືກນໍາໃຊ້ເພື່ອກວດກາມາຕຣິກເບື້ອງຄວາມສັບສົນ:
- ໃນທາງບວກທີ່ແທ້ຈິງ: ມັນຫມາຍຄວາມວ່າຕົວແບບຄາດຄະເນຜົນໄດ້ຮັບທີ່ເອື້ອອໍານວຍແລະມັນຖືກຕ້ອງ.
- ທາງລົບທີ່ແທ້ຈິງ: ມັນຫມາຍຄວາມວ່າຕົວແບບຄາດຄະເນຜົນໄດ້ຮັບທີ່ບໍ່ດີແລະມັນຖືກຕ້ອງ.
- False Positive: ມັນຫມາຍຄວາມວ່າຕົວແບບຄາດວ່າຈະມີຜົນໄດ້ຮັບທີ່ເອື້ອອໍານວຍແຕ່ມັນກໍ່ເປັນທາງລົບ.
- False Negative: ມັນຫມາຍຄວາມວ່າຕົວແບບຄາດວ່າຈະມີຜົນໄດ້ຮັບທາງລົບ, ໃນຂະນະທີ່ຜົນໄດ້ຮັບແມ່ນໃນທາງບວກແທ້ໆ.
ການປະຕິບັດຕາຕະລາງສັບສົນ:
pros
- ມັນງ່າຍທີ່ຈະໃຊ້.
- ຊຸດ Scikit-learn ແມ່ນສາມາດປັບຕົວໄດ້ແລະເປັນປະໂຫຍດທີ່ສຸດ, ໃຫ້ບໍລິການເປົ້າຫມາຍທີ່ແທ້ຈິງເຊັ່ນ: ການຄາດຄະເນພຶດຕິກໍາຂອງຜູ້ບໍລິໂພກ, ການພັດທະນາ neuroimage, ແລະອື່ນໆ.
- ຜູ້ໃຊ້ທີ່ຕ້ອງການເຊື່ອມຕໍ່ algorithms ກັບເວທີຂອງພວກເຂົາຈະຊອກຫາເອກະສານ API ລາຍລະອຽດຢູ່ໃນເວັບໄຊທ໌ Scikit-learn.
- ຜູ້ຂຽນຫຼາຍຄົນ, ຜູ້ຮ່ວມມື, ແລະຊຸມຊົນອອນໄລນ໌ຂະຫນາດໃຫຍ່ທົ່ວໂລກສະຫນັບສະຫນູນແລະຮັກສາ Scikit-learn ຈົນເຖິງວັນທີ.
cons
- ມັນບໍ່ແມ່ນທາງເລືອກທີ່ເຫມາະສົມສໍາລັບການສຶກສາໃນຄວາມເລິກ.
ສະຫຼຸບ
Scikit-learn ເປັນຊຸດທີ່ສຳຄັນສຳລັບນັກວິທະຍາສາດຂໍ້ມູນທຸກຄົນທີ່ຈະເຂົ້າໃຈຢ່າງແຂງແຮງ ແລະມີປະສົບການບາງຢ່າງກັບ. ຄູ່ມືນີ້ຄວນຊ່ວຍໃຫ້ທ່ານຈັດການຂໍ້ມູນໂດຍໃຊ້ sklearn. ມີຄວາມສາມາດເພີ່ມເຕີມຂອງ Scikit-learn ທີ່ເຈົ້າຈະຄົ້ນພົບເມື່ອທ່ານກ້າວຜ່ານການຜະຈົນໄພວິທະຍາສາດຂໍ້ມູນຂອງທ່ານ. ແບ່ງປັນຄວາມຄິດຂອງທ່ານໃນຄໍາເຫັນ.
ອອກຈາກ Reply ເປັນ