ຄູ່ມືເລີ່ມຕົ້ນຂອງ Scikit-learn

ສາລະບານ[ເຊື່ອງ][ສະແດງ]

Scikit-learn ແມ່ນຫຍັງ?
ຄໍາຮ້ອງສະຫມັກຂອງຫ້ອງສະຫມຸດ Scikit-learn+-
ການຕິດຕັ້ງ Scikit-learn
ຄຸນລັກສະນະ +-
pros
cons
ສະຫຼຸບ

ຖ້າທ່ານເປັນນັກຂຽນໂປລແກລມ Python ຫຼືຖ້າທ່ານກໍາລັງຊອກຫາຊຸດເຄື່ອງມືທີ່ມີປະສິດທິພາບເພື່ອນໍາໃຊ້ເພື່ອແນະນໍາການຮຽນຮູ້ເຄື່ອງຈັກເຂົ້າໃນລະບົບການຜະລິດ, Scikit-learn ແມ່ນຫ້ອງສະຫມຸດທີ່ທ່ານຈໍາເປັນຕ້ອງກວດເບິ່ງ.

Scikit-learn ແມ່ນເອກະສານທີ່ດີ ແລະໃຊ້ງ່າຍ, ບໍ່ວ່າເຈົ້າເປັນມືໃໝ່ໃນການຮຽນຮູ້ເຄື່ອງຈັກ, ຕ້ອງການລຸກຂຶ້ນ ແລະແລ່ນໄວ, ຫຼືຕ້ອງການໃຊ້ເຄື່ອງມືຄົ້ນຄວ້າ ML ທີ່ທັນສະໄໝທີ່ສຸດ.

ມັນອະນຸຍາດໃຫ້ທ່ານສ້າງແບບຈໍາລອງຂໍ້ມູນທີ່ຄາດເດົາໄດ້ພຽງແຕ່ສອງສາມເສັ້ນຂອງລະຫັດແລະຫຼັງຈາກນັ້ນນໍາໃຊ້ຕົວແບບນັ້ນເພື່ອໃຫ້ເຫມາະສົມກັບຂໍ້ມູນຂອງທ່ານເປັນຫ້ອງສະຫມຸດລະດັບສູງ. ມັນມີຄວາມຍືດຫຍຸ່ນແລະເຮັດວຽກໄດ້ດີກັບອື່ນໆ ຫ້ອງສະໝຸດ Python ເຊັ່ນ Matplotlib ສໍາລັບຕາຕະລາງ, NumPy ສໍາລັບ vectorization array, ແລະ pandas ສໍາລັບການເບິ່ງເຫັນຂໍ້ມູນ.

ໃນຄູ່ມືນີ້, ທ່ານຈະຊອກຫາທັງຫມົດກ່ຽວກັບສິ່ງທີ່ມັນແມ່ນ, ວິທີການທີ່ທ່ານສາມາດນໍາໃຊ້ມັນ, ຄຽງຄູ່ກັບຂໍ້ດີແລະຂໍ້ເສຍຂອງມັນ.

ແມ່ນຫຍັງ Scikit- ຮຽນຮູ້?

Scikit-learn (ເອີ້ນອີກຊື່ໜຶ່ງວ່າ sklearn) ສະເໜີຕົວແບບສະຖິຕິ ແລະການຮຽນຮູ້ຂອງເຄື່ອງຈັກທີ່ຫຼາກຫຼາຍ. ບໍ່ເຫມືອນກັບໂມດູນສ່ວນໃຫຍ່, sklearn ແມ່ນພັດທະນາຢູ່ໃນ Python ແທນທີ່ຈະ C. ເຖິງວ່າຈະມີການພັດທະນາໃນ Python, ປະສິດທິພາບຂອງ sklearn ແມ່ນໄດ້ກໍານົດການນໍາໃຊ້ NumPy ຂອງຕົນສໍາລັບການປະຕິບັດ algebra linear ປະສິດທິພາບສູງແລະ array.

Scikit-Learn ໄດ້ຖືກສ້າງຂື້ນເປັນສ່ວນຫນຶ່ງຂອງໂຄງການ Summer of Code ຂອງ Google ແລະນັບຕັ້ງແຕ່ນັ້ນມາເຮັດໃຫ້ຊີວິດຂອງນັກວິທະຍາສາດຂໍ້ມູນ Python-centric ຫຼາຍລ້ານຄົນທົ່ວໂລກງ່າຍຂຶ້ນ. ພາກສ່ວນຂອງຊຸດນີ້ສຸມໃສ່ການນໍາສະເຫນີຫ້ອງສະຫມຸດແລະສຸມໃສ່ອົງປະກອບຫນຶ່ງ - ການຫັນປ່ຽນຊຸດຂໍ້ມູນ, ເຊິ່ງເປັນບາດກ້າວທີ່ສໍາຄັນແລະສໍາຄັນທີ່ຈະເຮັດກ່ອນທີ່ຈະພັດທະນາຮູບແບບການຄາດຄະເນ.

Sklearn

ຫ້ອງສະຫມຸດແມ່ນອີງໃສ່ SciPy (Scientific Python), ເຊິ່ງຕ້ອງໄດ້ຮັບການຕິດຕັ້ງກ່ອນທີ່ທ່ານຈະສາມາດໃຊ້ scikit-learn. stack ນີ້ປະກອບມີລາຍການດັ່ງຕໍ່ໄປນີ້:

NumPy: ຊຸດອາເຣ N-dimensional ມາດຕະຖານຂອງ Python
SciPy: ມັນເປັນຊຸດພື້ນຖານສໍາລັບການຄອມພິວເຕີທາງວິທະຍາສາດ
Pandas: ໂຄງສ້າງຂໍ້ມູນແລະການວິເຄາະ
Matplotlib: ມັນເປັນຫ້ອງສະຫມຸດ 2D / 3D ທີ່ມີອໍານາດ
Sympy: ຄະນິດສາດສັນຍາລັກ
IPython: ປັບປຸງຄອນໂຊແບບໂຕ້ຕອບ

ຄໍາຮ້ອງສະຫມັກຂອງຫ້ອງສະຫມຸດ Scikit-learn

Scikit-learn ແມ່ນຊຸດ Python ແຫຼ່ງເປີດທີ່ມີການວິເຄາະຂໍ້ມູນທີ່ຊັບຊ້ອນ ແລະຄຸນສົມບັດການຂຸດຄົ້ນບໍ່ແຮ່. ມັນມາພ້ອມກັບລະບົບສູດການຄິດໄລ່ທີ່ສ້າງຂຶ້ນຫຼາຍອັນເພື່ອຊ່ວຍໃຫ້ທ່ານໄດ້ຮັບປະໂຫຍດສູງສຸດຈາກໂຄງການວິທະຍາສາດຂໍ້ມູນຂອງທ່ານ. ຫ້ອງສະໝຸດ Scikit-learn ແມ່ນໃຊ້ໃນວິທີຕໍ່ໄປນີ້.

1. ການຖົດຖອຍ

ການວິເຄາະ Regression ແມ່ນເຕັກນິກສະຖິຕິສໍາລັບການວິເຄາະແລະເຂົ້າໃຈການເຊື່ອມຕໍ່ລະຫວ່າງສອງຕົວແປຫຼືຫຼາຍກວ່ານັ້ນ. ວິທີການທີ່ໃຊ້ໃນການວິເຄາະການຖົດຖອຍຊ່ວຍໃນການກໍານົດວ່າອົງປະກອບໃດມີຄວາມກ່ຽວຂ້ອງ, ເຊິ່ງອາດຈະຖືກລະເລີຍ, ແລະວິທີການທີ່ພວກມັນພົວພັນກັບ. ເຕັກນິກການຖົດຖອຍ, ສໍາລັບຕົວຢ່າງ, ອາດຈະຖືກນໍາໃຊ້ເພື່ອເຂົ້າໃຈພຶດຕິກໍາຂອງລາຄາຫຼັກຊັບ.

ສູດການຄິດໄລ່ການຖົດຖອຍລວມມີ:

Linear Regression
Ridge Regression
Lasso Regression
ການຕັດຕົ້ນໄມ້ Regression
ປ່າ Random
ຮອງຮັບ Vector Machines (SVM)

2. ການຈັດປະເພດ

ວິທີການຈັດປະເພດແມ່ນວິທີການຮຽນຮູ້ແບບຄວບຄຸມທີ່ນໍາໃຊ້ຂໍ້ມູນການຝຶກອົບຮົມເພື່ອກໍານົດປະເພດຂອງການສັງເກດສົດ. ສູດການຄິດໄລ່ໃນການຈັດປະເພດຮຽນຮູ້ຈາກອັນທີ່ໃຫ້ ຊຸດຂໍ້ມູນ ຫຼືການສັງເກດການແລະຫຼັງຈາກນັ້ນຈັດປະເພດການສັງເກດການເພີ່ມເຕີມເຂົ້າໄປໃນຫນຶ່ງໃນຫຼາຍຫ້ອງຮຽນຫຼືກຸ່ມ. ຕົວຢ່າງ, ພວກເຂົາສາມາດຖືກໃຊ້ເພື່ອຈັດປະເພດການສື່ສານທາງອີເມລ໌ເປັນ spam ຫຼືບໍ່ແມ່ນ.

ຂັ້ນຕອນການຈັດປະເພດປະກອບມີດັ່ງຕໍ່ໄປນີ້:

Logistic Regression
K-ເພື່ອນບ້ານໃກ້ທີ່ສຸດ
ສະຫນັບສະຫນູນ Vector Machine
ຕົ້ນໄມ້ຕັດສິນໃຈ
ປ່າ Random

3. ການຈັດກຸ່ມ

ສູດການຄິດໄລ່ຂອງກຸ່ມໃນ Scikit-learn ຖືກນໍາໃຊ້ເພື່ອຈັດລຽງຂໍ້ມູນອັດຕະໂນມັດທີ່ມີຄຸນສົມບັດຄ້າຍຄືກັນເປັນຊຸດ. Clustering ແມ່ນຂະບວນການຈັດກຸ່ມຊຸດຂອງລາຍການເພື່ອໃຫ້ຜູ້ທີ່ຢູ່ໃນກຸ່ມດຽວກັນມີຄວາມຄ້າຍຄືກັນກັບກຸ່ມອື່ນໆ. ຕົວຢ່າງຂໍ້ມູນລູກຄ້າອາດຈະຖືກແຍກອອກໂດຍອີງໃສ່ສະຖານທີ່ຂອງພວກເຂົາ.

ຂັ້ນຕອນການຈັດກຸ່ມປະກອບມີສິ່ງຕໍ່ໄປນີ້:

DB-SCAN
K-Means
Mini-Batch K-Means
ການຈັດກຸ່ມ Spectral

4. ການເລືອກຕົວແບບ

ຂັ້ນຕອນການເລືອກຕົວແບບໃຫ້ວິທີການປຽບທຽບ, ກວດສອບ, ແລະເລືອກພາລາມິເຕີ ແລະຕົວແບບທີ່ດີທີ່ສຸດເພື່ອໃຊ້ໃນການລິເລີ່ມວິທະຍາສາດຂໍ້ມູນ. ອີງຕາມຂໍ້ມູນ, ການຄັດເລືອກຕົວແບບແມ່ນບັນຫາຂອງການເລືອກຕົວແບບສະຖິຕິຈາກກຸ່ມຂອງຕົວແບບຂອງຜູ້ສະຫມັກ. ໃນສະຖານະການພື້ນຖານທີ່ສຸດ, ການລວບລວມຂໍ້ມູນທີ່ມີຢູ່ກ່ອນຫນ້າແມ່ນຖືກພິຈາລະນາ. ຢ່າງໃດກໍ່ຕາມ, ວຽກງານດັ່ງກ່າວອາດຈະປະກອບມີການອອກແບບການທົດລອງເພື່ອໃຫ້ຂໍ້ມູນທີ່ໄດ້ຮັບແມ່ນເຫມາະສົມກັບບັນຫາການເລືອກຕົວແບບ.

ໂມດູນການຄັດເລືອກຕົວແບບທີ່ສາມາດປັບປຸງຄວາມຖືກຕ້ອງໂດຍການປັບຕົວກໍານົດການປະກອບມີ:

ການກວດສອບຂ້າມ
ຊອກຫາຕາຂ່າຍໄຟຟ້າ
Metrics

5. ການຫຼຸດຜ່ອນຂະຫນາດ

ການໂອນຂໍ້ມູນຈາກພື້ນທີ່ມິຕິລະດັບສູງໄປຫາພື້ນທີ່ມິຕິລະດັບຕ່ໍາເພື່ອໃຫ້ການສະແດງມິຕິມິຕິຕ່ໍາຮັກສາບາງລັກສະນະທີ່ສໍາຄັນຂອງຂໍ້ມູນຕົ້ນສະບັບ, ໂດຍສະເພາະແມ່ນຢູ່ໃກ້ກັບຂະຫນາດຂອງມັນ, ເອີ້ນວ່າການຫຼຸດຜ່ອນຂະຫນາດ. ຈໍານວນຕົວແປແບບສຸ່ມສໍາລັບການວິເຄາະແມ່ນຫຼຸດລົງເມື່ອຂະຫນາດຫຼຸດລົງ. ຕົວຢ່າງ, ຂໍ້ມູນທີ່ຢູ່ຫ່າງໄກອາດຈະບໍ່ຖືກພິຈາລະນາເພື່ອປັບປຸງປະສິດທິພາບຂອງການເບິ່ງເຫັນ.

ຂັ້ນຕອນການຫຼຸດຜ່ອນຄວາມມິຕິປະກອບມີສິ່ງຕໍ່ໄປນີ້:

ການຄັດເລືອກຄຸນນະສົມບັດ
ການວິເຄາະສ່ວນປະກອບຫຼັກ (PCA)

ການຕິດຕັ້ງ Scikit-learn

NumPy, SciPy, Matplotlib, IPython, Sympy, ແລະ Pandas ຈໍາເປັນຕ້ອງໄດ້ຕິດຕັ້ງກ່ອນທີ່ຈະໃຊ້ Scikit-learn. ໃຫ້ຕິດຕັ້ງພວກມັນໂດຍໃຊ້ pip ຈາກ console (ໃຊ້ໄດ້ກັບ Windows ເທົ່ານັ້ນ).

ຕິດຕັ້ງ

ໃຫ້ຕິດຕັ້ງ Scikit-learn ດຽວນີ້ທີ່ພວກເຮົາໄດ້ຕິດຕັ້ງຫ້ອງສະຫມຸດທີ່ຕ້ອງການ.

ການຕິດຕັ້ງ Sklearn

ຄຸນລັກສະນະ

Scikit-learn, ບາງຄັ້ງເອີ້ນວ່າ sklearn, ແມ່ນຊຸດເຄື່ອງມື Python ສໍາລັບການປະຕິບັດຕົວແບບການຮຽນຮູ້ເຄື່ອງຈັກ ແລະການສ້າງແບບຈໍາລອງສະຖິຕິ. ພວກເຮົາອາດຈະໃຊ້ມັນເພື່ອສ້າງແບບຈໍາລອງການຮຽນຮູ້ເຄື່ອງຈັກຫຼາຍອັນສໍາລັບການຖົດຖອຍ, ການຈັດປະເພດ, ແລະການຈັດກຸ່ມ, ເຊັ່ນດຽວກັນກັບເຄື່ອງມືສະຖິຕິສໍາລັບການປະເມີນແບບຈໍາລອງເຫຼົ່ານີ້. ມັນຍັງປະກອບມີການຫຼຸດຜ່ອນຂະຫນາດ, ການຄັດເລືອກຄຸນສົມບັດ, ການສະກັດເອົາຄຸນສົມບັດ, ວິທີການປະກອບ, ແລະຊຸດຂໍ້ມູນໃນຕົວ. ພວກເຮົາຈະສືບສວນແຕ່ລະຄຸນນະພາບເຫຼົ່ານີ້ເທື່ອລະອັນ.

1. ການນໍາເຂົ້າຊຸດຂໍ້ມູນ

Scikit-learn ປະກອບມີຊຸດຂໍ້ມູນທີ່ສ້າງຂຶ້ນກ່ອນ, ເຊັ່ນຊຸດຂໍ້ມູນ iris, ຊຸດຂໍ້ມູນລາຄາເຮືອນ, ຊຸດຂໍ້ມູນ Titanic, ແລະອື່ນໆ. ຂໍ້ໄດ້ປຽບທີ່ສໍາຄັນຂອງຊຸດຂໍ້ມູນເຫຼົ່ານີ້ແມ່ນງ່າຍດາຍທີ່ຈະເຂົ້າໃຈແລະສາມາດຖືກນໍາໃຊ້ເພື່ອພັດທະນາຕົວແບບ ML ທັນທີ. ຊຸດຂໍ້ມູນເຫຼົ່ານີ້ແມ່ນເຫມາະສົມສໍາລັບຈົວ. ເຊັ່ນດຽວກັນ, ທ່ານອາດຈະໃຊ້ sklearn ເພື່ອນໍາເຂົ້າຊຸດຂໍ້ມູນເພີ່ມເຕີມ. ເຊັ່ນດຽວກັນ, ທ່ານອາດຈະໃຊ້ມັນເພື່ອນໍາເຂົ້າຊຸດຂໍ້ມູນເພີ່ມເຕີມ.

Dataset

2. ການແຍກຊຸດຂໍ້ມູນສຳລັບການຝຶກອົບຮົມ ແລະ ການທົດສອບ

Sklearn ລວມເອົາຄວາມສາມາດໃນການແບ່ງຊຸດຂໍ້ມູນເຂົ້າໄປໃນສ່ວນການຝຶກອົບຮົມແລະການທົດສອບ. ການແຍກຊຸດຂໍ້ມູນແມ່ນຕ້ອງການສໍາລັບການປະເມີນທີ່ບໍ່ເປັນກາງຂອງການປະຕິບັດການຄາດເດົາ. ພວກເຮົາອາດຈະລະບຸຈໍານວນຂໍ້ມູນຂອງພວກເຮົາຄວນຈະຖືກລວມເຂົ້າໃນຊຸດຂໍ້ມູນການຝຶກອົບຮົມແລະການທົດສອບ. ພວກເຮົາໄດ້ແບ່ງຊຸດຂໍ້ມູນໂດຍໃຊ້ການແບ່ງການທົດສອບທາງລົດໄຟເຊັ່ນວ່າຊຸດລົດໄຟປະກອບດ້ວຍ 80% ຂອງຂໍ້ມູນແລະຊຸດທົດສອບມີ 20%. ຊຸດຂໍ້ມູນສາມາດແບ່ງອອກໄດ້ດັ່ງນີ້:

ການແຍກ

3. Linear Regression

Linear Regression ແມ່ນເຕັກນິກການຮຽນຮູ້ເຄື່ອງຈັກໂດຍອີງໃສ່ການຮຽນຮູ້ແບບຄວບຄຸມ. ມັນປະຕິບັດວຽກງານການຖົດຖອຍ. ອີງຕາມຕົວແປເອກະລາດ, ການຖົດຖອຍແບບຈໍາລອງເປັນມູນຄ່າການຄາດຄະເນເປົ້າຫມາຍ. ມັນຖືກນໍາໃຊ້ສ່ວນໃຫຍ່ເພື່ອກໍານົດການເຊື່ອມຕໍ່ລະຫວ່າງຕົວແປແລະການຄາດເດົາ. ຮູບແບບການຖົດຖອຍທີ່ແຕກຕ່າງກັນແຕກຕ່າງກັນໃນປະເພດຂອງການເຊື່ອມຕໍ່ທີ່ພວກເຂົາປະເມີນລະຫວ່າງຕົວແປທີ່ຂຶ້ນກັບແລະເອກະລາດ, ເຊັ່ນດຽວກັນກັບຈໍານວນຕົວແປເອກະລາດທີ່ຖືກນໍາໃຊ້. ພວກເຮົາສາມາດສ້າງແບບຈໍາລອງ Linear Regression ໂດຍໃຊ້ sklearn ດັ່ງຕໍ່ໄປນີ້:

Linear Regression

4. Logistic Regression

ວິທີການຈັດປະເພດທົ່ວໄປແມ່ນການຖົດຖອຍ logistic. ມັນຢູ່ໃນຄອບຄົວດຽວກັນກັບ polynomial ແລະ linear regression ແລະເປັນຂອງຄອບຄົວການຈັດປະເພດເສັ້ນ. ການຄົ້ນພົບຂອງການຖົດຖອຍຂອງ logistic ແມ່ນງ່າຍດາຍທີ່ຈະເຂົ້າໃຈແລະໄວທີ່ຈະຄິດໄລ່. ໃນທາງດຽວກັນກັບການຖົດຖອຍແບບເສັ້ນ, ການຖົດຖອຍຂອງ logistic ແມ່ນເຕັກນິກການຖົດຖອຍທີ່ມີການຄວບຄຸມ. ຕົວແປຜົນຜະລິດແມ່ນປະເພດ, ດັ່ງນັ້ນຄວາມແຕກຕ່າງເທົ່ານັ້ນ. ມັນສາມາດກໍານົດວ່າຄົນເຈັບມີພະຍາດຫົວໃຈຫຼືບໍ່.

ບັນຫາການຈັດປະເພດຕ່າງໆ, ເຊັ່ນ: ການກວດສອບ spam, ອາດຈະຖືກແກ້ໄຂໂດຍໃຊ້ logistic regression. ການຄາດຄະເນຂອງພະຍາດເບົາຫວານ, ການກໍານົດວ່າຜູ້ບໍລິໂພກຈະຊື້ຜະລິດຕະພັນສະເພາະໃດຫນຶ່ງຫຼືປ່ຽນເປັນຄູ່ແຂ່ງ, ກໍານົດວ່າຜູ້ໃຊ້ຈະຄລິກໃສ່ການເຊື່ອມຕໍ່ການຕະຫຼາດສະເພາະໃດຫນຶ່ງ, ແລະຫຼາຍໆສະຖານະການແມ່ນພຽງແຕ່ບາງຕົວຢ່າງ.

Logistic Regression

5. ຕົ້ນໄມ້ການຕັດສິນໃຈ

ເຕັກນິກການຈັດປະເພດແລະການຄາດຄະເນທີ່ມີປະສິດທິພາບທີ່ສຸດແລະຖືກນໍາໃຊ້ຢ່າງກວ້າງຂວາງແມ່ນຕົ້ນໄມ້ການຕັດສິນໃຈ. ຕົ້ນໄມ້ການຕັດສິນໃຈແມ່ນໂຄງສ້າງຕົ້ນໄມ້ທີ່ຄ້າຍຄືກັບຕາຕະລາງການໄຫຼ, ໂດຍແຕ່ລະ node ພາຍໃນເປັນຕົວແທນຂອງການທົດສອບກ່ຽວກັບຄຸນລັກສະນະ, ແຕ່ລະສາຂາເປັນຕົວແທນຂອງບົດສະຫຼຸບຂອງການທົດສອບ, ແລະແຕ່ລະຂໍ້ຂອງໃບ (terminal node) ຖືປ້າຍປະເພດ.

ເມື່ອຕົວແປທີ່ຂຶ້ນກັບບໍ່ມີຄວາມສໍາພັນທາງເສັ້ນກັບຕົວແປທີ່ເປັນເອກະລາດ, ເຊັ່ນວ່າເມື່ອການຖົດຖອຍຂອງເສັ້ນຊື່ບໍ່ໄດ້ຜົນການຄົ້ນພົບທີ່ຖືກຕ້ອງ, ຕົ້ນໄມ້ການຕັດສິນໃຈຈະເປັນປະໂຫຍດ. ວັດຖຸ DecisionTreeRegression() ອາດຈະຖືກນໍາໃຊ້ໃນລັກສະນະທີ່ຄ້າຍຄືກັນເພື່ອນໍາໃຊ້ຕົ້ນໄມ້ການຕັດສິນໃຈສໍາລັບການຖົດຖອຍ.

ຕົ້ນໄມ້ຕັດສິນໃຈ

6. ປ່າສະຫງວນ

ປ່າສຸ່ມເປັນ ການຮຽນຮູ້ເຄື່ອງຈັກ ວິທີການແກ້ໄຂບັນຫາການຖົດຖອຍແລະການຈັດປະເພດ. ມັນເຮັດໃຫ້ການນໍາໃຊ້ການຮຽນຮູ້ ensemble, ເຊິ່ງເປັນເຕັກນິກທີ່ປະສົມປະສານການຈັດປະເພດຫຼາຍເພື່ອແກ້ໄຂບັນຫາທີ່ສັບສົນ. ວິທີການປ່າໄມ້ແບບສຸ່ມແມ່ນປະກອບດ້ວຍຕົ້ນໄມ້ຕັດສິນໃຈຈໍານວນຫລາຍ. ມັນອາດຈະຖືກນໍາໃຊ້ເພື່ອຈັດປະເພດຄໍາຮ້ອງສະຫມັກກູ້ຢືມເງິນ, ການກວດສອບພຶດຕິກໍາການສໍ້ໂກງ, ແລະຄາດຄະເນການລະບາດຂອງພະຍາດ.

ປ່າ Random

7. Confusion Matrix

ມາຕຣິກເບື້ອງທີ່ສັບສົນແມ່ນຕາຕະລາງທີ່ໃຊ້ເພື່ອອະທິບາຍການປະຕິບັດຕົວແບບການຈັດປະເພດ. ສີ່ຄໍາຕໍ່ໄປນີ້ໄດ້ຖືກນໍາໃຊ້ເພື່ອກວດກາມາຕຣິກເບື້ອງຄວາມສັບສົນ:

ໃນທາງບວກທີ່ແທ້ຈິງ: ມັນຫມາຍຄວາມວ່າຕົວແບບຄາດຄະເນຜົນໄດ້ຮັບທີ່ເອື້ອອໍານວຍແລະມັນຖືກຕ້ອງ.
ທາງລົບທີ່ແທ້ຈິງ: ມັນຫມາຍຄວາມວ່າຕົວແບບຄາດຄະເນຜົນໄດ້ຮັບທີ່ບໍ່ດີແລະມັນຖືກຕ້ອງ.
False Positive: ມັນຫມາຍຄວາມວ່າຕົວແບບຄາດວ່າຈະມີຜົນໄດ້ຮັບທີ່ເອື້ອອໍານວຍແຕ່ມັນກໍ່ເປັນທາງລົບ.
False Negative: ມັນຫມາຍຄວາມວ່າຕົວແບບຄາດວ່າຈະມີຜົນໄດ້ຮັບທາງລົບ, ໃນຂະນະທີ່ຜົນໄດ້ຮັບແມ່ນໃນທາງບວກແທ້ໆ.

ຮູບພາບມາຕຣິກເບື້ອງສັບສົນ

ການປະຕິບັດຕາຕະລາງສັບສົນ:

ຕົວຊີ້ວັດຄວາມສັບສົນ

pros

ມັນງ່າຍທີ່ຈະໃຊ້.
ຊຸດ Scikit-learn ແມ່ນສາມາດປັບຕົວໄດ້ແລະເປັນປະໂຫຍດທີ່ສຸດ, ໃຫ້ບໍລິການເປົ້າຫມາຍທີ່ແທ້ຈິງເຊັ່ນ: ການຄາດຄະເນພຶດຕິກໍາຂອງຜູ້ບໍລິໂພກ, ການພັດທະນາ neuroimage, ແລະອື່ນໆ.
ຜູ້ໃຊ້ທີ່ຕ້ອງການເຊື່ອມຕໍ່ algorithms ກັບເວທີຂອງພວກເຂົາຈະຊອກຫາເອກະສານ API ລາຍລະອຽດຢູ່ໃນເວັບໄຊທ໌ Scikit-learn.
ຜູ້ຂຽນຫຼາຍຄົນ, ຜູ້ຮ່ວມມື, ແລະຊຸມຊົນອອນໄລນ໌ຂະຫນາດໃຫຍ່ທົ່ວໂລກສະຫນັບສະຫນູນແລະຮັກສາ Scikit-learn ຈົນເຖິງວັນທີ.

cons

ມັນບໍ່ແມ່ນທາງເລືອກທີ່ເຫມາະສົມສໍາລັບການສຶກສາໃນຄວາມເລິກ.

ສະຫຼຸບ

Scikit-learn ເປັນຊຸດທີ່ສຳຄັນສຳລັບນັກວິທະຍາສາດຂໍ້ມູນທຸກຄົນທີ່ຈະເຂົ້າໃຈຢ່າງແຂງແຮງ ແລະມີປະສົບການບາງຢ່າງກັບ. ຄູ່ມືນີ້ຄວນຊ່ວຍໃຫ້ທ່ານຈັດການຂໍ້ມູນໂດຍໃຊ້ sklearn. ມີຄວາມສາມາດເພີ່ມເຕີມຂອງ Scikit-learn ທີ່ເຈົ້າຈະຄົ້ນພົບເມື່ອທ່ານກ້າວຜ່ານການຜະຈົນໄພວິທະຍາສາດຂໍ້ມູນຂອງທ່ານ. ແບ່ງປັນຄວາມຄິດຂອງທ່ານໃນຄໍາເຫັນ.

ຄູ່ມືເລີ່ມຕົ້ນຂອງ Scikit-learn

ແມ່ນຫຍັງ Scikit- ຮຽນຮູ້?