14 ຊຸດຂໍ້ມູນທີ່ດີທີ່ສຸດສໍາລັບການຮຽນຮູ້ເຄື່ອງຈັກ

ສາລະບານ[ເຊື່ອງ][ສະແດງ]

ພື້ນຖານຂອງຊຸດຂໍ້ມູນ
ຊຸດຂໍ້ມູນສຳລັບ ML+-
ເວທີສໍາລັບການຊອກຫາຊຸດຂໍ້ມູນອື່ນໆ+-
ສະຫຼຸບ

ທຸກໆໂຄງການການຮຽນຮູ້ເຄື່ອງຈັກແມ່ນອີງໃສ່ຊຸດຂໍ້ມູນທີ່ດີ. ມັນແມ່ນຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່ນີ້ທີ່ຈະຊ່ວຍໃຫ້ທ່ານສາມາດຝຶກອົບຮົມແລະກວດສອບຮູບແບບ ML ຂອງທ່ານ. ດັ່ງນັ້ນ, ວຽກງານສ່ວນໃຫຍ່ໃນໂຄງການ ML ແມ່ນການຊອກຫາຊຸດຂໍ້ມູນທີ່ສົມບູນແບບສໍາລັບຄວາມຕ້ອງການຂອງທ່ານ. ຢ່າງໃດກໍ່ຕາມ, ມັນບໍ່ແມ່ນຄວາມເປັນໄປໄດ້ທີ່ຈະຊອກຫາທາງເລືອກທີ່ເຫມາະສົມກັບຄວາມທະເຍີທະຍານຂອງທ່ານ, ຍ້ອນວ່າໄຟລ໌ຈໍານວນຫຼາຍທີ່ເບິ່ງຫນ້າສົນໃຈ, ໃນທີ່ສຸດ, ບໍ່ແມ່ນ.

ມັນສາມາດເປັນຕາຢ້ານທີ່ຈະເສຍເວລາໃນການດາວໂຫຼດຊຸດຂໍ້ມູນນັບບໍ່ຖ້ວນຈົນກວ່າເຈົ້າຈະມາຮອດຊຸດທີ່ເໝາະສົມ. ດ້ວຍໃຈນັ້ນ, ພວກເຮົາໄດ້ລວບລວມບາງທາງເລືອກທີ່ເບິ່ງຄືວ່າຫນ້າສົນໃຈແລະສາມາດຊ່ວຍທ່ານພັດທະນາໂຄງການ ML ຂອງທ່ານໄດ້. ໃຫ້ສັງເກດວ່າບາງອັນມີຈຸດປະສົງສ່ວນບຸກຄົນແທນທີ່ຈະເປັນການນໍາໃຊ້ທາງການຄ້າ, ດັ່ງນັ້ນເບິ່ງທາງເລືອກເຫຼົ່ານີ້ເປັນວິທີທີ່ຈະໄດ້ຮັບປະສົບການໃນຈັກກະວານ ML.

ພື້ນຖານຂອງຊຸດຂໍ້ມູນ

ກ່ອນທີ່ພວກເຮົາຈະກ່າວເຖິງຊຸດຂໍ້ມູນ, ພວກເຮົາຄວນກໍານົດບາງຂໍ້ກໍານົດ. ໃນໂຄງການປັນຍາທຽມ, ໂດຍສະເພາະ ການຮຽນຮູ້ເຄື່ອງ, ຈໍານວນຫຼາຍຂອງຂໍ້ມູນແມ່ນຕ້ອງການ, ທີ່ຈະນໍາໃຊ້ເພື່ອຝຶກອົບຮົມວິທີການ. ຈໍານວນຂໍ້ມູນນີ້ຖືກລວບລວມຢູ່ໃນຖານຂໍ້ມູນ, ເຊິ່ງເປັນປະໂຫຍດທີ່ສຸດທີ່ຈະສອນ algorithm.

ດ້ວຍຂໍ້ມູນນີ້, ສູດການຄິດໄລ່ໄດ້ຮັບການຝຶກອົບຮົມ – ຍັງໄດ້ທົດສອບ – ແລະກາຍເປັນສາມາດຊອກຫາຮູບແບບ, ການສ້າງຕັ້ງການພົວພັນດັ່ງນັ້ນການຕັດສິນໃຈເປັນເອກະລາດ. ໂດຍບໍ່ມີການຝຶກອົບຮົມ, ການຮຽນຮູ້ເຄື່ອງ algorithms ບໍ່ສາມາດປະຕິບັດການໃດໆ. ດັ່ງນັ້ນ, ຂໍ້ມູນການຝຶກອົບຮົມທີ່ດີກວ່າ, ຮູບແບບຈະປະຕິບັດໄດ້ດີກວ່າ. ສໍາລັບຖານຂໍ້ມູນທີ່ຈະເປັນປະໂຫຍດກັບໂຄງການ, ມັນບໍ່ແມ່ນກ່ຽວກັບປະລິມານ: ມັນຍັງກ່ຽວກັບການຈັດປະເພດ.

ໂດຍຫລັກການແລ້ວ, ຂໍ້ມູນຄວນໄດ້ຮັບການຕິດສະຫຼາກດີ. ຄິດກ່ຽວກັບກໍລະນີຂອງ chatbots: ການໃສ່ພາສາແມ່ນມີຄວາມສໍາຄັນ, ແຕ່ການວິເຄາະ syntactic ລະມັດລະວັງຕ້ອງເຮັດເພື່ອໃຫ້ algorithm ທີ່ສ້າງຂຶ້ນສາມາດເຂົ້າໃຈໃນເວລາທີ່ interlocutor ກໍາລັງໃຊ້ slang. ພຽງແຕ່ຫຼັງຈາກນັ້ນຜູ້ຊ່ວຍ virtual ຈະສາມາດເປີດຕົວຄໍາຕອບຕາມສິ່ງທີ່ຮ້ອງຂໍໂດຍຜູ້ໃຊ້.

ຊຸດຂໍ້ມູນສາມາດຖືກສ້າງຂື້ນຈາກການສໍາຫຼວດ, ຂໍ້ມູນການຊື້ຂອງຜູ້ໃຊ້, ການປະເມີນຜົນທີ່ເຫຼືອຢູ່ໃນການບໍລິການ, ແລະໃນຫຼາຍວິທີທີ່ອະນຸຍາດໃຫ້ລວບລວມຂໍ້ມູນທີ່ເປັນປະໂຫຍດທີ່ຖືກຈັດຢູ່ໃນຖັນແລະແຖວໃນໄຟລ໌ CSV.

ກ່ອນທີ່ທ່ານຈະກໍານົດໃນການຄົ້ນຫາຊຸດຂໍ້ມູນທີ່ສົມບູນແບບ, ມັນເປັນສິ່ງສໍາຄັນທີ່ຈະຮູ້ວ່າຈຸດປະສົງຂອງໂຄງການຂອງທ່ານ, ໂດຍສະເພາະຖ້າຫາກວ່າມັນມາຈາກພື້ນທີ່ສະເພາະໃດຫນຶ່ງ, ເຊັ່ນ: ສະພາບອາກາດ, ການເງິນ, ສຸຂະພາບ, ແລະອື່ນໆ. ຊຸດຂໍ້ມູນ.

ຊຸດຂໍ້ມູນສຳລັບ ML

ການຝຶກອົບຮົມ Chatbot

chatbot ທີ່ມີປະສິດທິພາບຮຽກຮ້ອງໃຫ້ມີຂໍ້ມູນການຝຶກອົບຮົມຈໍານວນຫຼວງຫຼາຍເພື່ອແກ້ໄຂການສອບຖາມຂອງຜູ້ໃຊ້ຢ່າງໄວວາໂດຍບໍ່ມີການແຊກແຊງຂອງມະນຸດ. ແນວໃດກໍ່ຕາມ, ອຸປະສັກຕົ້ນຕໍໃນການພັດທະນາ chatbot ແມ່ນການໄດ້ຮັບຂໍ້ມູນຕົວຈິງ, ການສົນທະນາທີ່ເນັ້ນໃສ່ວຽກເພື່ອຝຶກອົບຮົມລະບົບການຮຽນຮູ້ເຄື່ອງຈັກເຫຼົ່ານີ້.

ຊຸດຂໍ້ມູນການສົນທະນາລວບລວມຂໍ້ມູນໃນຮູບແບບຄໍາຖາມແລະຄໍາຕອບ. ມັນແມ່ນເຫມາະສົມສໍາລັບການຝຶກອົບຮົມ chatbots ທີ່ຈະໃຫ້ຄໍາຕອບອັດຕະໂນມັດກັບຜູ້ຊົມ. ຖ້າບໍ່ມີຂໍ້ມູນນີ້, chatbot ຈະລົ້ມເຫລວໃນການແກ້ໄຂການສອບຖາມຂອງຜູ້ໃຊ້ຢ່າງໄວວາຫຼືຕອບຄໍາຖາມຂອງຜູ້ໃຊ້ໂດຍບໍ່ຈໍາເປັນຕ້ອງມີການແຊກແຊງຂອງມະນຸດ.

ການນໍາໃຊ້ຊຸດຂໍ້ມູນເຫຼົ່ານີ້, ທຸລະກິດສາມາດສ້າງເຄື່ອງມືທີ່ໃຫ້ຄໍາຕອບດ່ວນແກ່ລູກຄ້າ 24/7 ແລະມີລາຄາຖືກກວ່າຢ່າງຫຼວງຫຼາຍທີ່ມີທີມງານຊ່ວຍເຫຼືອລູກຄ້າ.

1. ຊຸດຂໍ້ມູນຄໍາຖາມ-ຄໍາຕອບ

ຊຸດຂໍ້ມູນນີ້ສະໜອງຊຸດຂອງບົດຄວາມ Wikipedia, ຄຳຖາມ ແລະຄຳຕອບທີ່ສ້າງຂຶ້ນດ້ວຍຕົນເອງ. ມັນເປັນຊຸດຂໍ້ມູນທີ່ເກັບກໍາລະຫວ່າງ 2008 ແລະ 2010 ສໍາລັບການນໍາໃຊ້ໃນ ການຄົ້ນຄ້ວາທາງວິຊາການ.

2. ຂໍ້ມູນພາສາ

ຂໍ້ມູນພາສາແມ່ນຖານຂໍ້ມູນທີ່ຄຸ້ມຄອງໂດຍ Yahoo ດ້ວຍຂໍ້ມູນທີ່ສ້າງຂຶ້ນຈາກບາງບໍລິການຂອງບໍລິສັດເຊັ່ນ Yahoo! ຄໍາຕອບ, ເຊິ່ງເຮັດວຽກເປັນຊຸມຊົນເປີດສໍາລັບຜູ້ໃຊ້ສາມາດຕອບຄໍາຖາມແລະຄໍາຕອບ.

ຊຸດຂໍ້ມູນ 1

3. WikiQA

The WikiQA corpus ຍັງປະກອບດ້ວຍຊຸດຂອງຄໍາຖາມແລະຄໍາຕອບ. ແຫຼ່ງຂອງຄໍາຖາມແມ່ນ Bing, ໃນຂະນະທີ່ຄໍາຕອບເຊື່ອມຕໍ່ກັບຫນ້າ Wikipedia ທີ່ມີທ່າແຮງທີ່ຈະແກ້ໄຂຄໍາຖາມເບື້ອງຕົ້ນ.

ຊຸດຂໍ້ມູນ 2 ໃນຈໍານວນທັງຫມົດ, ມີຫຼາຍກວ່າ 3,000 ຄໍາຖາມແລະຊຸດຂອງ 29,258 ປະໂຫຍກໃນຊຸດຂໍ້ມູນ, ເຊິ່ງປະມານ 1,400 ໄດ້ຖືກຈັດປະເພດເປັນຄໍາຕອບຂອງຄໍາຖາມທີ່ສອດຄ້ອງກັນ.

ຂໍ້ມູນຂອງລັດຖະບານ

ຊຸດຂໍ້ມູນທີ່ສ້າງຂຶ້ນໂດຍລັດຖະບານນໍາເອົາຂໍ້ມູນປະຊາກອນ, ເຊິ່ງເປັນວັດສະດຸປ້ອນທີ່ດີສໍາລັບໂຄງການທີ່ກ່ຽວຂ້ອງກັບຄວາມເຂົ້າໃຈແນວໂນ້ມຂອງສັງຄົມ, ການສ້າງນະໂຍບາຍສາທາລະນະ, ແລະປັບປຸງສັງຄົມ. ນີ້ສາມາດເປັນປະໂຫຍດສໍາລັບການໂຄສະນາທາງດ້ານການເມືອງ, ການໂຄສະນາເປົ້າຫມາຍ, ຫຼືການວິເຄາະຕະຫຼາດ.

ຊຸດຂໍ້ມູນເຫຼົ່ານີ້ປົກກະຕິແລ້ວມີຂໍ້ມູນທີ່ບໍ່ເປີດເຜີຍຊື່, ດັ່ງນັ້ນໃນຂະນະທີ່ຕົວແບບສາມາດເຂົ້າເຖິງຂໍ້ມູນດິບ, ບໍ່ມີການລະເມີດຄວາມເປັນສ່ວນຕົວ.

4. Data.gov

ເປີດຕົວໃນປີ 2009, Data.gov ແມ່ນແຫຼ່ງຂໍ້ມູນຂອງອາເມລິກາເໜືອ. ລາຍການຂອງມັນແມ່ນປະທັບໃຈ: ຫຼາຍກວ່າ 218,000 ຊຸດຂໍ້ມູນທີ່ອະນຸຍາດໃຫ້ແບ່ງສ່ວນໂດຍຮູບແບບ, ແທັກ, ປະເພດແລະຫົວຂໍ້.

5. EU ເປີດປະຕູຂໍ້ມູນ

EU Open Data Portal ໃຫ້ການເຂົ້າເຖິງຂໍ້ມູນເປີດທີ່ແບ່ງປັນໂດຍສະຖາບັນຂອງສະຫະພາບເອີຣົບ. ເຫຼົ່ານີ້ແມ່ນຂໍ້ມູນທີ່ສາມາດມີຈຸດປະສົງເພື່ອການຄ້າແລະບໍ່ແມ່ນການຄ້າ. ໃນການກໍາຈັດຂອງຜູ້ໃຊ້ແມ່ນຫຼາຍກ່ວາ 15.5 ພັນຊຸດຂໍ້ມູນ, ກວມເອົາຫົວຂໍ້ເຊັ່ນ: ສຸຂະພາບ, ພະລັງງານ, ສິ່ງແວດລ້ອມ, ວັດທະນະທໍາ, ແລະການສຶກສາ.

ຂໍ້ມູນສຸຂະພາບ

ພາຍຫຼັງວິກິດການດ້ານສຸຂະພາບທີ່ພວມດຳເນີນຢູ່ທົ່ວໂລກ, ຊຸດຂໍ້ມູນທີ່ສ້າງຂຶ້ນໂດຍອົງການສາທາລະນະສຸກແມ່ນມີຄວາມຈຳເປັນໃນການພັດທະນາວິທີແກ້ໄຂທີ່ມີປະສິດທິຜົນເພື່ອຊ່ວຍຊີວິດຄົນ. ຊຸດຂໍ້ມູນເຫຼົ່ານີ້ສາມາດຊ່ວຍລະບຸປັດໃຈຄວາມສ່ຽງ, ແກ້ໄຂຮູບແບບການສົ່ງຕໍ່ພະຍາດ, ແລະເລັ່ງການວິນິດໄສ.

ຊຸດຂໍ້ມູນເຫຼົ່ານີ້ປະກອບດ້ວຍບັນທຶກສຸຂະພາບ, ປະຊາກອນຂອງຄົນເຈັບ, ອັດຕາການແຜ່ລະບາດຂອງພະຍາດ, ການນໍາໃຊ້ຢາ, ຄຸນຄ່າທາງໂພຊະນາການ, ແລະອື່ນໆອີກ.

6. ອົງການສັງເກດການສຸຂະພາບທົ່ວໂລກ

ຊຸດຂໍ້ມູນນີ້ແມ່ນຂໍ້ລິເລີ່ມຂອງອົງການອະນາໄມໂລກ (WHO). ມັນສະໜອງຂໍ້ມູນສາທາລະນະທີ່ກ່ຽວຂ້ອງກັບຂົງເຂດສຸຂະພາບຕ່າງໆ, ເຊິ່ງຈັດໂດຍຫົວຂໍ້ຕ່າງໆ ເຊັ່ນ: ລະບົບສຸຂະພາບ, ການຄວບຄຸມການໃຊ້ຢາສູບ, ການເປັນແມ່, HIV/AIDS, ແລະອື່ນໆ. ນອກນັ້ນຍັງມີທາງເລືອກໃນການປຶກສາຫາລືກ່ຽວກັບຂໍ້ມູນ COVID-19.

7. CORD-19

CORD-19 ແມ່ນຄັງຂອງສິ່ງພິມທາງວິຊາການກ່ຽວກັບ COVID-19 ແລະບົດຄວາມອື່ນໆກ່ຽວກັບໂຣກ coronavirus ໃໝ່. ມັນເປັນຊຸດຂໍ້ມູນເປີດທີ່ມີຈຸດປະສົງເພື່ອສ້າງຄວາມເຂົ້າໃຈໃໝ່ກ່ຽວກັບ COVID-19.

ຊຸດຂໍ້ມູນ 7

ຂໍ້ມູນເສດຖະກິດ

ຊຸດຂໍ້ມູນທີ່ກ່ຽວຂ້ອງກັບສະພາບແວດລ້ອມທາງດ້ານການເງິນມັກຈະລວບລວມຂໍ້ມູນຈໍານວນຫຼວງຫຼາຍ, ເພາະວ່າມັນເປັນເລື່ອງທໍາມະດາທີ່ພວກມັນຖືກລວບລວມເປັນເວລາດົນນານ. ພວກເຂົາເຈົ້າແມ່ນເຫມາະສົມສໍາລັບການສ້າງການຄາດຄະເນເສດຖະກິດຫຼືການສ້າງຕັ້ງແນວໂນ້ມການລົງທຶນ.

ດ້ວຍຊຸດຂໍ້ມູນການເງິນທີ່ຖືກຕ້ອງ, ກ ຮູບແບບການຮຽນຮູ້ເຄື່ອງຈັກ ອາດຈະສາມາດຄາດຄະເນພຶດຕິກໍາຂອງຊັບສິນໃດຫນຶ່ງ. ນັ້ນແມ່ນເຫດຜົນທີ່ວ່າຂະແຫນງການເງິນກໍາລັງເຮັດທຸກຢ່າງໃນອໍານາດຂອງຕົນເພື່ອສ້າງຕົວແບບ ML ທີ່ມີປະສິດທິພາບ, ຍ້ອນວ່າສິ່ງທີ່ສາມາດຄາດເດົາໄດ້ຢ່າງສົມເຫດສົມຜົນກໍ່ມີທ່າແຮງທີ່ຈະສ້າງລາຍໄດ້ຫຼາຍລ້ານໂດລາ. ການຮຽນຮູ້ຂອງເຄື່ອງຈັກແມ່ນໄດ້ຄາດຄະເນພຶດຕິກໍາຂອງພົນລະເມືອງແລ້ວ, ເຊິ່ງສົ່ງຜົນກະທົບຕໍ່ວິທີທີ່ຜູ້ສ້າງນະໂຍບາຍກໍາລັງເຮັດວຽກຂອງເຂົາເຈົ້າ.

8. ກອງທຶນການເງິນສາກົນ

ຊຸດຂໍ້ມູນ IMF ມີຕົວຊີ້ວັດດ້ານເສດຖະກິດ ແລະ ການເງິນ, ສະຖິຕິປະເທດສະມາຊິກ, ແລະຂໍ້ມູນເງິນກູ້ ແລະອັດຕາແລກປ່ຽນອື່ນໆ.

9. ທະນາຄານໂລກ

ຄັງເກັບມ້ຽນຂອງທະນາຄານໂລກມີຊຸດຂໍ້ມູນທີ່ແຕກຕ່າງກັນກັບຂໍ້ມູນເສດຖະກິດຈາກປະເທດຕ່າງໆ. ມີຫຼາຍກວ່າ 17,000 ຊຸດຂໍ້ມູນແບ່ງອອກຕາມທະວີບ.

88 ຊຸດຂໍ້ມູນ7

ການທົບທວນຄືນຜະລິດຕະພັນແລະການບໍລິການ

ການວິເຄາະຄວາມຮູ້ສຶກໄດ້ພົບເຫັນຄໍາຮ້ອງສະຫມັກຂອງຕົນໃນຂົງເຂດຕ່າງໆທີ່ປະຈຸບັນຊ່ວຍໃຫ້ວິສາຫະກິດປະເມີນແລະຮຽນຮູ້ຈາກລູກຄ້າຫຼືລູກຄ້າຂອງພວກເຂົາຢ່າງຖືກຕ້ອງ. ການວິເຄາະຄວາມຮູ້ສຶກແມ່ນຖືກນໍາໃຊ້ຫຼາຍຂຶ້ນສໍາລັບການຕິດຕາມສື່ມວນຊົນສັງຄົມ, ການຕິດຕາມຍີ່ຫໍ້, ສຽງຂອງລູກຄ້າ (VoC), ການບໍລິການລູກຄ້າແລະການຄົ້ນຄວ້າຕະຫຼາດ.

ການວິເຄາະຄວາມຮູ້ສຶກໃຊ້ NLP (neuro-linguistic programming) ວິທີການ ແລະ algorithms ທີ່ອີງໃສ່ກົດລະບຽບ, ປະສົມ, ຫຼືອີງໃສ່ເຕັກນິກການຮຽນຮູ້ເຄື່ອງຈັກເພື່ອຮຽນຮູ້ຂໍ້ມູນຈາກຊຸດຂໍ້ມູນ.

ຂໍ້ມູນທີ່ຈໍາເປັນໃນການວິເຄາະຄວາມຮູ້ສຶກຄວນມີຄວາມຊ່ຽວຊານແລະຕ້ອງການໃນປະລິມານຫຼາຍ. ພາກສ່ວນທີ່ທ້າທາຍທີ່ສຸດກ່ຽວກັບຂະບວນການຝຶກອົບຮົມການວິເຄາະຄວາມຮູ້ສຶກບໍ່ແມ່ນການຊອກຫາຂໍ້ມູນໃນຂະຫນາດໃຫຍ່; ແທນທີ່ຈະ, ມັນແມ່ນການຊອກຫາຊຸດຂໍ້ມູນທີ່ກ່ຽວຂ້ອງ. ຊຸດຂໍ້ມູນເຫຼົ່ານີ້ຕ້ອງກວມເອົາພື້ນທີ່ກ້ວາງຂອງຄໍາຮ້ອງສະຫມັກການວິເຄາະຄວາມຮູ້ສຶກແລະກໍລະນີການນໍາໃຊ້.

10. ການທົບທວນ Amazon

ຊຸດຂໍ້ມູນນີ້ປະກອບດ້ວຍປະມານ 35 ລ້ານການທົບທວນຄືນ Amazon, ກວມເອົາໄລຍະເວລາ 18 ປີຂອງຂໍ້ມູນທີ່ເກັບກໍາ. ມັນເປັນຊຸດຂໍ້ມູນຂອງຜະລິດຕະພັນ, ຜູ້ໃຊ້, ແລະການທົບທວນຄືນເນື້ອໃນ.

11. ການທົບທວນຄືນ Yelp

Yelp ຍັງສະເຫນີຊຸດຂໍ້ມູນໂດຍອີງໃສ່ຂໍ້ມູນທີ່ເກັບກໍາຈາກການບໍລິການຂອງມັນ. ມີຫຼາຍກວ່າ 8 ລ້ານການທົບທວນຄືນ, 1 ລ້ານຄໍາແນະນໍາ, ບວກກັບເກືອບ 1.5 ລ້ານຄຸນລັກສະນະທີ່ກ່ຽວຂ້ອງກັບທຸລະກິດ, ເຊັ່ນ: ເວລາເປີດແລະເວລາຫວ່າງ.

12. IMDB ການທົບທວນຄືນ

ຖານຂໍ້ມູນນີ້ປະກອບດ້ວຍຊຸດຂອງຫຼາຍກ່ວາ 25 ພັນການທົບທວນຮູບເງົາສໍາລັບການຝຶກອົບຮົມແລະອີກ 25 ພັນສໍາລັບການທົດສອບທີ່ເອົາຈາກຫນ້າ IMDB, ຊ່ຽວຊານໃນການຈັດອັນດັບຮູບເງົາ. ມັນຍັງໃຫ້ຂໍ້ມູນທີ່ບໍ່ມີປ້າຍກຳກັບເປັນສ່ວນເພີ່ມເຕີມ.

ຊຸດຂໍ້ມູນສໍາລັບຂັ້ນຕອນທໍາອິດໃນ ML

13. ຊຸດຂໍ້ມູນຄຸນນະພາບເຫຼົ້າແວງ

ຊຸດຂໍ້ມູນນີ້ໃຫ້ຂໍ້ມູນທີ່ກ່ຽວຂ້ອງກັບເຫຼົ້າແວງ, ທັງສີແດງ ແລະສີຂຽວ, ທີ່ຜະລິດຢູ່ໃນພາກເໜືອຂອງປອກຕຸຍການ. ເປົ້າຫມາຍແມ່ນເພື່ອກໍານົດຄຸນນະພາບຂອງເຫຼົ້າແວງໂດຍອີງໃສ່ການທົດສອບທາງກາຍະພາບ. ຫນ້າສົນໃຈສໍາລັບຜູ້ທີ່ຕ້ອງການທີ່ຈະປະຕິບັດການສ້າງລະບົບການຄາດຄະເນ.

14. ຊຸດຂໍ້ມູນ Titanic

ຊຸດຂໍ້ມູນນີ້ນໍາເອົາຂໍ້ມູນຂອງຜູ້ໂດຍສານຕົວຈິງ 887 ຄົນຈາກກໍາປັ່ນ Titanic ໂດຍແຕ່ລະຖັນກໍານົດວ່າພວກເຂົາລອດຊີວິດ, ອາຍຸຂອງເຂົາເຈົ້າ, ຊັ້ນຜູ້ໂດຍສານ, ເພດ, ແລະຄ່າທໍານຽມການຂຶ້ນເຮືອບິນທີ່ເຂົາເຈົ້າຈ່າຍຫຼືບໍ່. ຊຸດຂໍ້ມູນນີ້ແມ່ນສ່ວນຫນຶ່ງຂອງສິ່ງທ້າທາຍທີ່ເປີດຕົວໂດຍແພລະຕະຟອມ Kaggle, ເຊິ່ງມີຈຸດປະສົງເພື່ອສ້າງຕົວແບບທີ່ສາມາດຄາດເດົາໄດ້ວ່າຜູ້ໂດຍສານຄົນໃດລອດຊີວິດຈາກການຈົມລົງຂອງ Titanic.

ເວທີສໍາລັບການຊອກຫາຊຸດຂໍ້ມູນອື່ນໆ

ຖ້າທ່ານຕ້ອງການໄປຕື່ມອີກແລະຊອກຫາຊຸດຂໍ້ມູນຂອງທ່ານເອງ, ວິທີທີ່ດີທີ່ສຸດແມ່ນການທ່ອງໄປຫາບ່ອນເກັບມ້ຽນທີ່ມີຊື່ສຽງທີ່ສຸດຂອງ. ການຮຽນຮູ້ເຄື່ອງ ຈັກກະວານ:

Kaggle

Kaggle, ບໍລິສັດຍ່ອຍຂອງ Google LLC, ເປັນຊຸມຊົນອອນໄລນ໌ຂອງນັກວິທະຍາສາດຂໍ້ມູນ ແລະຜູ້ຊ່ຽວຊານດ້ານການຮຽນຮູ້ເຄື່ອງຈັກ. Kaggle ອະນຸຍາດໃຫ້ຜູ້ໃຊ້ສາມາດຊອກຫາແລະເຜີຍແຜ່ຊຸດຂໍ້ມູນ, ຄົ້ນຫາແລະສ້າງແບບຈໍາລອງໃນສະພາບແວດລ້ອມວິທະຍາສາດຂໍ້ມູນເວັບ; ເຮັດວຽກຮ່ວມກັບນັກວິທະຍາສາດຂໍ້ມູນອື່ນໆແລະ ວິສະວະກອນການຮຽນຮູ້ເຄື່ອງຈັກ, ແລະເຂົ້າຮ່ວມໃນການແຂ່ງຂັນເພື່ອແກ້ໄຂສິ່ງທ້າທາຍວິທະຍາສາດຂໍ້ມູນ.

Kaggle ໄດ້ເລີ່ມຕົ້ນໃນປີ 2010 ໂດຍການສະເຫນີການແຂ່ງຂັນການຮຽນຮູ້ເຄື່ອງຈັກແລະໃນປັດຈຸບັນຍັງສະເຫນີສາທາລະນະ ເວທີຂໍ້ມູນ, ເປັນບ່ອນເຮັດວຽກທີ່ອີງໃສ່ຄລາວສຳລັບວິທະຍາສາດຂໍ້ມູນ ແລະການສຶກສາປັນຍາປະດິດ.

ຄົ້ນຫາຊຸດຂໍ້ມູນ

Dataset Search ແມ່ນເຄື່ອງຈັກຊອກຫາຈາກ Google ທີ່ຊ່ວຍໃຫ້ນັກຄົ້ນຄວ້າຊອກຫາຂໍ້ມູນອອນໄລນ໌ທີ່ສາມາດໃຊ້ໄດ້ໂດຍບໍ່ເສຍຄ່າ. ໃນທົ່ວເວັບ, ມີຊຸດຂໍ້ມູນຫຼາຍລ້ານຊຸດກ່ຽວກັບເກືອບທຸກວິຊາທີ່ທ່ານສົນໃຈ.

ຖ້າເຈົ້າກໍາລັງຊອກຫາຊື້ລູກໝາ, ເຈົ້າສາມາດຊອກຫາຊຸດຂໍ້ມູນທີ່ລວບລວມຄໍາຮ້ອງທຸກຂອງຜູ້ຊື້ລູກໝາ ຫຼືການສຶກສາກ່ຽວກັບຄວາມຮູ້ຂອງລູກໝາ. ຫຼືຖ້າທ່ານມັກສະກີ, ທ່ານສາມາດຊອກຫາຂໍ້ມູນກ່ຽວກັບລາຍຮັບຂອງສະຖານທີ່ສະກີ ຫຼືອັດຕາການບາດເຈັບ ແລະຕົວເລກການເຂົ້າຮ່ວມ. Dataset Search ໄດ້ດັດສະນີເກືອບ 25 ລ້ານຊຸດຂໍ້ມູນເຫຼົ່ານີ້, ໃຫ້ທ່ານມີບ່ອນດຽວເພື່ອຄົ້ນຫາຊຸດຂໍ້ມູນແລະຊອກຫາການເຊື່ອມຕໍ່ກັບບ່ອນທີ່ຂໍ້ມູນຢູ່.

UCI Machine Learning Repository

UCI Machine Learning Repository ແມ່ນການລວບລວມຖານຂໍ້ມູນ, ທິດສະດີໂດເມນ, ແລະເຄື່ອງສ້າງຂໍ້ມູນທີ່ຖືກນໍາໃຊ້ໂດຍຊຸມຊົນການຮຽນຮູ້ເຄື່ອງຈັກສໍາລັບການວິເຄາະທາງທິດສະດີຂອງເຄື່ອງຈັກການຮຽນຮູ້ເຄື່ອງຈັກ. ຮວບຮວມໄດ້ຖືກສ້າງຂື້ນເປັນບ່ອນເກັບມ້ຽນ ftp ໃນປີ 1987 ໂດຍ David Aha ແລະນັກສຶກສາຈົບການສຶກສາທີ່ UC Irvine.

ນັບຕັ້ງແຕ່ເວລານັ້ນ, ມັນໄດ້ຖືກນໍາໃຊ້ຢ່າງກວ້າງຂວາງໂດຍນັກຮຽນ, ການສຶກສາ, ແລະນັກຄົ້ນຄວ້າໃນທົ່ວໂລກເປັນແຫຼ່ງຕົ້ນຕໍຂອງຊຸດຂໍ້ມູນ ML. ເປັນຕົວຊີ້ບອກເຖິງຜົນກະທົບຂອງການຮວບຮວມ, ມັນໄດ້ຖືກອ້າງເຖິງຫຼາຍກວ່າ 1000 ເທື່ອ, ເຮັດໃຫ້ມັນເປັນຫນຶ່ງໃນ 100 "ເອກະສານ" ທີ່ຖືກອ້າງອີງຫຼາຍທີ່ສຸດໃນວິທະຍາສາດຄອມພິວເຕີທັງຫມົດ.

Quandl

Quandl ເປັນແພລະຕະຟອມທີ່ສະຫນອງຊຸດຂໍ້ມູນທາງດ້ານເສດຖະກິດ, ທາງດ້ານການເງິນແລະທາງເລືອກໃຫ້ກັບຜູ້ໃຊ້. ຜູ້ໃຊ້ສາມາດດາວໂຫລດຂໍ້ມູນຟຣີ, ຊື້ຂໍ້ມູນທີ່ຈ່າຍຫຼືຂາຍຂໍ້ມູນໃຫ້ກັບ Quandl. ມັນສາມາດເປັນເຄື່ອງມືທີ່ເປັນປະໂຫຍດສໍາລັບການພັດທະນາຂອງ ສູດການຄິດໄລ່ການຄ້າຍົກຕົວຢ່າງ.

ສະຫຼຸບ

ໂດຍການຂຸດຄົ້ນເຄື່ອງມືເຫຼົ່ານີ້, ທ່ານແນ່ໃຈວ່າຈະຊອກຫາວັດສະດຸປ້ອນທີ່ດີສໍາລັບໂຄງການຂອງທ່ານ. ໃຫ້ແນ່ໃຈວ່າເລືອກຊຸດຂໍ້ມູນທີ່ເຫມາະສົມທີ່ສຸດສໍາລັບຄວາມຕ້ອງການສະເພາະຂອງທ່ານແລະຈື່ໄວ້ສະເຫມີ: ມັນບໍ່ແມ່ນພຽງແຕ່ກ່ຽວກັບປະລິມານ, ແຕ່ຍັງຄຸນນະພາບ. ຊຸດຂໍ້ມູນແມ່ນພື້ນຖານຂອງໃດໆ ໂຄງການການຮຽນຮູ້ເຄື່ອງຈັກ ແລະມັນເປັນສິ່ງຈໍາເປັນທີ່ຈະສ້າງຂໍ້ມູນທີ່ມີຄຸນນະພາບເພື່ອຫຼີກເວັ້ນຄວາມສ່ຽງທີ່ຈະບັນລຸຂໍ້ສະຫຼຸບທີ່ຜິດພາດ.

Datasests ທີ່ດີທີ່ສຸດສໍາລັບການຮຽນຮູ້ເຄື່ອງຈັກ

14 ຊຸດຂໍ້ມູນທີ່ດີທີ່ສຸດສໍາລັບການຮຽນຮູ້ເຄື່ອງຈັກ

ພື້ນຖານຂອງຊຸດຂໍ້ມູນ