ສາລະບານ[ເຊື່ອງ][ສະແດງ]
- 1. ຊຸດຂໍ້ມູນຄຸນສົມບັດ CelebFaces
- 2. DOTA
- 3. ຊຸດຂໍ້ມູນການປຽບທຽບການສະແດງອອກທາງໜ້າຂອງ Google
- 4. Visual Genome
- 5. LibriSpeech
- 6. ພື້ນທີ່ເມືອງ
- 7. ຊຸດຂໍ້ມູນ Kinetics
- 8. CelebAMask-HQ
- 9. Penn Treebank
- 10. VoxCeleb
- 11. SIXray
- 12. ອຸປະຕິເຫດສະຫະລັດ
- 13. ການຮັບຮູ້ພະຍາດຕາ
- 14. ໂລກຫົວໃຈ
- 15. CLEVR
- 16. ການຂື້ນກັບສາກົນ
- 17. ກິຕິ - 360
- 18. MOT(ການຕິດຕາມວັດຖຸຫຼາຍອັນ)
- 19. PASCAL 3D+
- 20. ຕົວແບບທີ່ຜິດປົກກະຕິຂອງສັດ
- 21. MPII Human Post Dataset
- 22. UCF101
- 23. ເຄື່ອງສຽງ
- 24. Stanford Natural Language Inference
- 25. ການຕອບຄໍາຖາມແບບສາຍຕາ
- ສະຫຼຸບ
ໃນປັດຈຸບັນ, ພວກເຮົາສ່ວນໃຫຍ່ໄດ້ສຸມໃສ່ການພັດທະນາການຮຽນຮູ້ເຄື່ອງຈັກແລະຮູບແບບ AI ແລະແກ້ໄຂບັນຫາການນໍາໃຊ້ຊຸດຂໍ້ມູນໃນປະຈຸບັນ. ແຕ່ທໍາອິດ, ພວກເຮົາຕ້ອງກໍານົດຊຸດຂໍ້ມູນ, ຄວາມສໍາຄັນຂອງມັນ, ແລະບົດບາດຂອງມັນໃນການພັດທະນາການແກ້ໄຂ AI ແລະ ML ທີ່ເຂັ້ມແຂງ.
ມື້ນີ້, ພວກເຮົາມີຊຸດຂໍ້ມູນ open-source ຫຼາຍຢ່າງເພື່ອເຮັດການຄົ້ນຄວ້າ ຫຼື ພັດທະນາແອັບພລິເຄຊັນ ເພື່ອແກ້ໄຂບັນຫາຕົວຈິງໃນຫຼາຍຂະແໜງການ.
ຢ່າງໃດກໍ່ຕາມ, ການຂາດແຄນຊຸດຂໍ້ມູນປະລິມານທີ່ມີຄຸນນະພາບສູງແມ່ນເປັນແຫຼ່ງຄວາມກັງວົນ. ຂໍ້ມູນໄດ້ເພີ່ມຂຶ້ນຢ່າງຫຼວງຫຼາຍແລະຈະສືບຕໍ່ຂະຫຍາຍໃນອັດຕາໄວຂຶ້ນໃນອະນາຄົດ.
ໃນບົດຂຽນນີ້, ພວກເຮົາຈະກວມເອົາຊຸດຂໍ້ມູນທີ່ສາມາດໃຊ້ໄດ້ໂດຍບໍ່ເສຍຄ່າທີ່ທ່ານສາມາດນໍາໃຊ້ເພື່ອພັດທະນາໂຄງການ AI ຕໍ່ໄປຂອງທ່ານ.
1. ຊຸດຂໍ້ມູນຄຸນສົມບັດ CelebFaces
ຊຸດຂໍ້ມູນຄຸນລັກສະນະຂອງ CelebFaces (CelebA) ມີຮູບພາບທີ່ມີຊື່ສຽງຫຼາຍກວ່າ 200K ແລະ 40 ຄໍາອະທິບາຍກ່ຽວກັບຄຸນລັກສະນະຂອງແຕ່ລະຮູບ, ເຮັດໃຫ້ມັນເປັນຈຸດເລີ່ມຕົ້ນທີ່ດີເລີດສໍາລັບໂຄງການເຊັ່ນ: ການຮັບຮູ້ໃບຫນ້າ, ການກວດຫາໃບໜ້າ, ຈຸດໝາຍປາຍທາງ (ຫຼືອົງປະກອບຂອງໃບໜ້າ) ທ້ອງຖິ່ນ, ແລະການແກ້ໄຂ ແລະສັງເຄາະໃບໜ້າ. ນອກຈາກນັ້ນ, ຮູບພາບໃນຄໍເລັກຊັນນີ້ປະກອບດ້ວຍຫຼາກຫຼາຍຮູບແບບຂອງຕໍາແໜ່ງ ແລະສິ່ງຫຍໍ້ທໍ້ຂອງສາກຫຼັງ.
2. ບໍລິສັດ DOTA
DOTA (ຊຸດຂໍ້ມູນຂອງ ການກວດສອບວັດຖຸ ໃນຮູບພາບທາງອາກາດ) ເປັນຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່ສໍາລັບການຊອກຄົ້ນຫາວັດຖຸທີ່ປະກອບມີ 15 ປະເພດທົ່ວໄປ (ເຊັ່ນ: ເຮືອ, ຍົນ, ລົດ, ແລະອື່ນໆ), 1411 ຮູບພາບສໍາລັບການຝຶກອົບຮົມ, ແລະ 458 ຮູບພາບສໍາລັບການກວດສອບ.
3. ຊຸດຂໍ້ມູນການປຽບທຽບການສະແດງອອກທາງໜ້າຂອງ Google
ຊຸດຂໍ້ມູນການປຽບທຽບການສະແດງອອກທາງໜ້າຂອງ Google ມີປະມານ 500,000 ຮູບສາມຮູບ, ລວມທັງ 156,000 ຮູບໃບໜ້າ. ມັນເປັນມູນຄ່າທີ່ສັງເກດວ່າແຕ່ລະ triplet ໃນຊຸດຂໍ້ມູນນີ້ໄດ້ຖືກອະທິບາຍໂດຍຢ່າງຫນ້ອຍຫົກຜູ້ປະເມີນມະນຸດ.
ຊຸດຂໍ້ມູນນີ້ແມ່ນເປັນປະໂຫຍດສໍາລັບໂຄງການທີ່ກ່ຽວຂ້ອງກັບການວິເຄາະການສະແດງອອກຂອງໃບຫນ້າ, ເຊັ່ນ: ການດຶງຮູບພາບໂດຍອີງໃສ່ການສະແດງອອກ, ການຈັດປະເພດຄວາມຮູ້ສຶກ, ການສັງເຄາະການສະແດງອອກ, ແລະອື່ນໆ. ເພື່ອເຂົ້າເຖິງຊຸດຂໍ້ມູນ, ແບບຟອມສັ້ນໆຈະຕ້ອງສໍາເລັດ.
4. Visual Genome
Visual Question ຕອບຂໍ້ມູນໃນສະພາບແວດລ້ອມຫຼາຍທາງເລືອກແມ່ນມີຢູ່ໃນ Visual Genome. ມັນປະກອບດ້ວຍ 101,174 ຮູບ MSCOCO ກັບ 1.7 ລ້ານຄູ່ QA, ໂດຍສະເລ່ຍ 17 ຄໍາຖາມຕໍ່ຮູບ.
ໃນການປຽບທຽບກັບຊຸດຂໍ້ມູນການຕອບຄໍາຖາມແບບ Visual, ຊຸດຂໍ້ມູນ Visual Genome ມີການແຈກຢາຍທີ່ຍຸຕິທໍາຫຼາຍກວ່າໃນຫົກປະເພດຄໍາຖາມ: ແມ່ນຫຍັງ, ຢູ່ໃສ, ເວລາໃດ, ໃຜ, ເປັນຫຍັງ, ແລະແນວໃດ.
ນອກຈາກນັ້ນ, ຊຸດຂໍ້ມູນ Visual Genome ປະກອບມີຮູບພາບ 108K ທີ່ຖືກ tagged ຫຼາຍດ້ວຍວັດຖຸ, ຄຸນສົມບັດ, ແລະການເຊື່ອມຕໍ່.
5. LibriSpeech
The LibriSpeech corpus ແມ່ນການເກັບກໍາປະມານ 1,000 ຊົ່ວໂມງຂອງ audiobooks ຈາກໂຄງການ LibriVox. ປຶ້ມສຽງສ່ວນຫຼາຍແມ່ນມາຈາກໂຄງການ Gutenberg.
ຂໍ້ມູນການຝຶກອົບຮົມແບ່ງອອກເປັນສາມສ່ວນຂອງຊຸດ 100hr, 360hr, ແລະ 500hr, ໃນຂະນະທີ່ຂໍ້ມູນ dev ແລະການທົດສອບແມ່ນປະມານ 5hr ໃນຄວາມຍາວສຽງ.
6. ພື້ນທີ່ເມືອງ
ຫນຶ່ງໃນຖານຂໍ້ມູນຂະຫນາດໃຫຍ່ທີ່ມີຊື່ສຽງທີ່ສຸດຂອງວິດີໂອສະເຕີລິໂອທີ່ມີທັດສະນະໃນຕົວເມືອງຖືກເອີ້ນວ່າ The Cityscapes.
ດ້ວຍຄຳອະທິບາຍປະກອບທີ່ຖືກຕ້ອງຂອງ pixels ລວງທີ່ປະກອບມີສະຖານທີ່ GPS, ອຸນຫະພູມກາງແຈ້ງ, ຂໍ້ມູນການເຄື່ອນໄຫວຂອງຕົວຕົນ, ແລະທັດສະນະສະເຕີລິໂອທີ່ຖືກຕ້ອງ, ມັນລວມມີການບັນທຶກຈາກ 50 ຕົວເມືອງທີ່ແຕກຕ່າງກັນຂອງເຢຍລະມັນ.
7. ຊຸດຂໍ້ມູນ Kinetics
ຫນຶ່ງໃນຊຸດຂໍ້ມູນວິດີໂອທີ່ມີຊື່ສຽງທີ່ສຸດສໍາລັບການຮັບຮູ້ກິດຈະກໍາຂອງມະນຸດໃນລະດັບຂະຫນາດໃຫຍ່ແລະມີຄຸນນະພາບທີ່ດີແມ່ນຊຸດຂໍ້ມູນ Kinetics. ມີຢ່າງຫນ້ອຍ 600 ວິດີໂອສໍາລັບແຕ່ລະຫ້ອງຮຽນກິດຈະກໍາຂອງມະນຸດ 600, ລວມທັງຫມົດຫຼາຍກວ່າ 500,000.
ຮູບເງົາໄດ້ຖືກດຶງອອກຈາກ YouTube; ແຕ່ລະອັນມີຄວາມຍາວປະມານ 10 ວິນາທີ ແລະມີພຽງລາຍການກິດຈະກຳດຽວເທົ່ານັ້ນ.
8. CelebAMask-HQ
CelebAMask-HQ ເປັນຄໍເລັກຊັນຮູບໃບໜ້າຄວາມລະອຽດສູງ 30,000 ຮູບ ພ້ອມກັບໜ້າກາກທີ່ລະບຸໄວ້ຢ່າງລະມັດລະວັງ ແລະ 19 ຊັ້ນຮຽນທີ່ປະກອບມີອົງປະກອບຂອງໃບໜ້າເຊັ່ນ: ຜິວໜັງ, ດັງ, ຕາ, ໜວດ, ຫູ, ປາກ, ຜົມ, ໝວກ, ແວ່ນຕາ, ຕຸ້ມຫູ, ສາຍຄໍ, ຄໍ, ວັດສະດຸ.
ຊຸດຂໍ້ມູນສາມາດຖືກນໍາໃຊ້ເພື່ອທົດສອບແລະຝຶກອົບຮົມການຮັບຮູ້ໃບຫນ້າ, ການວິເຄາະໃບຫນ້າ, ແລະ GANs ສໍາລັບການສ້າງໃບຫນ້າແລະການແກ້ໄຂສູດການຄິດໄລ່.
9. Penn Treebank
ຫນຶ່ງໃນ corpora ທີ່ໂດດເດັ່ນແລະຖືກນໍາໃຊ້ເລື້ອຍໆສໍາລັບການປະເມີນແບບຈໍາລອງສໍາລັບການຕິດປ້າຍລໍາດັບແມ່ນບໍລິສັດພາສາອັງກິດ Penn Treebank (PTB) corpus, ໂດຍສະເພາະສ່ວນຫນຶ່ງຂອງ corpus ທີ່ສອດຄ້ອງກັນກັບບົດຄວາມ Wall Street Journal.
ແຕ່ລະຄໍາຕ້ອງມີພາກສ່ວນຂອງການປາກເວົ້າຂອງຕົນ tagged ເປັນອົງປະກອບຂອງວຽກງານ. ລະດັບລັກສະນະ ແລະລະດັບຄໍາ ການສ້າງແບບຈໍາລອງພາສາ ຍັງໃຊ້ corpus ເລື້ອຍໆ.
10. VoxCeleb
VoxCeleb ເປັນຊຸດຂໍ້ມູນການລະບຸສຽງເວົ້າຂະໜາດໃຫຍ່ທີ່ສ້າງຂຶ້ນໂດຍອັດຕະໂນມັດຈາກ ສື່ open-source. VoxCeleb ມີຫຼາຍກວ່າຫນຶ່ງລ້ານ utterances ຈາກຫຼາຍກວ່າ 6k ລໍາໂພງ.
ເນື່ອງຈາກຊຸດຂໍ້ມູນປະກອບມີພາບແລະສຽງ, ມັນສາມາດຖືກນໍາໃຊ້ສໍາລັບຫຼາຍໆຄໍາຮ້ອງສະຫມັກເພີ່ມເຕີມ, ລວມທັງການສັງເຄາະສຽງເວົ້າທາງສາຍຕາ, ການແຍກສຽງເວົ້າ, ການຖ່າຍທອດຂ້າມໂມດູນຈາກໃບຫນ້າໄປຫາສຽງຫຼືໃນທາງກັບກັນ, ແລະການຝຶກອົບຮົມການຮັບຮູ້ໃບຫນ້າຈາກວິດີໂອເພື່ອເສີມການຮັບຮູ້ໃບຫນ້າໃນປະຈຸບັນ. ຊຸດຂໍ້ມູນ.
11. SIXray
ຊຸດຂໍ້ມູນ SIXray ລວມມີ 1,059,231 ຮູບ X-ray ທີ່ເກັບມາຈາກສະຖານີລົດໄຟໃຕ້ດິນ ແລະ ບັນທຶກໂດຍຜູ້ກວດກາຄວາມປອດໄພຂອງມະນຸດເພື່ອກວດຫາ XNUMX ປະເພດສິນຄ້າຕ້ອງຫ້າມຕົ້ນຕໍຄື: ປືນສັ້ນ, ມີດ, wrenches, pliers, scissors, ແລະ hammers. ນອກຈາກນັ້ນ, ກ່ອງຂອບສໍາລັບແຕ່ລະລາຍການທີ່ບໍ່ໄດ້ຮັບອະນຸຍາດໄດ້ຖືກເພີ່ມໃສ່ຊຸດທົດສອບດ້ວຍຕົນເອງເພື່ອປະເມີນການປະຕິບັດການທ້ອງຖິ່ນຂອງວັດຖຸ.
12. ອຸປະຕິເຫດສະຫະລັດ
ສານຂອງໂຄງການໄດ້ຖືກເປີດເຜີຍແລ້ວໂດຍຊື່ຂອງຊຸດຂໍ້ມູນ, US Accidents. ຊຸດຂໍ້ມູນນີ້ກ່ຽວກັບອຸປະຕິເຫດລົດໃຫຍ່ທົ່ວປະເທດລວມມີຂໍ້ມູນຕັ້ງແຕ່ເດືອນກຸມພາ 2016 ຫາເດືອນທັນວາ 2021 ແລະກວມເອົາ 49 ລັດໃນສະຫະລັດ.
ປະມານ 1.5 ລ້ານບັນທຶກອຸປະຕິເຫດປະຈຸບັນມີຢູ່ໃນການເກັບກໍານີ້. ມັນໄດ້ຖືກລວບລວມໃນເວລາທີ່ແທ້ຈິງໂດຍການນໍາໃຊ້ APIs ການຈະລາຈອນຫຼາຍ.
APIs ເຫຼົ່ານີ້ສົ່ງຂໍ້ມູນການຈະລາຈອນທີ່ລວບລວມມາຈາກຫຼາຍໆແຫຼ່ງ, ລວມທັງກ້ອງຖ່າຍຮູບການຈະລາຈອນ, ອົງການຈັດຕັ້ງບັງຄັບໃຊ້ກົດຫມາຍ, ແລະພະແນກການຂົນສົ່ງຂອງສະຫະລັດແລະລັດ.
13. ການຮັບຮູ້ພະຍາດຕາ
ຖານຂໍ້ມູນ ophthalmic Ocular Disease Intelligent Recognition (ODIR) ປະກອບມີຂໍ້ມູນກ່ຽວກັບຄົນເຈັບ 5,000, ລວມທັງອາຍຸຂອງພວກເຂົາ, ສີຂອງ fundus ໃນຕາຊ້າຍແລະຂວາຂອງພວກເຂົາ, ແລະຄໍາວິນິດໄສຂອງຜູ້ຊ່ຽວຊານທາງການແພດ.
ຊຸດຂໍ້ມູນນີ້ແມ່ນການເກັບກຳຂໍ້ມູນຕົວຈິງຂອງຄົນເຈັບຈາກໂຮງໝໍຕ່າງໆ ແລະສະຖານທີ່ທາງການແພດໃນປະເທດຈີນທີ່ບໍລິສັດ Shanggong Medical Technology Co., Ltd. ໄດ້ມາ. ກັບ ການຄຸ້ມຄອງການຄວບຄຸມຄຸນນະພາບ, ຄໍາບັນຍາຍໄດ້ຖືກ tagged ໂດຍຜູ້ອ່ານມະນຸດທີ່ມີຄວາມຊໍານິຊໍານານ.
14. ໂລກຫົວໃຈ
ຊຸດຂໍ້ມູນພະຍາດຫົວໃຈນີ້ຊ່ວຍໃນການລະບຸການມີຢູ່ຂອງພະຍາດຫົວໃຈໃນຄົນເຈັບໂດຍອີງໃສ່ 76 ຕົວກໍານົດການເຊັ່ນ: ອາຍຸ, ເພດ, ປະເພດອາການເຈັບຫນ້າເອິກ, ຄວາມດັນເລືອດພັກຜ່ອນ, ແລະອື່ນໆ.
ດ້ວຍ 303 ກໍລະນີ, ຖານຂໍ້ມູນຊອກຫາພຽງແຕ່ຄວາມແຕກຕ່າງຂອງການມີຢູ່ຂອງພະຍາດ (ຄ່າ 1,2,3,4) ຈາກການຂາດຂອງມັນ (ຄ່າ 0).
15. CLEVR
ຊຸດຂໍ້ມູນ CLEVR (ພາສາປະກອບແລະການໃຫ້ເຫດຜົນທາງສາຍຕາຂັ້ນຕົ້ນ) mimics Visual Question Answer. ມັນປະກອບດ້ວຍຮູບຖ່າຍຂອງວັດຖຸທີ່ສະແດງເປັນ 3 ມິຕິ, ໂດຍແຕ່ລະຮູບປະກອບດ້ວຍຄໍາຖາມທີ່ມີອົງປະກອບສູງແບ່ງອອກເປັນຫຼາຍປະເພດ.
ສໍາລັບຮູບພາບການຝຶກອົບຮົມແລະການກວດສອບຄວາມຖືກຕ້ອງທັງຫມົດ, ຊຸດຂໍ້ມູນປະກອບມີ 70,000 ຮູບແລະ 700,000 ຄໍາຖາມສໍາລັບການຝຶກອົບຮົມ, 15,000 ຮູບພາບແລະ 150,000 ຄໍາຖາມສໍາລັບການກວດສອບຄວາມຖືກຕ້ອງ, ແລະ 15,000 ຮູບພາບແລະ 150,000 ຄໍາຖາມສໍາລັບການທົດສອບທີ່ກ່ຽວຂ້ອງກັບວັດຖຸ, ການຕອບ, ຕາຕະລາງການທໍາງານ, ແລະຕາຕະລາງ.
16. ການເພິ່ງພາສາທົ່ວໄປ
ໂຄງການ Universal Dependencies (UD) ມີຈຸດປະສົງເພື່ອສ້າງ morphology ເອກະພາບຂ້າມພາສາ ແລະ syntax treebank annotation ສໍາລັບຫຼາຍພາສາ. ເວີຊັນ 2.7, ເຊິ່ງຖືກປ່ອຍອອກມາໃນປີ 2020, ມີ 183 treebanks ໃນ 104 ພາສາ.
ຄຳອະທິບາຍປະກອບແມ່ນປະກອບດ້ວຍແທັກ POW ທົ່ວໄປ, ຫົວການເພິ່ງພາອາໄສ, ແລະປ້າຍກຳກັບການເພິ່ງພາອາໄສແບບສາກົນ.
17. KITTI – 360
ຫນຶ່ງໃນຊຸດຂໍ້ມູນທີ່ໃຊ້ຫຼາຍທີ່ສຸດສໍາລັບຫຸ່ນຍົນມືຖືແລະ ຂັບລົດເອກະລາດ ແມ່ນ KITTI (ສະຖາບັນເຕັກໂນໂລຊີ Karlsruhe ແລະ Toyota Technological Institute).
ມັນປະກອບດ້ວຍສະຖານະການຈະລາຈອນທີ່ມີມູນຄ່າຫຼາຍຊົ່ວໂມງທີ່ໄດ້ຖືກບັນທຶກໂດຍໃຊ້ຮູບແບບເຊັນເຊີຫຼາຍໆຢ່າງ, ເຊັ່ນ: ຄວາມລະອຽດສູງ RGB, ສະເຕຣິໂອສີເທົາ, ແລະກ້ອງສະແກນເລເຊີ 3D. ຊຸດຂໍ້ມູນໄດ້ຖືກປັບປຸງຕາມເວລາໂດຍນັກຄົ້ນຄວ້າຫຼາຍຄົນທີ່ໄດ້ອະທິບາຍສ່ວນຕ່າງໆຂອງມັນດ້ວຍຕົນເອງເພື່ອໃຫ້ເຫມາະສົມກັບຄວາມຕ້ອງການຂອງພວກເຂົາ.
18. MOT(ການຕິດຕາມວັດຖຸຫຼາຍອັນ)
MOT (Multiple Object Tracking) ແມ່ນຊຸດຂໍ້ມູນສຳລັບການຕິດຕາມວັດຖຸຫຼາຍອັນ ເຊິ່ງລວມເຖິງທິວທັດທັງພາຍໃນ ແລະ ກາງແຈ້ງຂອງສະຖານທີ່ສາທາລະນະ ເຊິ່ງລວມເອົາຄົນຍ່າງເປັນວັດຖຸທີ່ສົນໃຈ. ວິດີໂອຂອງແຕ່ລະ scene ແມ່ນແບ່ງອອກເປັນສອງຕ່ອນ, ຫນຶ່ງສໍາລັບການຝຶກອົບຮົມແລະອື່ນໆສໍາລັບການທົດສອບ.
ຊຸດຂໍ້ມູນປະກອບມີ ການກວດສອບວັດຖຸ ໃນເຟຣມວິດີໂອໂດຍໃຊ້ເຄື່ອງກວດຈັບສາມຕົວ: SDP, Faster-RCNN, ແລະ DPM.
19. PASCAL 3D+
ຊຸດຂໍ້ມູນຫຼາຍມຸມຂອງ Pascal3D+ ແມ່ນປະກອບດ້ວຍຮູບຖ່າຍທີ່ເກັບກໍາຢູ່ໃນທໍາມະຊາດ, ເຊັ່ນ, ຮູບພາບຂອງປະເພດລາຍການທີ່ມີຄວາມປ່ຽນແປງສູງ, ຈັບໄດ້ໃນສະຖານະການທີ່ບໍ່ສາມາດຄວບຄຸມໄດ້, ໃນສະພາບແວດລ້ອມທີ່ແອອັດ, ແລະໃນຫຼາຍໆຕໍາແຫນ່ງ. Pascal3D+ ປະກອບມີ 12 ໝວດໝູ່ວັດຖຸແຂງທີ່ດຶງມາຈາກຊຸດຂໍ້ມູນ PASCAL VOC 2012.
ລາຍການເຫຼົ່ານີ້ມີຂໍ້ມູນການ posture ຫມາຍກ່ຽວກັບພວກເຂົາ (azimuth, elevation, ແລະໄລຍະຫ່າງກັບກ້ອງຖ່າຍຮູບ). ນອກຈາກນັ້ນ, Pascal3D+ ລວມມີຮູບປະກອບການປະກອບຄຳບັນຍາຍຈາກການເກັບກຳ ImageNet ໃນ 12 ປະເພດເຫຼົ່ານີ້.
20. ຕົວແບບທີ່ຜິດປົກກະຕິຂອງສັດ
ເປົ້າຫມາຍຂອງໂຄງການ Facial Deformable Models of Animals (FDMA) ແມ່ນເພື່ອທ້າທາຍວິທີການປະຈຸບັນໃນການກໍານົດແລະການຕິດຕາມໃບຫນ້າຂອງມະນຸດແລະການພັດທະນາລະບົບສູດການຄິດໄລ່ໃຫມ່ທີ່ສາມາດຈັດການກັບການປ່ຽນແປງທີ່ໃຫຍ່ກວ່າທີ່ເປັນລັກສະນະຂອງລັກສະນະຂອງສັດ.
ສູດການຄິດໄລ່ຂອງໂຄງການໄດ້ສະແດງໃຫ້ເຫັນຄວາມສາມາດໃນການຮັບຮູ້ ແລະຕິດຕາມຈຸດສຳຄັນເທິງໃບໜ້າຂອງມະນຸດ ໃນຂະນະທີ່ຈັດການກັບຄວາມແຕກຕ່າງທີ່ເກີດຈາກການປ່ຽນແປງຂອງອາລົມ ຫຼືທ່າທາງຂອງໃບໜ້າ, ການປິດບັງບາງສ່ວນ ແລະແສງສະຫວ່າງ.
21. ຊຸດຂໍ້ມູນໄປສະນີມະນຸດ MPII
ຊຸດຂໍ້ມູນ Pose ມະນຸດ MPII ປະກອບມີປະມານ 25K ຮູບ, 15K ທີ່ເປັນຕົວຢ່າງການຝຶກອົບຮົມ, 3K ທີ່ເປັນຕົວຢ່າງການກວດສອບ, ແລະ 7K ເຊິ່ງເປັນຕົວຢ່າງການທົດສອບ.
ຕໍາແໜ່ງດັ່ງກ່າວໄດ້ຖືກຕິດສະຫຼາກດ້ວຍຕົນເອງທີ່ມີເຖິງ 16 ຂໍ້ຕໍ່ຂອງຮ່າງກາຍ, ແລະຮູບຖ່າຍແມ່ນໄດ້ມາຈາກຮູບເງົາ YouTube ທີ່ກວມເອົາ 410 ກິດຈະກໍາຕ່າງໆຂອງມະນຸດ.
22. UCF101
ຊຸດຂໍ້ມູນ UCF101 ມີ 13,320 ຄລິບວີດີໂອຈັດເປັນ 101 ໝວດໝູ່. 101 ປະເພດນີ້ ແບ່ງອອກເປັນ XNUMX ປະເພດຄື: ການເຄື່ອນໄຫວທາງຮ່າງກາຍ, ປະຕິສໍາພັນມະນຸດ-ມະນຸດ, ການພົວພັນລະຫວ່າງມະນຸດ-ວັດຖຸ, ການຫຼິ້ນເຄື່ອງດົນຕີ ແລະ ກິລາ.
ວິດີໂອແມ່ນມາຈາກ YouTube ແລະປະກອບດ້ວຍ 27 ຊົ່ວໂມງ.
23. ຊຸດສຽງ
Audioset ແມ່ນຊຸດຂໍ້ມູນເຫດການສຽງທີ່ປະກອບດ້ວຍຫຼາຍກວ່າ 2 ລ້ານພາກສ່ວນວິດີໂອ 10 ວິນາທີທີ່ມະນຸດອະທິບາຍ. ເພື່ອອະທິບາຍຂໍ້ມູນນີ້, ontology ລຳດັບທີ່ປະກອບມີ 632 ປະເພດເຫດການແມ່ນຖືກນໍາໃຊ້, ເຊິ່ງຫມາຍຄວາມວ່າສຽງດຽວກັນອາດຈະຖືກຕິດສະຫຼາກແຕກຕ່າງກັນ.
24. Stanford Natural Language Inference
ຊຸດຂໍ້ມູນ SNLI (Stanford Natural Language Inference) ປະກອບມີການຈັບຄູ່ປະໂຫຍກ 570k ທີ່ໄດ້ຖືກຈັດປະເພດດ້ວຍຕົນເອງເປັນ entailment, contradiction, ຫຼື neutral.
ສະຖານທີ່ແມ່ນຄໍາອະທິບາຍຮູບພາບ Flickr30k, ໃນຂະນະທີ່ສົມມຸດຕິຖານໄດ້ຖືກພັດທະນາໂດຍຜູ້ບັນຍາຍທີ່ມາຈາກຝູງຊົນທີ່ໄດ້ຮັບການສະຫນອງສະຖານທີ່ແລະຄໍາແນະນໍາເພື່ອສ້າງຄໍາຖະແຫຼງທີ່ລະອຽດ, ຂັດແຍ້ງ, ແລະເປັນກາງ.
25. ການຕອບຄໍາຖາມແບບສາຍຕາ
Visual Question Answering (VQA) ແມ່ນຊຸດຂໍ້ມູນທີ່ມີຄຳຖາມເປີດກ່ຽວກັບຮູບພາບ. ເພື່ອຕອບຄໍາຖາມເຫຼົ່ານີ້, ທ່ານຈໍາເປັນຕ້ອງເຂົ້າໃຈວິໄສທັດ, ພາສາ, ແລະຄວາມຮູ້ສຶກທົ່ວໄປ.
ສະຫຼຸບ
ເນື່ອງຈາກການຮຽນຮູ້ຂອງເຄື່ອງຈັກ ແລະປັນຍາປະດິດ (AI) ກາຍເປັນທີ່ແຜ່ຫຼາຍໃນທຸກທຸລະກິດ ແລະໃນຊີວິດປະຈໍາວັນຂອງພວກເຮົາ, ຈໍານວນຊັບພະຍາກອນ ແລະຂໍ້ມູນທີ່ມີຢູ່ໃນວິຊາດັ່ງກ່າວ.
ຊຸດຂໍ້ມູນສາທາລະນະທີ່ກຽມພ້ອມໃຫ້ເປັນຈຸດເລີ່ມຕົ້ນທີ່ດີໃນການພັດທະນາແບບຈໍາລອງ AI ໃນຂະນະທີ່ຍັງອະນຸຍາດໃຫ້ນັກຂຽນໂປລແກລມ ML ທີ່ມີລະດູການປະຫຍັດເວລາແລະສຸມໃສ່ອົງປະກອບອື່ນໆຂອງໂຄງການຂອງພວກເຂົາ.
ອອກຈາກ Reply ເປັນ