สารบัญ[ซ่อน][แสดง]
- 1. ชุดข้อมูลแอตทริบิวต์ CelebFaces
- 2. อปท
- 3. ชุดข้อมูลเปรียบเทียบการแสดงออกทางสีหน้าของ Google
- 4. จีโนมภาพ
- 5. LibriSpeech
- 6. พื้นที่ในเมือง
- 7. ชุดข้อมูลจลนศาสตร์
- 8. CelebAMAsk-HQ
- 9. เพนน์ ทรีแบงค์
- 10. วอกซ์เซเลบ
- 11. ซิกเรย์
- 12. อุบัติเหตุในสหรัฐอเมริกา
- 13. การรับรู้โรคตา
- 14 โรคหัวใจ
- 15. เคลฟเวอร์
- 16. การพึ่งพาสากล
- 17. กิตติ – 360
- 18. MOT (การติดตามวัตถุหลายรายการ)
- 19. ปาสกาล 3D+
- 20. หุ่นจำลองใบหน้าของสัตว์
- 21. ชุดข้อมูล MPII Human Post
- 22. UCF101
- 23. ชุดเครื่องเสียง
- 24. การอนุมานภาษาธรรมชาติของสแตนฟอร์ด
- 25. การตอบคำถามด้วยภาพ
- สรุป
ทุกวันนี้ พวกเราส่วนใหญ่มุ่งเน้นที่การพัฒนาแมชชีนเลิร์นนิงและโมเดล AI และแก้ไขปัญหาโดยใช้ชุดข้อมูลปัจจุบัน แต่ก่อนอื่น เราต้องกำหนดชุดข้อมูล ความสำคัญ และบทบาทในการพัฒนาโซลูชัน AI และ ML ที่แข็งแกร่ง
วันนี้ เรามีชุดข้อมูลโอเพ่นซอร์สมากมายสำหรับดำเนินการวิจัยหรือพัฒนาแอปพลิเคชันเพื่อจัดการกับปัญหาในโลกแห่งความเป็นจริงในหลากหลายภาคส่วน
อย่างไรก็ตาม การขาดแคลนชุดข้อมูลเชิงปริมาณคุณภาพสูงทำให้เกิดความกังวล ข้อมูลเพิ่มขึ้นอย่างมากและจะยังคงขยายตัวในอัตราที่เร็วขึ้นในอนาคต
ในโพสต์นี้ เราจะพูดถึงชุดข้อมูลที่มีให้ใช้ฟรี ซึ่งคุณสามารถใช้เพื่อพัฒนาโครงการ AI ถัดไปของคุณ
1. ชุดข้อมูลแอตทริบิวต์ CelebFaces
ชุดข้อมูล CelebFaces Attributes (CelebA) มีภาพถ่ายคนดังมากกว่า 200K และคำอธิบายประกอบ 40 รายการสำหรับแต่ละภาพ ทำให้เป็นจุดเริ่มต้นที่ยอดเยี่ยมสำหรับโครงการต่างๆ เช่น การจดจำใบหน้า, การตรวจจับใบหน้า, จุดสังเกต (หรือองค์ประกอบใบหน้า) โลคัลไลเซชัน และการแก้ไขและการสังเคราะห์ใบหน้า นอกจากนี้ ภาพถ่ายในคอลเลกชันนี้ยังมีความหลากหลายของตำแหน่งและความยุ่งเหยิงของฉากหลัง
2. DOTA
DOTA (ชุดข้อมูลของ การตรวจจับวัตถุ ในภาพถ่ายทางอากาศ) เป็นชุดข้อมูลขนาดใหญ่สำหรับการตรวจจับวัตถุที่มี 15 หมวดหมู่ทั่วไป (เช่น เรือ เครื่องบิน รถยนต์ ฯลฯ) รูปภาพ 1411 ภาพสำหรับการฝึก และ 458 ภาพสำหรับการตรวจสอบ
3. ชุดข้อมูลเปรียบเทียบการแสดงออกทางสีหน้าของ Google
ชุดข้อมูลเปรียบเทียบการแสดงออกทางสีหน้าของ Google มีแฝดสามภาพประมาณ 500,000 ภาพ รวมถึงภาพถ่ายใบหน้า 156,000 ภาพ เป็นที่น่าสังเกตว่าแฝดสามตัวในชุดข้อมูลนี้มีคำอธิบายประกอบโดยผู้ประเมินที่เป็นมนุษย์อย่างน้อยหกคน
ชุดข้อมูลนี้มีประโยชน์สำหรับโครงการที่เกี่ยวข้องกับการวิเคราะห์การแสดงออกของใบหน้า เช่น การดึงรูปภาพตามนิพจน์ การจัดหมวดหมู่อารมณ์ การสังเคราะห์การแสดงออก และอื่นๆ หากต้องการเข้าถึงชุดข้อมูล จะต้องกรอกแบบฟอร์มสั้นๆ
4. จีโนมภาพ
ข้อมูลการตอบคำถามด้วยภาพในสภาพแวดล้อมแบบหลายตัวเลือกมีอยู่ใน Visual Genome ประกอบด้วยภาพถ่าย MSCOCO 101,174 ภาพพร้อม QA 1.7 ล้านคู่ โดยเฉลี่ย 17 คำถามต่อภาพ
เมื่อเปรียบเทียบกับชุดข้อมูล Visual Question Answering ชุดข้อมูล Visual Genome มีการกระจายที่ยุติธรรมมากขึ้นในหกประเภทคำถาม: อะไร ที่ไหน เมื่อไร ใคร ทำไม และอย่างไร
นอกจากนี้ ชุดข้อมูล Visual Genome ยังประกอบด้วยภาพถ่าย 108K ที่มีการแท็กวัตถุ คุณสมบัติ และการเชื่อมต่ออย่างหนัก
5. LibriSpeech
LibriSpeech corpus คือชุดหนังสือเสียงประมาณ 1,000 ชั่วโมงจากโครงการ LibriVox หนังสือเสียงส่วนใหญ่มาจาก Project Gutenberg
ข้อมูลการฝึกอบรมแบ่งออกเป็นสามพาร์ติชั่นคือ 100 ชม. 360 ชม. และ 500 ชม. ในขณะที่ข้อมูลการพัฒนาและทดสอบมีความยาวเสียงประมาณ 5 ชม.
6. พื้นที่ในเมือง
ฐานข้อมูลขนาดใหญ่ที่มีชื่อเสียงที่สุดของวิดีโอสเตอริโอพร้อมทิวทัศน์ของเมืองเรียกว่า The Cityscapes
ด้วยคำอธิบายประกอบแบบพิกเซลที่แม่นยำซึ่งรวมถึงตำแหน่ง GPS, อุณหภูมิภายนอก, ข้อมูลอัตตา-โมชั่น และมุมมองสเตอริโอที่เหมาะสม ซึ่งจะรวมการบันทึกจาก 50 เมืองในเยอรมันที่แตกต่างกัน
7. ชุดข้อมูลจลนศาสตร์
ชุดข้อมูลวิดีโอที่เป็นที่รู้จักมากที่สุดชุดหนึ่งสำหรับการจดจำกิจกรรมของมนุษย์ในวงกว้างและมีคุณภาพที่ดีคือชุดข้อมูล Kinetics มีคลิปวิดีโออย่างน้อย 600 คลิปสำหรับแต่ละคลาสกิจกรรมของมนุษย์ 600 คลาส รวมทั้งหมดกว่า 500,000 รายการ
ภาพยนตร์ถูกดึงมาจาก YouTube; แต่ละอันมีความยาวประมาณ 10 วินาทีและมีคลาสกิจกรรมเพียงคลาสเดียว
8. CelebAMask-HQ
CelebAMask-HQ คือคอลเลกชั่นภาพถ่ายใบหน้าที่มีความละเอียดสูงจำนวน 30,000 รูป พร้อมมาสก์ที่มีคำอธิบายประกอบอย่างระมัดระวังและ 19 คลาสที่มีส่วนประกอบของใบหน้า เช่น ผิวหนัง จมูก ตา คิ้ว หู ปาก ริมฝีปาก ผม หมวก แว่นตา ต่างหู สร้อยคอ คอวัสดุ
สามารถใช้ชุดข้อมูลเพื่อทดสอบและฝึกการจดจำใบหน้า การแยกวิเคราะห์ใบหน้า และ GAN สำหรับอัลกอริธึมการสร้างและแก้ไขใบหน้า
9. เพนน์ ทรีแบงค์
คลังข้อมูลที่โดดเด่นและมักใช้ในการประเมินแบบจำลองสำหรับการติดแท็กลำดับคือคลังข้อมูล English Penn Treebank (PTB) โดยเฉพาะอย่างยิ่งส่วนของคลังข้อมูลที่เกี่ยวข้องกับบทความใน Wall Street Journal
แต่ละคำต้องมีส่วนของคำพูดติดแท็กเป็นส่วนประกอบของงาน ระดับอักขระและระดับคำ การสร้างแบบจำลองภาษา ก็มักจะใช้คลังข้อมูล
10. ว็อกซ์เซเลป
VoxCeleb เป็นชุดข้อมูลระบุคำพูดขนาดใหญ่ที่สร้างขึ้นโดยอัตโนมัติจาก สื่อโอเพ่นซอร์ส. VoxCeleb มีคำพูดมากกว่าล้านคำจากผู้พูดกว่า 6k
เนื่องจากชุดข้อมูลมีภาพและเสียง จึงสามารถนำไปใช้กับแอปพลิเคชันเพิ่มเติมได้หลากหลาย รวมถึงการสังเคราะห์เสียงพูด การแยกคำพูด การถ่ายโอนข้ามโมดอลจากใบหน้าหนึ่งไปยังอีกเสียงหนึ่งหรือในทางกลับกัน และการฝึกการจดจำใบหน้าจากวิดีโอเพื่อเสริมการจดจำใบหน้าในปัจจุบัน ชุดข้อมูล
11. ซิกเรย์
ชุดข้อมูล SIXray ประกอบด้วยภาพเอ็กซ์เรย์ 1,059,231 ภาพที่รวบรวมจากสถานีรถไฟใต้ดินและระบุโดยผู้ตรวจสอบความปลอดภัยของมนุษย์เพื่อตรวจหาสิ่งของต้องห้าม XNUMX ประเภทหลัก ได้แก่ ปืนพก มีด ประแจ คีม กรรไกร และค้อน นอกจากนี้ กล่องขอบเขตสำหรับแต่ละรายการที่ไม่อนุญาตได้รับการเพิ่มด้วยตนเองในชุดการทดสอบเพื่อประเมินประสิทธิภาพของการแปลวัตถุ
12. อุบัติเหตุในสหรัฐอเมริกา
เนื้อหาของโครงการได้รับการเปิดเผยแล้วโดยใช้ชื่อชุดข้อมูล อุบัติเหตุของสหรัฐฯ ชุดข้อมูลอุบัติเหตุทางรถยนต์ทั่วประเทศนี้มีข้อมูลตั้งแต่เดือนกุมภาพันธ์ 2016 ถึงธันวาคม 2021 และครอบคลุม 49 รัฐในสหรัฐอเมริกา
ปัจจุบันมีบันทึกอุบัติเหตุประมาณ 1.5 ล้านรายการในคอลเล็กชันนี้ มันถูกรวบรวมแบบเรียลไทม์โดยใช้ API การรับส่งข้อมูลหลายตัว
API เหล่านี้ส่งข้อมูลการจราจรที่รวบรวมจากแหล่งต่างๆ รวมถึงกล้องจราจร องค์กรบังคับใช้กฎหมาย และหน่วยงานด้านการขนส่งของสหรัฐอเมริกาและรัฐ
13. การรับรู้โรคตา
ฐานข้อมูลเกี่ยวกับโรคตาที่จัดเป็นระบบ Ocular Disease Intelligent Recognition (ODIR) มีข้อมูลเกี่ยวกับผู้ป่วย 5,000 ราย ซึ่งรวมถึงอายุ สีของอวัยวะในตาซ้ายและขวา และคำหลักในการวินิจฉัยของผู้เชี่ยวชาญทางการแพทย์
ชุดข้อมูลนี้เป็นการรวบรวมข้อมูลผู้ป่วยจริงจากโรงพยาบาลและสถานพยาบาลต่างๆ ในประเทศจีนที่ Shanggong Medical Technology Co., Ltd. ได้มา กับ การจัดการควบคุมคุณภาพ, คำอธิบายประกอบถูกแท็กโดยผู้อ่านที่เป็นมนุษย์ที่มีทักษะ
14. โรคหัวใจ
ชุดข้อมูลโรคหัวใจนี้ช่วยในการระบุการมีอยู่ของโรคหัวใจในผู้ป่วยตามพารามิเตอร์ 76 ประการ เช่น อายุ เพศ ชนิดอาการเจ็บหน้าอก ความดันโลหิตขณะพัก และอื่นๆ
ด้วยจำนวนผู้ป่วย 303 ราย ฐานข้อมูลพยายามที่จะแยกความแตกต่างของการมีอยู่ของการเจ็บป่วย (มูลค่า 1,2,3,4) จากการไม่มีอยู่ (ค่า 0)
15. เคลวีอาร์
ชุดข้อมูล CLEVR (ภาษาองค์ประกอบและการใช้เหตุผลเชิงภาพเบื้องต้น) เลียนแบบการตอบคำถามด้วยภาพ ประกอบด้วยภาพถ่ายของวัตถุที่แสดงผลแบบ 3 มิติ โดยแต่ละภาพจะมีชุดคำถามเชิงองค์ประกอบสูงซึ่งแบ่งออกเป็นหลายประเภท
สำหรับรูปภาพและคำถามรถไฟและการตรวจสอบความถูกต้องทั้งหมด ชุดข้อมูลประกอบด้วยภาพถ่าย 70,000 ภาพและคำถาม 700,000 คำถามสำหรับการฝึกอบรม 15,000 ภาพและ 150,000 คำถามสำหรับการตรวจสอบ และ 15,000 ภาพและ 150,000 คำถามสำหรับการทดสอบเกี่ยวกับวัตถุ การตอบกลับ กราฟฉาก และโปรแกรมการทำงาน
16. การพึ่งพาสากล
โปรเจ็กต์ Universal Dependencies (UD) มีเป้าหมายเพื่อสร้างสัณฐานวิทยาที่เหมือนกันข้ามภาษาและคำอธิบายประกอบแบบ treebank ไวยากรณ์สำหรับหลายภาษา เวอร์ชัน 2.7 ซึ่งเปิดตัวในปี 2020 มี treebank 183 แห่งใน 104 ภาษา
คำอธิบายประกอบประกอบด้วยแท็ก POW สากล หัวการพึ่งพา และป้ายกำกับการพึ่งพาสากล
17. กิตติ – 360
หนึ่งในชุดข้อมูลที่ใช้บ่อยที่สุดสำหรับหุ่นยนต์เคลื่อนที่และ การขับขี่แบบอิสระ คือ กิตติ (สถาบันเทคโนโลยีคาร์ลสรูเฮและสถาบันเทคโนโลยีโตโยต้า)
ประกอบด้วยสถานการณ์การจราจรที่คุ้มค่าเป็นเวลาหลายชั่วโมงซึ่งบันทึกโดยใช้รูปแบบเซ็นเซอร์ต่างๆ เช่น RGB ความละเอียดสูง สเตอริโอระดับสีเทา และกล้องสแกนเนอร์เลเซอร์ 3 มิติ ชุดข้อมูลได้รับการปรับปรุงเมื่อเวลาผ่านไปโดยนักวิจัยหลายคนซึ่งทำหมายเหตุประกอบส่วนต่างๆ ด้วยตนเองเพื่อให้เหมาะกับความต้องการของตน
18. MOT (การติดตามวัตถุหลายรายการ)
MOT (Multiple Object Tracking) เป็นชุดข้อมูลสำหรับการติดตามวัตถุหลายรายการซึ่งรวมถึงทิวทัศน์ในร่มและกลางแจ้งของสถานที่สาธารณะที่มีคนเดินเท้าเป็นวัตถุที่น่าสนใจ วิดีโอของแต่ละฉากแบ่งออกเป็นสองส่วน ส่วนหนึ่งสำหรับการฝึกอบรม และอีกส่วนหนึ่งสำหรับการทดสอบ
ชุดข้อมูลประกอบด้วย การตรวจจับวัตถุ ในเฟรมวิดีโอโดยใช้ตัวตรวจจับสามตัว ได้แก่ SDP, Faster-RCNN และ DPM
19. ปาสกาล 3D+
ชุดข้อมูล Pascal3D+ แบบหลายมุมมองประกอบด้วยภาพถ่ายที่เก็บรวบรวมในป่า เช่น รูปภาพของหมวดหมู่รายการที่มีความแปรปรวนสูง ถ่ายในสถานการณ์ที่ควบคุมไม่ได้ ในสภาพแวดล้อมที่แออัด และในตำแหน่งต่างๆ Pascal3D+ มี 12 หมวดหมู่อ็อบเจ็กต์ที่เข้มงวดซึ่งดึงมาจากชุดข้อมูล PASCAL VOC 2012
รายการเหล่านี้มีข้อมูลท่าทางที่ทำเครื่องหมายไว้ (มุมราบ ระดับความสูง และระยะห่างจากกล้อง) Pascal3D+ ยังรวมภาพถ่ายที่มีคำอธิบายประกอบจากคอลเลกชั่น ImageNet ใน 12 หมวดหมู่เหล่านี้ด้วย
20. โมเดลสัตว์ที่เปลี่ยนรูปใบหน้าได้
เป้าหมายของโปรเจ็กต์ Facial Deformable Models of Animals (FDMA) คือการท้าทายวิธีการในปัจจุบันในการระบุและติดตามจุดสังเกตบนใบหน้าของมนุษย์ และเพื่อพัฒนาอัลกอริธึมใหม่ที่สามารถจัดการกับความแปรปรวนที่ใหญ่กว่ามากซึ่งเป็นลักษณะเฉพาะของลักษณะใบหน้าของสัตว์
อัลกอริธึมของโปรเจ็กต์แสดงให้เห็นถึงความสามารถในการจดจำและติดตามจุดสังเกตบนใบหน้าของมนุษย์ ในขณะที่จัดการกับความแปรปรวนที่เกิดจากการเปลี่ยนแปลงของอารมณ์หรือตำแหน่งบนใบหน้า การบดบังบางส่วน และการจัดแสง
21. ชุดข้อมูล MPII Human Post
ชุดข้อมูล MPII Human Pose มีภาพถ่ายประมาณ 25K โดย 15K เป็นตัวอย่างการฝึกอบรม 3K เป็นตัวอย่างการตรวจสอบ และ 7K เป็นตัวอย่างการทดสอบ
ตำแหน่งต่างๆ จะติดป้ายกำกับด้วยตนเองด้วยข้อต่อร่างกายสูงสุด 16 ข้อ และรูปถ่ายนี้ถ่ายจากภาพยนตร์ YouTube ที่ครอบคลุมกิจกรรมต่างๆ ของมนุษย์กว่า 410 อย่าง
22. UCF101
ชุดข้อมูล UCF101 ประกอบด้วยคลิปวิดีโอ 13,320 คลิปที่จัดเป็น 101 หมวดหมู่ 101 หมวดหมู่เหล่านี้แบ่งออกเป็นห้าประเภท: การเคลื่อนไหวร่างกาย ปฏิสัมพันธ์ระหว่างมนุษย์กับมนุษย์ ปฏิสัมพันธ์ระหว่างมนุษย์กับวัตถุ การเล่นเครื่องดนตรี และการกีฬา
วิดีโอเหล่านี้มาจาก YouTube และมีความยาว 27 ชั่วโมง
23. ชุดเครื่องเสียง
Audioset เป็นชุดข้อมูลเหตุการณ์เสียงที่ประกอบด้วยกลุ่มวิดีโอ 2 วินาทีที่มีคำอธิบายประกอบโดยมนุษย์มากกว่า 10 ล้านรายการ ในการอธิบายข้อมูลนี้ มีการใช้ ontology แบบลำดับชั้นที่ประกอบด้วย 632 ประเภทเหตุการณ์ ซึ่งหมายความว่าเสียงเดียวกันอาจมีป้ายกำกับต่างกัน
24. การอนุมานภาษาธรรมชาติของสแตนฟอร์ด
ชุดข้อมูล SNLI (การอนุมานภาษาธรรมชาติของสแตนฟอร์ด) มีการจับคู่ประโยค 570k ที่จัดหมวดหมู่ด้วยตนเองเป็นความเกี่ยวข้อง ความขัดแย้ง หรือเป็นกลาง
สถานที่เป็นคำอธิบายรูปภาพ Flickr30k ในขณะที่สมมติฐานได้รับการพัฒนาโดยผู้ใส่คำอธิบายประกอบที่มาจากฝูงชนซึ่งได้รับการจัดเตรียมหลักฐานและได้รับคำสั่งให้สร้างข้อความที่เกี่ยวข้อง ขัดแย้ง และเป็นกลาง
25. การตอบคำถามด้วยภาพ
การตอบคำถามด้วยภาพ (VQA) เป็นชุดข้อมูลที่มีคำถามปลายเปิดเกี่ยวกับรูปภาพ เพื่อตอบคำถามเหล่านี้ คุณต้องเข้าใจวิสัยทัศน์ ภาษา และสามัญสำนึก
สรุป
เนื่องจากแมชชีนเลิร์นนิงและปัญญาประดิษฐ์ (AI) เป็นที่แพร่หลายมากขึ้นในแทบทุกธุรกิจและในชีวิตประจำวันของเรา จำนวนของทรัพยากรและข้อมูลที่มีอยู่ในหัวข้อนี้ก็เช่นกัน
ชุดข้อมูลสาธารณะสำเร็จรูปเป็นจุดเริ่มต้นที่ดีในการพัฒนาแบบจำลอง AI ในขณะที่ยังช่วยให้โปรแกรมเมอร์ ML ที่มีประสบการณ์สามารถประหยัดเวลาและมุ่งเน้นไปที่องค์ประกอบอื่นๆ ของโครงการได้
เขียนความเห็น