25 Pinakamahusay na Alternatibong AI Training Datasets (2024)

Sa ngayon, karamihan sa atin ay nakatuon sa pagbuo ng machine learning at mga modelo ng AI at pagtugon sa mga isyu gamit ang mga kasalukuyang dataset. Ngunit una, dapat nating tukuyin ang isang dataset, ang kahalagahan nito, at ang papel nito sa pagbuo ng mga mahuhusay na solusyon sa AI at ML.

Sa ngayon, mayroon kaming napakaraming open-source na dataset kung saan magsasagawa ng pananaliksik o bumuo ng mga application para matugunan ang mga isyu sa totoong mundo sa iba't ibang sektor.

Gayunpaman, ang kakulangan ng mga de-kalidad na quantitative dataset ay pinagmumulan ng pag-aalala. Ang data ay tumaas nang husto at patuloy na lalawak sa mas mabilis na rate sa hinaharap.

Sa post na ito, sasakupin namin ang mga malayang magagamit na dataset na magagamit mo para bumuo ng iyong susunod na proyekto ng AI.

1. Dataset ng Mga Katangian ng CelebFaces

Ang CelebFaces Attributes Dataset (CelebA) ay naglalaman ng higit sa 200K mga larawan ng celebrity at 40 attribute annotation para sa bawat larawan, na ginagawa itong isang mahusay na panimulang punto para sa mga proyekto tulad ng pagkilala sa mukha, face detection, landmark (o facial component) localization, at pag-edit at synthesis ng mukha. Higit pa rito, ang mga larawan sa koleksyong ito ay naglalaman ng malawak na hanay ng mga variant ng posisyon at backdrop na kalat.

2. DOTA

DOTA (Dataset ng Detection ng Bagay sa Aerial Photos) ay isang malakihang dataset para sa pagtuklas ng bagay na kinabibilangan ng 15 karaniwang kategorya (hal., barko, eroplano, kotse, atbp.), 1411 na larawan para sa pagsasanay, at 458 na larawan para sa pagpapatunay.

3. Dataset ng paghahambing ng Google Facial Expression

Ang dataset ng paghahambing ng ekspresyon ng mukha ng Google ay naglalaman ng humigit-kumulang 500,000 triplets ng larawan, kabilang ang 156,000 larawan ng mukha. Kapansin-pansin na ang bawat triplet sa dataset na ito ay na-annotate ng hindi bababa sa anim na mga taga-rate ng tao.

Kapaki-pakinabang ang dataset na ito para sa mga proyektong kinasasangkutan ng pagsusuri sa ekspresyon ng mukha, gaya ng pagkuha ng larawan na nakabatay sa ekspresyon, pagkakategorya ng emosyon, synthesis ng ekspresyon, at iba pa. Upang makakuha ng access sa dataset, dapat kumpletuhin ang isang maikling form.

4. Visual Genome

Ang data ng Pagsagot sa Visual na Tanong sa isang multi-choice na kapaligiran ay available sa Visual Genome. Binubuo ito ng 101,174 na larawan ng MSCOCO na may 1.7 milyong pares ng QA, na may average na 17 tanong bawat larawan.

Sa paghahambing sa Visual Question Answering dataset, ang Visual Genome dataset ay may mas patas na pamamahagi sa anim na uri ng tanong: Ano, Saan, Kailan, Sino, Bakit, at Paano.

Bilang karagdagan, ang Visual Genome dataset ay may kasamang 108K na larawan na na-tag nang husto ng mga bagay, katangian, at koneksyon.

5. LibriSpeech

Ang LibriSpeech corpus ay isang koleksyon ng humigit-kumulang 1,000 oras ng mga audiobook mula sa proyektong LibriVox. Ang karamihan sa mga audiobook ay nagmula sa Project Gutenberg.

Ang data ng pagsasanay ay nahahati sa tatlong partition ng 100hr, 360hr, at 500hr set, habang ang dev at data ng pagsubok ay humigit-kumulang 5hr ang haba ng audio.

6. Ang Cityspaces

Ang isa sa mga pinakakilalang malakihang database ng mga stereo na video na may urban view ay tinatawag na The Cityscapes.

Sa pamamagitan ng pixel-accurate na mga anotasyon na kinabibilangan ng mga lokasyon ng GPS, ang panlabas na temperatura, ego-motion data, at tamang stereo perspective, kabilang dito ang mga recording mula sa 50 natatanging lungsod sa Germany.

7. Dataset ng Kinetics

Ang isa sa mga pinakakilalang dataset ng video para sa pagkilala sa aktibidad ng tao sa malaking sukat at may magandang kalidad ay ang dataset ng Kinetics. Mayroong hindi bababa sa 600 na mga video clip para sa bawat isa sa 600 klase ng aktibidad ng tao, na may kabuuang mahigit sa 500,000.

Ang mga pelikula ay kinuha mula sa YouTube; bawat isa ay humigit-kumulang 10 segundo ang haba at mayroon lamang isang klase ng aktibidad na nakalista.

8. CelebAMask-HQ

Ang CelebAMask-HQ ay isang koleksyon ng 30,000 high-resolution na larawan ng mukha na may maingat na annotated na mga maskara at 19 na klase na kinabibilangan ng mga bahagi ng mukha tulad ng balat, ilong, mata, kilay, tainga, bibig, labi, buhok, sumbrero, salamin sa mata, hikaw, kuwintas, leeg, materyal.

Maaaring gamitin ang dataset upang subukan at sanayin ang pagkilala sa mukha, pag-parse ng mukha, at mga GAN para sa mga algorithm sa pagbuo at pag-edit ng mukha.

9. Penn Treebank

Ang isa sa pinakakilala at madalas na ginagamit na corpora para sa pagtatasa ng mga modelo para sa sequence tagging ay ang English Penn Treebank (PTB) corpus, lalo na ang bahagi ng corpus na naaayon sa mga artikulo sa Wall Street Journal.

Ang bawat salita ay dapat may bahagi ng pananalita na naka-tag bilang bahagi ng gawain. Antas ng karakter at antas ng salita pagmomodelo ng wika madalas ding gumagamit ng corpus.

10. VoxCeleb

Ang VoxCeleb ay isang malaking-scale na speech identification dataset na awtomatikong nabuo mula sa open-source na media. Ang VoxCeleb ay may higit sa isang milyong mga pagbigkas mula sa higit sa 6k na nagsasalita.

Dahil ang dataset ay may kasamang audio-visual, maaari itong magamit para sa iba't ibang karagdagang application, kabilang ang visual speech synthesis, speech separation, cross-modal na paglipat mula sa mukha patungo sa boses o vice versa, at pagsasanay sa pagkilala sa mukha mula sa video upang madagdagan ang kasalukuyang pagkilala sa mukha. mga dataset.

11. SIXray

Kasama sa SIXray dataset ang 1,059,231 X-ray na mga larawan na nakalap mula sa mga istasyon ng subway at na-annotate ng mga human security inspector para makita ang anim na pangunahing uri ng mga ipinagbabawal na bagay: mga pistola, kutsilyo, wrenches, pliers, gunting, at martilyo. Higit pa rito, ang mga bounding box para sa bawat hindi pinapayagang item ay manu-manong idinagdag sa mga set ng pagsubok upang masuri ang pagganap ng localization ng object.

12. Mga Aksidente sa US

Ang sangkap ng proyekto ay naihayag na sa pangalan ng dataset, US Accidents. Kasama sa dataset na ito sa mga aksidente sa sasakyan sa buong bansa ang impormasyon mula Pebrero 2016 hanggang Disyembre 2021 at sumasaklaw sa 49 na estado sa USA.

Humigit-kumulang 1.5 milyong rekord ng aksidente ang naroroon na ngayon sa koleksyong ito. Nakuha ito sa real-time sa pamamagitan ng paggamit ng ilang mga API ng trapiko.

Ang mga API na ito ay nagpapadala ng impormasyon sa trapiko na nakalap mula sa iba't ibang mga mapagkukunan, kabilang ang mga camera ng trapiko, mga organisasyong nagpapatupad ng batas, at mga departamento ng transportasyon ng US at estado.

13. Pagkilala sa Sakit sa Mata

Ang organisadong database ng ophthalmic na Ocular Disease Intelligent Recognition (ODIR) ay naglalaman ng impormasyon sa 5,000 mga pasyente, kabilang ang kanilang edad, ang kulay ng fundus sa kanilang kaliwa at kanang mata, at mga diagnostic na keyword ng mga medikal na propesyonal.

Ang dataset na ito ay isang aktwal na koleksyon ng data ng pasyente mula sa iba't ibang ospital at pasilidad na medikal sa China na nakuha ng Shanggong Medical Technology Co., Ltd.. Sa pamamahala ng kontrol sa kalidad, ang mga anotasyon ay na-tag ng mga bihasang tao na mambabasa.

14. Sakit sa puso

Ang dataset ng sakit sa Puso na ito ay tumutulong sa pagtukoy ng pagkakaroon ng sakit sa puso sa isang pasyente batay sa 76 na parameter gaya ng edad, kasarian, uri ng pananakit ng dibdib, presyon ng dugo sa pagpapahinga, at iba pa.

Sa 303 na kaso, hinahangad ng database na ibahin lamang ang pagkakaroon ng isang sakit (value 1,2,3,4) mula sa kawalan nito (value 0).

15. CLEVR

Ginagaya ng CLEVR dataset (Compositional Language and Elementary Visual Reasoning) ang Visual Question Answering. Binubuo ito ng mga larawan ng mga bagay na na-render ng 3D, na ang bawat larawan ay sinamahan ng isang serye ng mga tanong na may mataas na komposisyon na nahahati sa ilang kategorya.

Para sa lahat ng larawan at tanong ng tren at pagpapatunay, ang dataset ay binubuo ng 70,000 larawan at 700,000 tanong para sa pagsasanay, 15,000 larawan at 150,000 tanong para sa pagpapatunay, at 15,000 larawan at 150,000 tanong para sa pagsubok na kinasasangkutan ng mga bagay, tugon, mga graph ng programa sa pagganap.

16. Universal Dependencies

Ang proyektong Universal Dependencies (UD) ay naglalayong lumikha ng cross-linguistically uniform morphology at syntax treebank annotation para sa maraming wika. Ang bersyon 2.7, na inilabas noong 2020, ay mayroong 183 treebanks sa 104 na wika.

Binubuo ang anotasyon ng mga unibersal na tag ng POW, mga ulo ng pagdepende, at mga label ng unibersal na dependency.

17. KITTI – 360

Isa sa pinakamadalas na ginagamit na mga dataset para sa mga mobile robot at autonomous na pagmamaneho ay KITTI (Karlsruhe Institute of Technology at Toyota Technological Institute).

Binubuo ito ng mga oras na halaga ng mga sitwasyon ng trapiko na nakunan gamit ang isang hanay ng mga sensor modalities, tulad ng high-resolution na RGB, grayscale stereo, at 3D laser scanner camera. Ang dataset ay napabuti sa paglipas ng panahon ng ilang mananaliksik na manu-manong nag-annotate ng iba't ibang bahagi nito upang umangkop sa kanilang mga pangangailangan.

18. MOT(Multiple Object Tracking)

Ang MOT (Multiple Object Tracking) ay isang dataset para sa maramihang object tracking na kinabibilangan ng mga panloob at panlabas na tanawin ng mga pampublikong lokasyon na kinabibilangan ng mga pedestrian bilang mga bagay na kinaiinteresan. Ang video ng bawat eksena ay nahahati sa dalawang piraso, isa para sa pagsasanay at isa para sa pagsubok.

Kasama sa dataset mga pagtuklas ng bagay sa mga video frame gamit ang tatlong detector: SDP, Faster-RCNN, at DPM.

19. PASCAL 3D+

Ang Pascal3D+ multi-view na dataset ay binubuo ng mga larawang nakolekta sa ligaw, ibig sabihin, mga larawan ng mga kategorya ng item na may mataas na pagkakaiba-iba, nakunan sa hindi nakokontrol na mga pangyayari, sa masikip na kapaligiran, at sa iba't ibang posisyon. Kasama sa Pascal3D+ ang 12 matibay na kategorya ng bagay na nakuha mula sa dataset ng PASCAL VOC 2012.

Ang mga item na ito ay may posture na impormasyon na minarkahan sa mga ito (azimuth, elevation, at distansya sa camera). Kasama rin sa Pascal3D+ ang mga pose-annotated na larawan mula sa koleksyon ng ImageNet sa 12 kategoryang ito.

20. Mga Modelong Nababago sa Mukha ng mga Hayop

Ang layunin ng proyektong Facial Deformable Models of Animals (FDMA) ay hamunin ang mga kasalukuyang pamamaraan sa pagkilala at pagsubaybay sa palatandaan ng mukha ng tao at bumuo ng mga bagong algorithm na maaaring harapin ang mas malaking pagkakaiba-iba na katangian ng mga katangian ng mukha ng hayop.

Ang mga algorithm ng proyekto ay nagpakita ng kakayahang kilalanin at subaybayan ang mga palatandaan sa mga mukha ng tao habang nakikitungo sa mga pagkakaiba-iba na dulot ng mga pagbabago sa mga emosyon o posisyon sa mukha, mga bahagyang occlusion, at liwanag.

21. MPII Human Post Dataset

Ang MPII Human Pose Dataset ay naglalaman ng humigit-kumulang 25K na larawan, 15K sa mga ito ay mga sample ng pagsasanay, 3K sa mga ito ay mga sample ng pagpapatunay, at 7K sa mga ito ay mga sample ng pagsubok.

Ang mga posisyon ay manu-manong may label na may hanggang 16 na kasukasuan ng katawan, at ang mga larawan ay kinuha mula sa mga pelikula sa YouTube na sumasaklaw sa 410 iba't ibang aktibidad ng tao.

22. UCF101

Ang dataset ng UCF101 ay naglalaman ng 13,320 video clip na nakaayos sa 101 kategorya. Ang 101 kategoryang ito ay nahahati sa limang kategorya: galaw ng katawan, pakikipag-ugnayan ng tao-tao, pakikipag-ugnayan ng tao-bagay, pagtugtog ng instrumentong pangmusika, at palakasan.

Ang mga video ay mula sa YouTube at binubuo ng 27 oras ang tagal.

23. Audioset

Ang Audioset ay isang audio na dataset ng kaganapan na binubuo ng higit sa 2 milyong mga segment ng video na 10 segundong na-annotate ng tao. Upang i-annotate ang data na ito, ginagamit ang isang hierarchical ontology na binubuo ng 632 na uri ng kaganapan, na nagpapahiwatig na ang parehong tunog ay maaaring iba-iba ang label.

24. Stanford Natural Language Inference

Ang SNLI dataset (Stanford Natural Language Inference) ay naglalaman ng 570k mga pagpapares ng pangungusap na manual na ikinategorya bilang entailment, kontradiksyon, o neutral.

Ang mga nasasakupan ay mga paglalarawan ng larawan ng Flickr30k, habang ang mga hypotheses ay binuo ng mga annotator na pinagmumulan ng karamihan na binigyan ng premise at inutusang bumuo ng mga nakakaakit, sumasalungat, at neutral na mga pahayag.

25. Visual na Pagsagot sa Tanong

Ang Visual Question Answering (VQA) ay isang dataset na naglalaman ng mga bukas na tanong tungkol sa mga larawan. Upang masagot ang mga tanong na ito, kailangan mong maunawaan ang paningin, wika, at sentido komun.

Konklusyon

Habang nagiging laganap ang machine learning at artificial intelligence (AI) sa halos lahat ng negosyo at sa ating pang-araw-araw na buhay, ganoon din ang bilang ng mga mapagkukunan at impormasyong magagamit sa paksa.

Ang mga ready-made na pampublikong dataset ay nagbibigay ng magandang panimulang punto upang bumuo ng mga modelo ng AI habang pinapayagan din ang mga batikang ML programmer na makatipid ng oras at tumuon sa iba pang elemento ng kanilang mga proyekto.

Pinakamahusay na Alternatibong AI Training Dataset

25 Pinakamahusay na Alternatibong AI Training Dataset

1. Dataset ng Mga Katangian ng CelebFaces

2. DOTA

3. Dataset ng paghahambing ng Google Facial Expression

4. Visual Genome

5. LibriSpeech

6. Ang Cityspaces

7. Dataset ng Kinetics

8. CelebAMask-HQ

9. Penn Treebank

10. VoxCeleb

11. SIXray

12. Mga Aksidente sa US

13. Pagkilala sa Sakit sa Mata

14. Sakit sa puso

15. CLEVR

16. Universal Dependencies

17. KITTI – 360

18. MOT(Multiple Object Tracking)

19. PASCAL 3D+

20. Mga Modelong Nababago sa Mukha ng mga Hayop

21. MPII Human Post Dataset

22. UCF101

23. Audioset

24. Stanford Natural Language Inference

25. Visual na Pagsagot sa Tanong

Konklusyon

tungkol sa Ibon ng dyey

Higit pang Mga Artikulo sa HashDork:

Paano Bawasan ang Mga Hallucination sa Iyong AI

Colossyan vs Heygen

Hindi Nakakapagod ang Future Tech Newsletter na ito

25 Pinakamahusay na Alternatibong AI Training Dataset

1. Dataset ng Mga Katangian ng CelebFaces

2. DOTA

3. Dataset ng paghahambing ng Google Facial Expression

4. Visual Genome

5. LibriSpeech

6. Ang Cityspaces

7. Dataset ng Kinetics

8. CelebAMask-HQ

9. Penn Treebank

10. VoxCeleb

11. SIXray

12. Mga Aksidente sa US

13. Pagkilala sa Sakit sa Mata

14. Sakit sa puso

15. CLEVR

16. Universal Dependencies

17. KITTI – 360

18. MOT(Multiple Object Tracking)

19. PASCAL 3D+

20. Mga Modelong Nababago sa Mukha ng mga Hayop

21. MPII Human Post Dataset

22. UCF101

23. Audioset

24. Stanford Natural Language Inference

25. Visual na Pagsagot sa Tanong

Konklusyon

tungkol sa Ibon ng dyey

Higit pang Mga Artikulo sa HashDork:

Paano Bawasan ang Mga Hallucination sa Iyong AI

10 Pinakamahusay na AI Tools para sa Social Media

Colossyan vs Heygen

10 Pinakamahusay na AI Animated Video Maker Tools

reader Interactions

Mag-iwan ng Sagot Kanselahin ang sumagot

Hindi Nakakapagod ang Future Tech Newsletter na ito