Seti 25 Bora za Hifadhidata za Mafunzo ya AI (2024)

Siku hizi, wengi wetu tunalenga kukuza ujifunzaji wa mashine na miundo ya AI na kushughulikia masuala kwa kutumia hifadhidata za sasa. Lakini kwanza, lazima tufafanue seti ya data, umuhimu wake, na jukumu lake katika kutengeneza masuluhisho madhubuti ya AI na ML.

Leo, tuna mkusanyiko wa hifadhidata huria ambapo tunaweza kufanya utafiti au kutengeneza programu za kushughulikia masuala ya ulimwengu halisi katika sekta mbalimbali.

Walakini, uhaba wa seti za data za ubora wa juu ni chanzo cha wasiwasi. Data imeongezeka sana na itaendelea kupanuka kwa kasi zaidi katika siku zijazo.

Katika chapisho hili, tutashughulikia hifadhidata zinazopatikana bila malipo ambazo unaweza kutumia kukuza mradi wako unaofuata wa AI.

1. Seti ya Data ya Sifa za CelebFaces

CelebFaces Attributes Dataset (CelebA) ina zaidi ya picha 200K za watu mashuhuri na maelezo 40 ya sifa kwa kila picha, na kuifanya kuwa mahali pazuri pa kuanzia kwa miradi kama vile. utambuzi wa uso, utambuzi wa nyuso, ujanibishaji wa alama (au sehemu ya uso) na uhariri wa nyuso & usanisi. Zaidi ya hayo, picha katika mkusanyiko huu zina anuwai ya anuwai ya nafasi na mpangilio wa mandhari.

2. DOTA

DOTA (Mchanganyiko wa Kugundua Kitu katika Picha za Angani) ni mkusanyiko mkubwa wa data wa utambuzi wa kitu unaojumuisha kategoria 15 za kawaida (kwa mfano, meli, ndege, gari, n.k.), picha 1411 za mafunzo, na picha 458 za uthibitishaji.

3. Seti ya data ya kulinganisha ya Google Facial Expression

Seti ya data ya Google ya kulinganisha mwonekano wa uso ina takriban picha tatu 500,000, zikiwemo picha 156,000 za nyuso. Inafaa kukumbuka kuwa kila sehemu tatu katika mkusanyiko huu wa data zilifafanuliwa na angalau watu sita wakadiriaji.

Seti hii ya data ni muhimu kwa miradi inayohusisha uchanganuzi wa sura ya uso, kama vile kurejesha picha kulingana na usemi, uainishaji wa hisia, usanisi wa usemi, na kadhalika. Ili kupata ufikiaji wa seti ya data, ni lazima fomu fupi ijazwe.

4. Genome ya Kuonekana

Data ya Kujibu ya Maswali yanayoonekana katika mazingira ya chaguo-nyingi inapatikana katika Visual Genome. Inaundwa na picha 101,174 za MSCOCO zenye jozi za QA milioni 1.7, na wastani wa maswali 17 kwa kila picha.

Ikilinganishwa na seti ya data ya Kujibu Maswali ya Visual, seti ya data ya Visual Genome ina mgawanyo wa haki katika aina sita za maswali: Nini, Wapi, Lini, Nani, Kwanini na Jinsi Gani.

Kwa kuongezea, seti ya data ya Visual Genome inajumuisha picha 108K ambazo zimetambulishwa kwa wingi na vitu, sifa na miunganisho.

5. LibriSpeech

Kongamano la LibriSpeech ni mkusanyiko wa takriban saa 1,000 za vitabu vya sauti kutoka kwa mradi wa LibriVox. Vitabu vingi vya sauti vinatoka kwa Project Gutenberg.

Data ya mafunzo imegawanywa katika sehemu tatu za seti za 100hr, 360hr, na 500hr, wakati data ya dev na majaribio ni takriban 5hr kwa urefu wa sauti.

6. Nafasi za Jiji

Mojawapo ya hifadhidata kubwa inayojulikana zaidi ya video za stereo zilizo na maoni ya mijini inaitwa The Cityscapes.

Kwa ufafanuzi sahihi wa pikseli unaojumuisha maeneo ya GPS, halijoto ya nje, data ya mwendo wa mtu binafsi, na mitazamo sahihi ya stereo, inajumuisha rekodi kutoka miji 50 tofauti ya Ujerumani.

7. Seti ya data ya Kinetics

Mojawapo ya seti za data zinazojulikana zaidi za kutambua shughuli za binadamu kwa kiwango kikubwa na zenye ubora mzuri ni seti ya data ya Kinetics. Kuna angalau klipu za video 600 kwa kila darasa kati ya 600 za shughuli za binadamu, jumla ya zaidi ya 500,000 kwa jumla.

Filamu hizo zilitolewa kutoka YouTube; kila moja ina urefu wa sekunde 10 na ina darasa moja tu la shughuli lililoorodheshwa.

8. CelebAMask-HQ

CelebAMask-HQ ni mkusanyiko wa picha 30,000 za uso wa hali ya juu zilizo na vinyago vilivyofafanuliwa kwa uangalifu na madarasa 19 ambayo yanajumuisha vipengee vya uso kama vile ngozi, pua, macho, nyusi, masikio, mdomo, mdomo, nywele, kofia, glasi, hereni, mkufu, shingo, nyenzo.

Seti ya data inaweza kutumika kupima na kutoa mafunzo kwa utambuzi wa nyuso, uchanganuzi wa nyuso na GAN kwa kutengeneza uso na kuhariri algoriti.

9. Penn Treebank

Mojawapo ya shirika mashuhuri na linalotumika mara nyingi kwa tathmini ya miundo ya kuweka lebo za mfuatano ni shirika la English Penn Treebank (PTB), hasa sehemu ya shirika linalolingana na makala ya Wall Street Journal.

Kila neno lazima liwe na sehemu yake ya hotuba iliyotambulishwa kama sehemu ya kazi. Kiwango cha tabia na kiwango cha neno uundaji wa lugha pia mara nyingi hutumia corpus.

10. VoxCeleb

VoxCeleb ni mkusanyiko wa data wa utambulisho wa matamshi wa kiwango kikubwa unaozalishwa kiotomatiki vyombo vya habari vya chanzo-wazi. VoxCeleb ina zaidi ya matamshi milioni moja kutoka kwa zaidi ya spika 6k.

Kwa vile mkusanyiko wa data unajumuisha sauti-ya kuona, inaweza kutumika kwa matumizi mbalimbali ya ziada, ikiwa ni pamoja na usanisi wa usemi unaoonekana, utenganishaji wa usemi, uhamishaji wa hali tofauti kutoka uso hadi sauti au kinyume chake, na mafunzo ya utambuzi wa uso kutoka kwa video ili kuongeza utambuzi wa uso wa sasa. seti za data.

11. SIXray

Seti ya data ya SIXray inajumuisha picha 1,059,231 za X-ray zilizokusanywa kutoka kwa vituo vya treni ya chini ya ardhi na kufafanuliwa na wakaguzi wa usalama wa binadamu ili kugundua aina sita kuu za vitu vilivyokatazwa: bastola, visu, viunzi, koleo, mikasi na nyundo. Zaidi ya hayo, visanduku vya kufunga kwa kila kipengee kisichoruhusiwa vimeongezwa kwa mikono kwenye seti za majaribio ili kutathmini utendakazi wa ujanibishaji wa kitu.

12. Ajali za Marekani

Kiini cha mradi tayari kimefichuliwa kwa jina la seti ya data, Ajali za Marekani. Seti hii ya data kuhusu ajali za magari nchini kote inajumuisha taarifa kuanzia Februari 2016 hadi Desemba 2021 na inajumuisha majimbo 49 nchini Marekani.

Takriban rekodi za ajali milioni 1.5 sasa zipo kwenye mkusanyiko huu. Ilikusanywa kwa wakati halisi kwa kutumia API kadhaa za trafiki.

API hizi husambaza taarifa za trafiki zilizokusanywa kutoka vyanzo mbalimbali, ikiwa ni pamoja na kamera za trafiki, mashirika ya kutekeleza sheria, na idara za usafirishaji za Marekani na serikali.

13. Utambuzi wa Ugonjwa wa Ocular

Hifadhidata iliyopangwa ya Utambuzi wa Ugonjwa wa Ophthalmic (ODIR) ina taarifa kuhusu wagonjwa 5,000, ikiwa ni pamoja na umri wao, rangi ya fandasi katika macho yao ya kushoto na kulia, na maneno muhimu ya uchunguzi wa wataalamu wa matibabu.

Seti hii ya data ni mkusanyo halisi wa data ya wagonjwa kutoka hospitali mbalimbali na vituo vya matibabu nchini China ambayo Shanggong Medical Technology Co., Ltd. imepata. Na usimamizi wa udhibiti wa ubora, maelezo yaliwekwa alama na wasomaji wenye ujuzi wa kibinadamu.

14. Ugonjwa wa Moyo

Seti hii ya data ya magonjwa ya Moyo husaidia katika kubaini uwepo wa ugonjwa wa moyo kwa mgonjwa kulingana na vigezo 76 kama vile umri, jinsia, aina ya maumivu ya kifua, shinikizo la damu kupumzika, na kadhalika.

Kwa kesi 303, hifadhidata inataka kutofautisha tu uwepo wa ugonjwa (thamani 1,2,3,4) na kutokuwepo kwake (thamani 0).

15. CLEVR

Seti ya data ya CLEVR (Lugha Iliyotungiwa na Kutoa Sababu za Kimsingi za Kuona) inaiga Majibu ya Maswali yanayoonekana. Inajumuisha picha za vitu vilivyotolewa kwa 3D, na kila picha ikiambatana na mfululizo wa maswali ya utunzi uliogawanywa katika kategoria kadhaa.

Kwa picha na maswali yote ya treni na uthibitishaji, mkusanyiko wa data unajumuisha picha 70,000 na maswali 700,000 ya mafunzo, picha 15,000 na maswali 150,000 ya uthibitisho, na picha 15,000 na maswali 150,000 kwa ajili ya majaribio yanayohusisha vitu, majibu, michoro ya matukio na programu zinazofanya kazi.

16. Utegemezi wa Universal

Mradi wa Universal Dependencies (UD) unalenga kuunda mofolojia ya lugha mtambuka na ufafanuzi wa benki ya miti ya sintaksia kwa lugha nyingi. Toleo la 2.7, ambalo lilitolewa mnamo 2020, lina kingo za miti 183 katika lugha 104.

Kidokezo kinaundwa na lebo za POW za jumla, vichwa vya utegemezi, na lebo za utegemezi zima.

17. KITTI - 360

Moja ya seti za data zinazotumiwa mara nyingi kwa roboti za rununu na uhuru wa kuendesha gari ni KITTI (Taasisi ya Teknolojia ya Karlsruhe na Taasisi ya Teknolojia ya Toyota).

Inaundwa na matukio ya trafiki yenye thamani ya saa ambayo yalinaswa kwa kutumia mbinu mbalimbali za vitambuzi, kama vile kamera za RGB za ubora wa juu, stereo ya kijivujivu na kamera za skana za 3D. Seti ya data imeboreshwa kwa wakati na watafiti kadhaa ambao walifafanua kwa mikono sehemu mbalimbali zake ili kukidhi mahitaji yao.

18. MOT(Ufuatiliaji wa Vitu Nyingi)

MOT (Ufuatiliaji wa Vitu Vingi) ni mkusanyiko wa data wa ufuatiliaji wa vitu vingi unaojumuisha mandhari ya ndani na nje ya maeneo ya umma ambayo yanajumuisha watembea kwa miguu kama vitu vinavyowavutia. Kila video ya tukio imegawanywa katika vipande viwili, moja kwa ajili ya mafunzo na nyingine kwa ajili ya majaribio.

Seti ya data inajumuisha utambuzi wa vitu katika fremu za video kwa kutumia vigunduzi vitatu: SDP, Faster-RCNN, na DPM.

19. PASCAL 3D+

Seti ya data ya mionekano mingi ya Pascal3D+ imeundwa na picha zilizokusanywa porini, yaani, picha za kategoria za vipengee zenye utofauti mkubwa, zilizonaswa katika hali zisizodhibitiwa, katika mazingira yenye watu wengi, na katika nafasi mbalimbali. Pascal3D+ inajumuisha kategoria 12 za kitu kigumu kutoka kwa mkusanyiko wa data wa PASCAL VOC 2012.

Vipengee hivi vina maelezo ya mkao yaliyowekwa alama juu yao (azimuth, mwinuko, na umbali wa kamera). Pascal3D+ pia inajumuisha picha zenye maelezo ya pozi kutoka kwa mkusanyiko wa ImageNet katika kategoria hizi 12.

20. Miundo ya Wanyama Inayoharibika Usoni

Lengo la mradi wa Miundo ya Wanyama Wanaoharibika Usoni (FDMA) ni kupinga mbinu za sasa za utambuzi na ufuatiliaji wa alama za uso wa binadamu na kuunda kanuni mpya zinazoweza kukabiliana na tofauti kubwa zaidi ambayo ni sifa ya sifa za uso wa wanyama.

Kanuni za mradi zilionyesha uwezo wa kutambua na kufuatilia alama kwenye nyuso za binadamu huku ukishughulika na tofauti zinazosababishwa na mabadiliko ya mihemko au misimamo ya uso, kuziba kwa kiasi na mwanga.

21. Seti ya Data ya Posta ya Kibinadamu ya MPII

Seti ya Data ya MPII Pose ya Binadamu ina takriban picha 25K, 15K kati yake ni sampuli za mafunzo, 3K kati yake ni sampuli za uthibitishaji, na 7K kati yake ni sampuli za majaribio.

Nafasi hizo zimewekewa lebo ya hadi viungo 16 vya mwili, na picha zimechukuliwa kutoka kwa filamu za YouTube zinazohusu shughuli 410 mbalimbali za binadamu.

22. 101

Seti ya data ya UCF101 ina klipu za video 13,320 zilizopangwa katika kategoria 101. Kategoria hizi 101 zimegawanywa katika kategoria tano: mienendo ya mwili, mwingiliano wa mwanadamu na mwanadamu, mwingiliano wa vitu vya binadamu, uchezaji wa ala za muziki na michezo.

Video zinatoka YouTube na zinajumuisha saa 27 kwa muda.

23. Seti ya sauti

Seti ya sauti ni seti ya data ya tukio la sauti inayoundwa na zaidi ya sehemu milioni 2 za video za sekunde 10 zilizofafanuliwa na binadamu. Ili kufafanua data hii, ontolojia ya daraja inayojumuisha aina 632 za matukio hutumiwa, ambayo ina maana kwamba sauti sawa inaweza kuwekewa lebo tofauti.

24. Maoni ya Lugha Asilia ya Stanford

Seti ya data ya SNLI (Uchambuzi wa Lugha Asilia ya Stanford) ina michanganyiko ya sentensi ya 570k ambayo imeainishwa mwenyewe kama ujumuishaji, ukinzani, au upande wowote.

Majengo ni maelezo ya picha ya Flickr30k, ilhali dhahania zilitengenezwa na wafafanuzi kutoka kwa umati ambao walitolewa msingi na kuagizwa kutoa taarifa zinazojumuisha, zinazokinzana na zisizoegemea upande wowote.

25. Majibu ya Swali la Visual

Majibu ya Maswali ya Visual (VQA) ni mkusanyiko wa data ambao una maswali ya wazi kuhusu picha. Ili kujibu maswali haya, unahitaji kufahamu maono, lugha, na akili ya kawaida.

Hitimisho

Kadiri ujifunzaji wa mashine na akili bandia (AI) unavyozidi kuenea katika takriban kila biashara na katika maisha yetu ya kila siku, ndivyo idadi ya nyenzo na maelezo yanayopatikana kuhusu mada hiyo inavyoongezeka.

Seti za data za umma zilizo tayari kutoa mwanzo mzuri wa kuunda miundo ya AI huku pia ikiruhusu watengenezaji programu wa ML waliobobea kuokoa muda na kuzingatia vipengele vingine vya miradi yao.

Seti 25 Bora za Mafunzo ya AI Mbadala

1. Seti ya Data ya Sifa za CelebFaces

2. DOTA

3. Seti ya data ya kulinganisha ya Google Facial Expression

4. Genome ya Kuonekana

5. LibriSpeech

6. Nafasi za Jiji

7. Seti ya data ya Kinetics

8. CelebAMask-HQ

9. Penn Treebank

10. VoxCeleb

11. SIXray

12. Ajali za Marekani

13. Utambuzi wa Ugonjwa wa Ocular

14. Ugonjwa wa Moyo

15. CLEVR

16. Utegemezi wa Universal

17. KITTI - 360

18. MOT(Ufuatiliaji wa Vitu Nyingi)

19. PASCAL 3D+

20. Miundo ya Wanyama Inayoharibika Usoni

21. Seti ya Data ya Posta ya Kibinadamu ya MPII

22. 101

23. Seti ya sauti

24. Maoni ya Lugha Asilia ya Stanford

25. Majibu ya Swali la Visual

Hitimisho

kuhusu Jay

Nakala zaidi juu ya HashDork:

Jinsi ya Kupunguza Ushawishi katika AI yako

Koloseo dhidi ya Heygen

Jarida Hili la Future Tech halifai

Seti 25 Bora za Mafunzo ya AI Mbadala

1. Seti ya Data ya Sifa za CelebFaces

2. DOTA

3. Seti ya data ya kulinganisha ya Google Facial Expression

4. Genome ya Kuonekana

5. LibriSpeech

6. Nafasi za Jiji

7. Seti ya data ya Kinetics

8. CelebAMask-HQ

9. Penn Treebank

10. VoxCeleb

11. SIXray

12. Ajali za Marekani

13. Utambuzi wa Ugonjwa wa Ocular

14. Ugonjwa wa Moyo

15. CLEVR

16. Utegemezi wa Universal

17. KITTI - 360

18. MOT(Ufuatiliaji wa Vitu Nyingi)

19. PASCAL 3D+

20. Miundo ya Wanyama Inayoharibika Usoni

21. Seti ya Data ya Posta ya Kibinadamu ya MPII

22. 101

23. Seti ya sauti

24. Maoni ya Lugha Asilia ya Stanford

25. Majibu ya Swali la Visual

Hitimisho

kuhusu Jay

Nakala zaidi juu ya HashDork:

Jinsi ya Kupunguza Ushawishi katika AI yako

Zana 10 Bora za AI kwa Mitandao ya Kijamii

Koloseo dhidi ya Heygen

Zana 10 Bora za Kitengeneza Video za Uhuishaji za AI

msomaji Interactions

Acha Reply kufuta reply

Jarida Hili la Future Tech halifai