25 AI prestakuntzako datu-multzo alternatibo onenak (2024)

Gaur egun, gutako gehienak ikaskuntza automatikoa eta AI ereduak garatzen eta gaiak uneko datu multzoak erabiliz bideratzen ditugu. Baina lehenik eta behin, datu multzo bat definitu behar dugu, bere garrantzia eta AI eta ML irtenbide sendoak garatzeko duen eginkizuna.

Gaur egun, kode irekiko datu-multzo ugari ditugu, hainbat sektoretako mundu errealeko arazoei aurre egiteko ikertu edo aplikazioak garatzeko.

Hala ere, kalitate handiko datu multzo kuantitatiboen eskasia kezka iturri da. Datuak izugarri igo dira eta aurrerantzean ere erritmo azkarragoan hedatzen jarraituko dute.

Argitalpen honetan, zure hurrengo AI proiektua garatzeko erabil ditzakezun doako datu multzoak landuko ditugu.

1. CelebFaces Atributuen Datu multzoa

CelebFaces Attributes Dataset (CelebA) 200 argazki ospetsu baino gehiago eta 40 atributu-oharpen ditu irudi bakoitzeko, eta abiapuntu bikaina da, hala nola, proiektuetarako. aurpegi aitorpena, aurpegien detekzioa, mugarri (edo aurpegiko osagaia) lokalizazioa eta aurpegien edizioa eta sintesia. Gainera, bilduma honetako argazkiek posizio-aldaera eta atzeko planoaren nahasmendu ugari dituzte.

2. DOTA

DOTA (Dataset of Objektuen detekzioa Aerial Photos-en) objektuak detektatzeko eskala handiko datu-multzo bat da, 15 kategoria arrunt barne hartzen dituena (adibidez, itsasontzia, hegazkina, autoa, etab.), 1411 irudi entrenamendurako eta 458 irudi baliozkotzeko.

3. Google Aurpegi Adierazpenen alderaketa datu-multzoa

Google aurpegiko espresioak alderatzeko datu multzoak 500,000 argazki hirukote inguru ditu, 156,000 aurpegiko argazki barne. Aipatzekoa da datu-multzo honetako hirukote bakoitza gutxienez sei giza ebaluatzaileek ohartarazi zutela.

Datu-multzo hau baliagarria da aurpegien espresioaren analisia dakarten proiektuetarako, hala nola, espresioan oinarritutako irudien berreskurapena, emozioen kategorizazioa, espresioaren sintesia, etab. Datu-multzorako sarbidea izateko, formulario labur bat bete behar da.

4. Ikusmen Genoma

Ikusizko Galdera Erantzuteko datuak aukera anitzeko ingurune batean eskuragarri daude Visual Genome-n. 101,174 MSCOCO argazkiz osatuta dago 1.7 milioi QA bikoterekin, batez beste 17 galdera irudi bakoitzeko.

Visual Question Answering datu-multzoarekin alderatuta, Visual Genome datu-multzoak banaketa justuagoa du sei galdera-motetan: Zer, Non, Noiz, Nor, Zergatik eta Nola.

Horrez gain, Visual Genome datu-multzoak objektu, propietate eta konexioekin asko etiketatuak izan diren 108K argazkiak biltzen ditu.

5. LibriSpeech

LibriSpeech corpusa LibriVox proiektuko 1,000 ordu inguruko audioliburuen bilduma da. Audio-liburu gehienak Project Gutenberg-en jatorria dira.

Prestakuntza-datuak 100 ordu, 360 ordu eta 500 orduko multzoko hiru partiziotan banatzen dira, garapen- eta proba-datuek audioaren iraupena 5 ordukoa dute gutxi gorabehera.

6. Hiriguneak

Hiri-ikuspegiak dituzten bideo estereoen datu-base ezagunenetako bat The Cityscapes deitzen da.

GPS kokapenak, kanpoko tenperatura, ego-mugimenduaren datuak eta perspektiba estereo egokiak biltzen dituzten pixel-zehatzak diren oharpenekin, Alemaniako 50 hiri ezberdinetako grabaketak biltzen ditu.

7. Zinetika Datu multzoa

Giza jarduera eskala handian eta kalitate onean ezagutzeko bideo-datu multzo ezagunenetako bat Kinetics datu-multzoa da. Gutxienez 600 bideoklip daude giza jarduerako 600 klaseetako bakoitzean, guztira 500,000 baino gehiago guztira.

Filmak YouTubetik atera ziren; bakoitzak 10 segundo inguruko iraupena du eta jarduera-klase bakarra du zerrendatuta.

8. CelebAMsk-HQ

CelebAMask-HQ bereizmen handiko 30,000 aurpegiko argazkien bilduma bat da, arretaz ohartarazitako maskarekin eta aurpegiko osagaiak dituzten 19 klaseekin, hala nola azala, sudurra, begiak, bekainak, belarriak, ahoa, ezpainak, ilea, txanoa, betaurrekoak, belarritakoak, lepokoa, lepoa, materiala.

Datu-multzoa aurpegien ezagutza, aurpegien analisia eta GANak probatzeko eta entrenatzeko erabil daiteke aurpegiak sortzeko eta editatzeko algoritmoetarako.

9. Penn Treebank

Sekuentzia-etiketatzeko ereduen ebaluaziorako corpus aipagarrienetakoa eta maiz erabiltzen den bat ingelesezko Penn Treebank (PTB) corpusa da, bereziki Wall Street Journal-eko artikuluei dagokien corpusaren zatia.

Hitz bakoitzak bere diskurtsoaren zatia zereginaren osagai gisa etiketatu behar du. Pertsonaia-maila eta hitz-maila hizkuntza eredua corpusa ere maiz erabiltzen du.

10. VoxCeleb

VoxCeleb automatikoki sortutako hizketa identifikatzeko datu multzoa da kode irekiko komunikabideak. VoxCeleb-ek milioi bat esaldi baino gehiago ditu 6k hiztun baino gehiagoren eskutik.

Datu-multzoak ikus-entzunezkoak barne hartzen dituenez, hainbat aplikazio gehigarritarako erabil daiteke, besteak beste, hizkeraren sintesi bisuala, hizkera bereiztea, transferentzia transmodala aurpegitik ahotsera edo alderantziz, eta bideotik aurpegi-ezagutza entrenatzeko, egungo aurpegi-ezagutza osatzeko. datu multzoak.

11. SIXray

SIXray datu-multzoak 1,059,231 X izpien argazki biltzen ditu metro geltokietatik bildutako eta giza segurtasuneko ikuskatzaileek ohartaraziak debekatutako sei elementu nagusi detektatzeko: pistolak, labanak, giltzak, aliketak, guraizeak eta mailuak. Gainera, baimendu gabeko elementu bakoitzaren muga-koadroak eskuz gehitu dira proba-multzoetan, objektuen lokalizazioaren errendimendua ebaluatzeko.

12. AEBetako istripuak

Proiektuaren substantzia datu multzoaren izenak agerian uzten du dagoeneko, AEBetako istripuak. Nazio mailako auto-istripuei buruzko datu multzo honek 2016ko otsailetik 2021eko abendura arteko informazioa biltzen du eta AEBko 49 estatu hartzen ditu.

Bilduma honetan 1.5 milioi istripu-erregistro inguru daude orain. Denbora errealean bildu zen hainbat trafiko API erabiliz.

API hauek hainbat iturritatik jasotako trafiko-informazioa transmititzen dute, besteak beste, trafiko-kameretatik, legea betearazteko erakundeetatik eta AEBetako eta estatuko garraio-sailetatik.

13. Begietako gaixotasunen aitorpena

Antolatutako datu-base oftalmikoak Ocular Disease Intelligent Recognition (ODIR) 5,000 pazienteri buruzko informazioa biltzen du, haien adina, ezkerreko eta eskuineko begietako fundusaren kolorea eta mediku profesionalen diagnostiko-hitzak barne.

Datu-multzo hau Shanggong Medical Technology Co., Ltd.-k eskuratu duen Txinako hainbat ospitale eta mediku instalaziotako pazienteen datuen benetako bilduma da. Horrekin kalitate kontrolaren kudeaketa, oharrak giza irakurle trebeek etiketatu zituzten.

14. Bihotz gaixotasuna

Bihotzeko gaixotasunen datu-multzo honek paziente baten bihotzeko gaixotasuna dagoen identifikatzen laguntzen du 76 parametrotan oinarrituta, hala nola adina, sexua, bularreko mina mota, atsedeneko odol-presioa, etab.

303 kasurekin, datu-baseak gaixotasun baten existentzia (1,2,3,4 balioa) eta eza (0 balioa) bereiztea bilatzen du.

15. CLEVR

CLEVR datu-multzoak (Compositional Language and Elementary Visual Reasoning) galdera-erantzun bisuala imitatzen du. 3D-n errendatutako objektuen argazkiek osatzen dute, argazki bakoitza konposizio handiko galdera sorta batekin batera hainbat kategoriatan banatuta.

Tren- eta baliozkotze-irudi eta galdera guztietarako, datu-multzoak 70,000 argazki eta 700,000 galdera ditu entrenamendurako, 15,000 irudi eta 150,000 galdera baliozkotzeko, eta 15,000 irudi eta 150,000 galdera, objektuak, erantzunak, eszena-programak eta funtzio-programak dituzten probak egiteko.

16. Mendekotasun Unibertsalak

Mendekotasun Unibertsalak (UD) proiektuak hizkuntza anitzeko morfologia eta sintaxi-zuhaitz-bankuko ohartarazpen uniformeak sortzea du helburu. 2.7an kaleratu zen 2020 bertsioak 183 zuhaitz-banku ditu 104 hizkuntzatan.

Oharpena POW etiketa unibertsalek, menpekotasun-buruek eta mendekotasun unibertsalek osatzen dute.

17. KITTI – 360

Robot mugikorrentzako eta gehien erabiltzen den datu-multzoetako bat gidaritza autonomoa KITTI (Karlsruhe Institute of Technology eta Toyota Technological Institute) da.

Zenbait sentsore-modalitate erabiliz harrapatutako ordu askotako trafiko-egoerek osatzen dute, hala nola, bereizmen handiko RGB, gris-eskala estereoa eta 3D laser eskaner kamerak. Datu-multzoa denboran zehar hobetu dute hainbat ikertzailek, eskuz idatzitako hainbat zati haien beharretara egokitzeko.

18. MOT (Objektu Anitzen Jarraipena)

MOT (Multiple Object Tracking) objektu anitzen jarraipenerako datu-multzo bat da, eta kokapen publikoetako barruko eta kanpoko paisaiak barne hartzen ditu, eta oinezkoak objektu gisa hartzen ditu interesgarri. Eszena bakoitzaren bideoa bi zatitan banatzen da, bata entrenatzeko eta bestea probak egiteko.

Datu multzoak barne hartzen ditu objektuen detekzioak bideo-marketan hiru detektagailu erabiliz: SDP, Faster-RCNN eta DPM.

19. PASCAL 3D+

Pascal3D+ ikuspegi anitzeko datu-multzoa basatian bildutako argazkiek osatzen dute, hau da, aldakortasun handiko elementu-kategorien irudiek, kontrolatu gabeko egoeratan, jendez gainezka dauden inguruneetan eta hainbat posiziotan hartutakoak. Pascal3D+-k PASCAL VOC 12 datu-multzotik ateratako 2012 objektu-kategoria ditu.

Elementu hauek jarrerari buruzko informazioa dute markatuta (azimutua, kota eta kamerarekiko distantzia). Pascal3D+-k ImageNet bildumako pose-anotatutako argazkiak ere biltzen ditu 12 kategoria hauetan.

20. Animalien Aurpegi Deformagarrien Modeloak

Facial Deformable Models of Animals (FDMA) proiektuaren helburua gizakien aurpegiko mugarrien identifikazio eta jarraipenerako egungo metodologiak zalantzan jartzea eta animalien aurpegien ezaugarriek duten aldakortasun dezente handiagoari aurre egin ahal izango dioten algoritmo berriak garatzea da.

Proiektuaren algoritmoek giza aurpegietan mugarriak ezagutzeko eta jarraitzeko gaitasuna erakutsi zuten aurpegiko emozioen edo posizioen aldaketek, oklusio partzialak eta argiztapenak eragindako aldaketei aurre eginez.

21. MPII Giza Post Datu multzoa

MPII Human Pose Dataset-ek 25K argazki inguru ditu, horietatik 15K entrenamendu-laginak, 3K baliozkotze-laginak eta 7K proba-laginak.

Posizioak eskuz etiketatzen dira 16 gorputz artikulaziorekin, eta argazkiak 410 giza jarduera ezberdin biltzen dituzten YouTube filmetatik ateratakoak dira.

22. UCF101

UCF101 datu multzoak 13,320 bideoklip ditu 101 kategoriatan antolatuta. 101 kategoria hauek bost kategoriatan banatzen dira: gorputz-mugimenduak, gizakiaren eta gizakiaren arteko elkarrekintzak, gizakiaren eta objektuen arteko elkarrekintzak, musika-tresnen jotzea eta kirolak.

Bideoak YouTubekoak dira eta 27 orduko iraupena dute.

23. Audio multzoa

Audioset audio-gertaeren datu-multzo bat da, gizakiek ohartarazitako 2 segundoko 10 milioi bideo-segmentu baino gehiagoz osatua. Datu hauen oharrak egiteko, 632 gertaera motak osatutako ontologia hierarkikoa erabiltzen da, eta horrek esan nahi du soinu bera modu ezberdinean etiketatu daitekeela.

24. Stanford hizkuntza naturalaren inferentzia

SNLI datu-multzoak (Stanford Natural Language Inference) 570 esaldi-bikote ditu, eskuz lotuta, kontraesan edo neutral gisa sailkatu direnak.

Premisak Flickr30k irudien deskribapenak dira, eta hipotesiak, berriz, jendetza-iturburuko komentarioek garatu zituzten, premisa bat eman zieten eta adierazpen inplikatuak, kontraesankoak eta neutralak sortzeko agindua eman zieten.

25. Ikusizko Galdera Erantzuna

Visual Question Answering (VQA) argazkiei buruzko galdera irekiak dituen datu multzo bat da. Galdera horiei erantzuteko, ikusmena, hizkuntza eta zentzua ulertu behar dituzu.

Ondorioa

Ikaskuntza automatikoa eta adimen artifiziala (IA) ia negozio guztietan eta gure eguneroko bizitzan gehiago nagusitzen diren heinean, gaiari buruz eskuragarri dauden baliabide eta informazio kopuruak gora egiten du.

Prestatutako datu-multzo publikoek abiapuntu bikaina eskaintzen dute AI ereduak garatzeko, eta, aldi berean, ML programatzaile trebeei denbora aurrezteko eta beren proiektuetako beste elementu batzuetan zentratu ahal izateko.

25 AI prestakuntza-datu alternatibo onenak

1. CelebFaces Atributuen Datu multzoa

2. DOTA

3. Google Aurpegi Adierazpenen alderaketa datu-multzoa

4. Ikusmen Genoma

5. LibriSpeech

6. Hiriguneak

7. Zinetika Datu multzoa

8. CelebAMsk-HQ

9. Penn Treebank

10. VoxCeleb

11. SIXray

12. AEBetako istripuak

13. Begietako gaixotasunen aitorpena

14. Bihotz gaixotasuna

15. CLEVR

16. Mendekotasun Unibertsalak

17. KITTI – 360

18. MOT (Objektu Anitzen Jarraipena)

19. PASCAL 3D+

20. Animalien Aurpegi Deformagarrien Modeloak

21. MPII Giza Post Datu multzoa

22. UCF101

23. Audio multzoa

24. Stanford hizkuntza naturalaren inferentzia

25. Ikusizko Galdera Erantzuna

Ondorioa

buruz Jay

HashDork-i buruzko artikulu gehiago:

Nola murriztu haluzinazioak zure AIan

Colossyan vs Heygen

Etorkizuneko Tech Buletin honek ez du huts egiten

25 AI prestakuntza-datu alternatibo onenak

1. CelebFaces Atributuen Datu multzoa

2. DOTA

3. Google Aurpegi Adierazpenen alderaketa datu-multzoa

4. Ikusmen Genoma

5. LibriSpeech

6. Hiriguneak

7. Zinetika Datu multzoa

8. CelebAMsk-HQ

9. Penn Treebank

10. VoxCeleb

11. SIXray

12. AEBetako istripuak

13. Begietako gaixotasunen aitorpena

14. Bihotz gaixotasuna

15. CLEVR

16. Mendekotasun Unibertsalak

17. KITTI – 360

18. MOT (Objektu Anitzen Jarraipena)

19. PASCAL 3D+

20. Animalien Aurpegi Deformagarrien Modeloak

21. MPII Giza Post Datu multzoa

22. UCF101

23. Audio multzoa

24. Stanford hizkuntza naturalaren inferentzia

25. Ikusizko Galdera Erantzuna

Ondorioa

buruz Jay

HashDork-i buruzko artikulu gehiago:

Nola murriztu haluzinazioak zure AIan

Sare sozialetarako 10 AI tresna onenak

Colossyan vs Heygen

10 AI animaziozko bideoak sortzeko tresna onenak

Reader elkarrekintzak

Utzi erantzun bat Utzi erantzuna

Etorkizuneko Tech Buletin honek ez du huts egiten