Enhavtabelo[Kaŝi][Montri]
- 1. CelebFaces Atributoj Datumaroj
- 2. DOTA
- 3. Guglo Vizaĝa Esprimo kompara datumaro
- 4. Vida Genaro
- 5. LibriSpeech
- 6. La Urbospacoj
- 7. Kinetika Datumaro
- 8. CelebAMask-HQ
- 9. Penn Treebank
- 10. VoxCeleb
- 11. SIX-radio
- 12. Usonaj Akcidentoj
- 13. Okula Malsano-Rekono
- 14. Kora Malsano
- 15. KLEVR
- 16. Universalaj Dependecoj
- 17. KITTI – 360
- 18. MOT (Spurado de Multobjektoj)
- 19. PASCAL 3D+
- 20. Vizaĝaj Deformeblaj Modeloj de Bestoj
- 21. MPII Homa Poŝta Datumaro
- 22. UCF101
- 23. Audioaro
- 24. Stanforda Natura Lingvo-Inferenco
- 25. Vida Demanda Respondo
- konkludo
Nuntempe, la plej multaj el ni koncentriĝas pri evoluigado de maŝinlernado kaj AI-modeloj kaj pritraktado de problemoj uzante aktualajn datumajn arojn. Sed unue, ni devas difini datumaron, ĝian signifon kaj ĝian rolon en evoluigado de fortaj AI kaj ML-solvoj.
Hodiaŭ ni havas multajn malfermfontajn datumarojn pri kiuj esplori aŭ evoluigi aplikojn por trakti realajn problemojn en diversaj sektoroj.
Tamen, la malabundeco de altkvalitaj kvantaj datumaroj estas fonto de maltrankvilo. Datumoj ege altiĝis kaj daŭre vastiĝos pli rapide en la estonteco.
En ĉi tiu afiŝo, ni kovros libere disponeblajn datumajn arojn, kiujn vi povas uzi por disvolvi vian venontan AI-projekton.
1. CelebFaces Atributoj Datumaroj
CelebFaces Attributes Dataset (CelebA) enhavas pli ol 200K famulajn fotojn kaj 40 atributajn komentadojn por ĉiu bildo, igante ĝin bonega deirpunkto por projektoj kiel ekzemple. vizaĝrekono, vizaĝdetekto, orientilo (aŭ vizaĝkomponento) lokalizado, kaj vizaĝredaktado kaj sintezo. Krome, la fotoj en ĉi tiu kolekto enhavas ampleksan gamon de pozicio-variaĵoj kaj fona malordo.
2. DOTA
DOTA (Datumaro de Detekta Objekto en Aerfotoj) estas grandskala datumaro por objektodetekto kiu inkluzivas 15 oftajn kategoriojn (ekz., ŝipo, aviadilo, aŭto, ktp.), 1411 bildojn por trejnado, kaj 458 bildojn por validumado.
3. Kompardatumaro de Google Facial Expression
La datumaro de komparado de vizaĝ-esprimoj de Guglo enhavas ĉirkaŭ 500,000 156,000 bildajn trinasktiojn, inkluzive de XNUMX XNUMX vizaĝfotoj. Indas noti, ke ĉiu triopo en ĉi tiu datumaro estis komentita de almenaŭ ses homaj taksantoj.
Ĉi tiu datumaro estas utila por projektoj engaĝantaj vizaĝ-esprim-analizon, kiel ekzemple esprim-bazita bilda rehavigo, emocia kategoriigo, esprimo-sintezo, ktp. Por akiri aliron al la datumaro, mallonga formularo devas esti kompletigita.
4. Vida Genaro
Vidaj Demandaj Respondaj datumoj en plurelekta medio estas haveblaj en Vida Genaro. Ĝi konsistas el 101,174 MSCOCO-fotoj kun 1.7 milionoj QA-paroj, kun mezumo de 17 demandoj per bildo.
Kompare al la Vida Demando-Responda datumaro, la Vida Genoma datumaro havas pli justan distribuon tra ses demandspecoj: Kio, Kie, Kiam, Kiu, Kial kaj Kiel.
Krome, la Vida Genaro-datumaro inkluzivas 108K fotojn, kiuj estis forte etikeditaj kun objektoj, propraĵoj kaj ligoj.
5. LibriSpeech
La LibriSpeech-korpuso estas kolekto de ĉirkaŭ 1,000 horoj da aŭdlibroj de la projekto LibriVox. La plimulto de la aŭdlibroj originas de Projekto Gutenberg.
La trejnaj datumoj estas dividitaj en tri sekciojn de 100hr, 360hr, kaj 500hr aroj, dum la dev- kaj testaj datumoj estas proksimume 5hr en sona longo.
6. La Urbospacoj
Unu el la plej konataj grandskalaj datumbazoj de stereofilmoj kun urbaj vidoj nomiĝas La Urbaj Pejzaĝoj.
Kun piksel-precizaj komentarioj, kiuj inkluzivas GPSajn lokojn, la subĉielan temperaturon, ego-movadajn datumojn kaj ĝustajn stereoajn perspektivojn, ĝi inkluzivas registradojn de 50 apartaj germanaj urboj.
7. Kinetika datumaro
Unu el la plej konataj video-datumseroj por rekoni homan aktivecon grandskale kaj kun bona kvalito estas la Kinetics-datumaro. Estas almenaŭ 600 filmetoj por ĉiu el la 600 klasoj de homa aktiveco, entute pli ol 500,000.
La filmoj estis tiritaj de Jutubo; ĉiu estas ĉirkaŭ 10 sekundoj longa kaj havas nur unu agadklason listigita.
8. CelebAMask-HQ
CelebAMask-HQ estas kolekto de 30,000 alt-rezoluciaj vizaĝfotoj kun zorge komentitaj maskoj kaj 19 klasoj, kiuj inkluzivas vizaĝajn komponantojn kiel haŭto, nazo, okuloj, brovoj, oreloj, buŝo, lipo, hararo, ĉapelo, okulvitro, orelringo, kolĉeno, kolo, materialo.
La datumaro povas esti utiligita por testi kaj trejni vizaĝrekonon, vizaĝ-analizadon kaj GANojn por vizaĝ-generado kaj redaktado de algoritmoj.
9. Penn Treebank
Unu el la plej rimarkindaj kaj ofte uzitaj korpusoj por la taksado de modeloj por sekvencmarkado estas la angla Penn Treebank (PTB) korpuso, aparte la parto de la korpuso egalrilatanta al Wall Street Journal-artikoloj.
Ĉiu vorto devas havi sian parolparton etikeditan kiel komponento de la tasko. Karakternivelo kaj vortnivelo lingvomodelado ankaŭ ofte uzas la korpuso.
10. VoxCeleb
VoxCeleb estas grandskala parolidentiga datumaro generita aŭtomate de malfermfontaj amaskomunikiloj. VoxCeleb havas pli ol milionon da eldiroj de pli ol 6k parolantoj.
Ĉar la datumaro inkluzivas aŭd-vidaĵon, ĝi povas esti uzata por diversaj kromaj aplikoj, inkluzive de vida parolsintezo, paroldisigo, transmodala translokigo de vizaĝo al voĉo aŭ inverse, kaj trejnado de vizaĝrekono de vidbendo por kompletigi nunan vizaĝrekonon. datumaroj.
11. SIX-radio
La SIXray-datumserio inkluzivas 1,059,231 Rentgenfotajn bildojn kolektitajn de metrostacioj kaj komentitaj de homaj sekurecaj inspektistoj por detekti ses ĉefajn specojn de malpermesitaj eroj: pistoloj, tranĉiloj, ŝlosiloj, teniloj, tondiloj kaj marteloj. Krome, limkestoj por ĉiu malpermesata objekto estis mane aldonitaj al la testaj aroj por taksi la agadon de objektoloko.
12. Usonaj Akcidentoj
La substanco de la projekto jam estas malkaŝita per la nomo de la datumaro, Usonaj Akcidentoj. Ĉi tiu datumaro pri tutlandaj aŭto-akcidentoj inkluzivas informojn de februaro 2016 ĝis decembro 2021 kaj kovras 49 ŝtatojn en Usono.
Ĉirkaŭ 1.5 milionoj da akcidento-rekordoj nun ĉeestas en tiu kolekto. Ĝi estis kolektita en reala tempo uzante plurajn trafikajn APIojn.
Ĉi tiuj API-oj transdonas trafikajn informojn kolektitajn de diversaj fontoj, inkluzive de trafikfotiloj, policaj organizoj kaj usonaj kaj ŝtataj departementoj pri transportado.
13. Rekono de Okula Malsano
La organizita oftalma datumbazo Ocular Disease Intelligent Recognition (ODIR) enhavas informojn pri 5,000 pacientoj, inkluzive de ilia aĝo, la koloro de la funduso en iliaj maldekstraj kaj dekstraj okuloj, kaj la diagnozaj ŝlosilvortoj de kuracistoj profesiuloj.
Ĉi tiu datumaro estas efektiva kolekto de pacientaj datumoj de diversaj hospitaloj kaj medicinaj instalaĵoj en Ĉinio, kiujn akiris Shanggong Medical Technology Co., Ltd. Kun administrado de kontrolo de kvalito, komentarioj estis etikeditaj de lertaj homaj legantoj.
14. Kormalsano
Ĉi tiu kormalsana datumaro helpas identigi la ekziston de kormalsano en paciento surbaze de 76 parametroj kiel aĝo, sekso, brusta doloro, ripoza sangopremo, ktp.
Kun 303 kazoj, la datumbazo serĉas simple diferencigi la ekziston de malsano (valoro 1,2,3,4) de ĝia foresto (valoro 0).
15. CLEVR
La CLEVR-datumserio (Kompozicia Lingvo kaj Elementa Vida Rezonado) imitas Visual Question Answering. Ĝi konsistas el fotoj de 3D-senditaj objektoj, kun ĉiu foto akompanita de serio de tre komponaj demandoj dividitaj en plurajn kategoriojn.
Por ĉiuj trajnoj kaj validumbildoj kaj demandoj, la datumaro konsistas el 70,000 fotoj kaj 700,000 demandoj por trejnado, 15,000 bildoj kaj 150,000 demandoj por validumado, kaj 15,000 bildoj kaj 150,000 demandoj por testado implikanta objektojn, respondojn, scenprogramojn kaj funkciajn grafikojn.
16. Universalaj Dependecoj
La projekto de Universalaj Dependecoj (UD) celas krei translingve unuforman morfologion kaj sintaksan arbobankan komentarion por multaj lingvoj. Versio 2.7, kiu estis publikigita en 2020, havas 183 arbobankojn en 104 lingvoj.
La komentario konsistas el universalaj POW-etikedoj, dependecaj kapoj kaj universalaj dependecaj etikedoj.
17. KITTI – 360
Unu el la plej ofte uzataj datumaroj por moveblaj robotoj kaj aŭtonoma veturado estas KITTI (Karlsruhe Institute of Technology and Toyota Technological Institute).
Ĝi konsistas el la valoro de horoj de trafikscenaroj kiuj estis kaptitaj per gamo da sensilmodalecoj, kiel ekzemple alt-rezolucia RGB, grizskala stereo, kaj 3D laserskanilfotiloj. La datumaro estis plibonigita laŭlonge de la tempo de pluraj esploristoj, kiuj mane komentis diversajn partojn de ĝi por konveni siajn bezonojn.
18. MOT (Spurado de Multobjektoj)
MOT (Multiple Object Tracking) estas datumaro por multobjekta spurado, kiu inkluzivas endomajn kaj subĉielajn pejzaĝojn de publikaj lokoj, kiuj inkluzivas piedirantojn kiel objektojn de intereso. La vidbendo de ĉiu sceno estas rompita en du pecojn, unu por trejnado kaj la alia por testado.
La datumaro inkluzivas objektodetektoj en videokadroj uzante tri detektilojn: SDP, Faster-RCNN, kaj DPM.
19. PASCAL 3D+
La Pascal3D+-multivida datumaro konsistas el fotoj kolektitaj en natura medio, t.e. bildoj de objektokategorioj kun alta ŝanĝebleco, kaptitaj en nekontrolitaj cirkonstancoj, en plenplenaj medioj kaj en diversaj pozicioj. Pascal3D+ inkluzivas 12 rigidajn objektokategoriojn el la datumaro PASCAL VOC 2012.
Tiuj eroj havas pozinformojn markitajn sur ili (azimuto, alteco, kaj distanco al la fotilo). Pascal3D+ aldone inkluzivas pozajn komentitajn fotojn de la kolekto ImageNet en ĉi tiuj 12 kategorioj.
20. Vizaĝaj Deformeblaj Modeloj de Bestoj
La celo de la Facial Deformable Models of Animals (FDMA) projekto estas defii nunajn metodarojn en homa vizaĝa orientilo identigo kaj spurado kaj evoluigi novajn algoritmojn kiuj povas trakti la konsiderinde pli grandan ŝanĝeblecon kiu estas karakterizaĵo de bestvizaĝaj trajtoj.
La algoritmoj de la projekto montris la kapablon rekoni kaj spuri famaĵojn sur homaj vizaĝoj traktante variadojn induktitajn per ŝanĝoj en vizaĝaj emocioj aŭ pozicioj, partaj okludoj kaj lumigado.
21. MPII Homa Poŝta Datumaro
La MPII Human Pose Dataset enhavas ĉirkaŭ 25K fotojn, 15K el kiuj estas trejnaj specimenoj, 3K el kiuj estas validumaj specimenoj, kaj 7K el kiuj testas specimenojn.
La pozicioj estas mane etikeditaj kun ĝis 16 korpaj artikoj, kaj la fotoj estas prenitaj de YouTube-filmoj kovrantaj 410 diversajn homajn agadojn.
22. UCF101
La datumaro UCF101 enhavas 13,320 filmetojn organizitajn en 101 kategoriojn. Tiuj 101 kategorioj estas dividitaj en kvin kategoriojn: korpaj movoj, hom-homaj interagoj, hom-objektaj interagoj, muzikinstrumenta ludado kaj sportoj.
La videoj estas de Jutubo kaj enhavas 27 horojn en tempodaŭro.
23. Audioset
Audioset estas aŭda evento-datumaro konsistanta el pli ol 2 milionoj hom-notitaj 10-sekundaj videosegmentoj. Por komenti tiujn datenojn, hierarkia ontologio konsistanta el 632 okazaĵspecoj estas uzita, kio implicas ke la sama sono eble estos etikedita alimaniere.
24. Stanforda Natura Lingvo-Inferenco
La SNLI-datumserio (Stanford Natural Language Inference) enhavas 570k frazparojn kiuj estis mane kategoriigitaj kiel implikaĵo, kontraŭdiro aŭ neŭtrala.
Premisoj estas bildpriskriboj de Flickr30k, dum hipotezoj estis evoluigitaj fare de homamas-fontaj komentarioj, kiuj ricevis premison kaj instrukciis generi implicajn, kontraŭdirajn kaj neŭtralajn deklarojn.
25. Vida Demanda Respondado
Vida Demando-Respondo (VQA) estas datumaro kiu enhavas nefermitajn demandojn pri bildoj. Por respondi ĉi tiujn demandojn, vi devas ekkompreni vizion, lingvon kaj komunan prudenton.
konkludo
Ĉar maŝinlernado kaj artefarita inteligenteco (AI) iĝas pli ĝeneralaj en preskaŭ ĉiuj entreprenoj kaj en niaj ĉiutagaj vivoj, same fariĝas la nombro da rimedoj kaj informoj disponeblaj pri la temo.
Pretaj publikaj datumaroj provizas bonegan deirpunkton por evoluigi AI-modelojn kaj ankaŭ permesante al spertaj ML-programistoj ŝpari tempon kaj koncentriĝi pri aliaj elementoj de siaj projektoj.
Lasi Respondon