Taula de continguts[Amaga][Espectacle]
- 1. Conjunt de dades d'atributs de CelebFaces
- 2. DOTA
- 3. Conjunt de dades de comparació d'expressions facials de Google
- 4. Genoma visual
- 5. LibriSpeech
- 6. Els Espais Ciutat
- 7. Conjunt de dades de cinètica
- 8. CelebAMask-HQ
- 9. Penn Treebank
- 10. VoxCeleb
- 11. SIXray
- 12. Accidents dels EUA
- 13. Reconeixement de malalties oculars
- 14. Malalties del cor
- 15. CLEVR
- 16. Dependències universals
- 17. KITTI – 360
- 18. MOT (seguiment de diversos objectes)
- 19. PASCAL 3D+
- 20. Models deformables facials d'animals
- 21. Conjunt de dades MPII Human Post
- 22. UCF101
- 23. Audioset
- 24. Inferència del llenguatge natural de Stanford
- 25. Resposta visual de preguntes
- Conclusió
Avui en dia, la majoria de nosaltres ens centrem a desenvolupar models d'aprenentatge automàtic i IA i a abordar problemes amb conjunts de dades actuals. Però primer, hem de definir un conjunt de dades, la seva importància i el seu paper en el desenvolupament de solucions fortes d'IA i ML.
Avui en dia, tenim una gran quantitat de conjunts de dades de codi obert sobre els quals realitzar investigacions o desenvolupar aplicacions per abordar problemes del món real en diversos sectors.
Tanmateix, l'escassetat de conjunts de dades quantitatives d'alta qualitat és una font de preocupació. Les dades han augmentat enormement i continuaran expandint-se a un ritme més ràpid en el futur.
En aquesta publicació, tractarem conjunts de dades disponibles gratuïtament que podeu utilitzar per desenvolupar el vostre proper projecte d'IA.
1. Conjunt de dades d'atributs de CelebFaces
El conjunt de dades d'atributs de CelebFaces (CelebA) conté més de 200 fotos de celebritats i 40 anotacions d'atributs per a cada imatge, el que la converteix en un excel·lent punt de partida per a projectes com ara reconeixement facial, detecció de cares, localització de punts de referència (o component facial) i edició i síntesi de cares. A més, les fotos d'aquesta col·lecció contenen una àmplia gamma de variants de posició i desordres de fons.
2. DOTA
DOTA (conjunt de dades de Detecció d'objectes a Aerial Photos) és un conjunt de dades a gran escala per a la detecció d'objectes que inclou 15 categories comunes (per exemple, vaixell, avió, cotxe, etc.), 1411 imatges per a l'entrenament i 458 imatges per a la validació.
3. Conjunt de dades de comparació d'expressions facials de Google
El conjunt de dades de comparació d'expressions facials de Google conté al voltant de 500,000 triplets d'imatges, incloses 156,000 fotos facials. Val la pena assenyalar que cada triplet d'aquest conjunt de dades va ser anotat per almenys sis evaluadors humans.
Aquest conjunt de dades és útil per a projectes que involucren anàlisi de l'expressió facial, com ara la recuperació d'imatges basades en l'expressió, la categorització d'emocions, la síntesi d'expressions, etc. Per accedir al conjunt de dades, s'ha d'emplenar un formulari breu.
4. Genoma visual
Les dades de resposta de preguntes visuals en un entorn d'elecció múltiple estan disponibles a Visual Genome. Està format per 101,174 fotos MSCOCO amb 1.7 milions de parells de control de qualitat, amb una mitjana de 17 preguntes per imatge.
En comparació amb el conjunt de dades Visual Question Answering, el conjunt de dades Visual Genome té una distribució més justa en sis tipus de preguntes: Què, On, Quan, Qui, Per què i Com.
A més, el conjunt de dades del genoma visual inclou fotos de 108K que s'han etiquetat molt amb objectes, propietats i connexions.
5. LibriSpeech
El corpus LibriSpeech és una col·lecció d'unes 1,000 hores d'audiollibres del projecte LibriVox. La majoria dels audiollibres provenen del Projecte Gutenberg.
Les dades d'entrenament es divideixen en tres particions de conjunts de 100 hores, 360 hores i 500 hores, mentre que les dades de desenvolupament i de prova tenen una durada d'àudio d'aproximadament 5 hores.
6. Els Espais de la Ciutat
Una de les bases de dades a gran escala més conegudes de vídeos estèreo amb vistes urbanes es diu The Cityscapes.
Amb anotacions precises en píxels que inclouen ubicacions GPS, la temperatura exterior, dades de moviment de l'ego i perspectives estèreo correctes, inclou enregistraments de 50 ciutats alemanyes diferents.
7. Conjunt de dades de cinètica
Un dels conjunts de dades de vídeo més coneguts per reconèixer l'activitat humana a gran escala i amb bona qualitat és el conjunt de dades de Kinetics. Hi ha almenys 600 videoclips per a cadascuna de les 600 classes d'activitat humana, amb un total de més de 500,000 en total.
Les pel·lícules van ser extretes de YouTube; cadascun té una durada d'uns 10 segons i només inclou una classe d'activitats.
8. CelebAMask-HQ
CelebAMask-HQ és una col·lecció de 30,000 fotos facials d'alta resolució amb màscares acuradament anotades i 19 classes que inclouen components facials com ara pell, nas, ulls, celles, orelles, boca, llavis, cabells, barret, ulleres, arracades, collarets, coll, material.
El conjunt de dades es pot utilitzar per provar i entrenar el reconeixement facial, l'anàlisi de cares i els GAN per a algorismes de generació i edició de cares.
9. Penn Treebank
Un dels corpus més notables i utilitzats sovint per a l'avaluació de models per a l'etiquetatge de seqüències és el corpus anglès Penn Treebank (PTB), en particular la part del corpus corresponent als articles del Wall Street Journal.
Cada paraula ha de tenir la seva part del discurs etiquetada com a component de la tasca. Nivell de caràcter i nivell de paraula modelatge lingüístic també utilitza sovint el corpus.
10. VoxCeleb
VoxCeleb és un conjunt de dades d'identificació de la parla a gran escala generat automàticament des mitjans de codi obert. VoxCeleb té més d'un milió d'enunciats de més de 6 parlants.
Com que el conjunt de dades inclou audiovisuals, es pot utilitzar per a una varietat d'aplicacions addicionals, com ara síntesi de veu visual, separació de veu, transferència multimodal de la cara a la veu o viceversa, i entrenar el reconeixement facial del vídeo per complementar el reconeixement facial actual. conjunts de dades.
11. SIXray
El conjunt de dades SIXray inclou 1,059,231 imatges de raigs X recopilades de les estacions de metro i anotades pels inspectors de seguretat humana per detectar sis tipus principals d'articles prohibits: pistoles, ganivets, claus, alicates, tisores i martells. A més, s'han afegit manualment quadres delimitadors per a cada element no permès als conjunts de proves per avaluar el rendiment de la localització d'objectes.
12. Accidents dels EUA
La substància del projecte ja es revela amb el nom del conjunt de dades, US Accidents. Aquest conjunt de dades sobre accidents d'automòbil a nivell nacional inclou informació del febrer del 2016 al desembre del 2021 i cobreix 49 estats dels EUA.
Aproximadament 1.5 milions de registres d'accidents estan presents en aquesta col·lecció. Es va recopilar en temps real mitjançant la utilització de diverses API de trànsit.
Aquestes API transmeten informació de trànsit recollida de diverses fonts, com ara càmeres de trànsit, organitzacions policials i departaments de transport dels Estats Units i de l'estat.
13. Reconeixement de malalties oculars
La base de dades oftàlmica organitzada Ocular Disease Intelligent Recognition (ODIR) conté informació sobre 5,000 pacients, inclosa la seva edat, el color del fons dels ulls esquerre i dret i les paraules clau de diagnòstic dels professionals mèdics.
Aquest conjunt de dades és una col·lecció real de dades de pacients de diversos hospitals i instal·lacions mèdiques de la Xina que Shanggong Medical Technology Co., Ltd. ha adquirit. Amb gestió del control de qualitat, les anotacions van ser etiquetades per lectors humans experts.
14. Malaltia del cor
Aquest conjunt de dades de malalties del cor ajuda a identificar l'existència de malalties del cor en un pacient a partir de 76 paràmetres com ara l'edat, el sexe, el tipus de dolor al pit, la pressió arterial en repòs, etc.
Amb 303 casos, la base de dades pretén diferenciar simplement l'existència d'una malaltia (valor 1,2,3,4) de la seva absència (valor 0).
15. CLEVR
El conjunt de dades CLEVR (llenguatge compositiu i raonament visual elemental) imita la resposta visual de preguntes. Consisteix en fotografies d'objectes renderitzats en 3D, amb cada fotografia acompanyada d'una sèrie de preguntes molt compositives dividides en diverses categories.
Per a totes les imatges i preguntes del tren i de validació, el conjunt de dades inclou 70,000 fotografies i 700,000 preguntes per a la formació, 15,000 imatges i 150,000 preguntes per a la validació, i 15,000 imatges i 150,000 preguntes per provar amb objectes, respostes, programes d'escenaris i gràfics funcionals.
16. Dependències universals
El projecte Dependències Universals (UD) té com a objectiu crear una morfologia i una sintaxi d'arbres d'anotació homogènia per a molts idiomes. La versió 2.7, que es va publicar el 2020, té 183 bancs d'arbres en 104 idiomes.
L'anotació està formada per etiquetes POW universals, capçals de dependència i etiquetes de dependència universals.
17. KITTI – 360
Un dels conjunts de dades més utilitzats per a robots mòbils i conducció autònoma és KITTI (Institut Tecnològic de Karlsruhe i Institut Tecnològic de Toyota).
Es compon d'escenaris de trànsit d'hores que es van capturar mitjançant una sèrie de modalitats de sensor, com ara càmeres d'escàner làser 3D, estèreo en escala de grisos i RGB d'alta resolució. El conjunt de dades ha estat millorat amb el temps per diversos investigadors que n'han anotat manualment diverses parts per adaptar-se a les seves necessitats.
18. MOT (seguiment de diversos objectes)
MOT (Multiple Object Tracking) és un conjunt de dades per al seguiment d'objectes múltiples que inclou escenaris interiors i exteriors de llocs públics que inclouen vianants com a objectes d'interès. El vídeo de cada escena es divideix en dues peces, una per a l'entrenament i l'altra per a la prova.
El conjunt de dades inclou deteccions d'objectes en fotogrames de vídeo mitjançant tres detectors: SDP, Faster-RCNN i DPM.
19. PASCAL 3D+
El conjunt de dades de visualització múltiple de Pascal3D+ està format per fotografies recollides en estat salvatge, és a dir, imatges de categories d'elements amb gran variabilitat, capturades en circumstàncies no controlades, en entorns concorreguts i en diverses posicions. Pascal3D+ inclou 12 categories d'objectes rígids extretes del conjunt de dades PASCAL VOC 2012.
Aquests elements tenen informació sobre la postura marcada (azimut, elevació i distància a la càmera). Pascal3D+ inclou, a més, fotografies anotades per poses de la col·lecció ImageNet en aquestes 12 categories.
20. Models facials deformables d'animals
L'objectiu del projecte Facial Deformable Models of Animals (FDMA) és desafiar les metodologies actuals en la identificació i seguiment de fites facials humanes i desenvolupar nous algorismes que puguin fer front a la variabilitat considerablement més gran que és característica de les característiques facials dels animals.
Els algorismes del projecte van demostrar la capacitat de reconèixer i fer un seguiment de fites en rostres humans mentre es tractava de les variacions induïdes per canvis en les emocions o posicions facials, les oclusions parcials i la il·luminació.
21. Conjunt de dades de publicació humana MPII
El conjunt de dades MPII Human Pose conté al voltant de 25K fotos, 15K de les quals són mostres d'entrenament, 3K de les quals són mostres de validació i 7K de les quals són mostres de prova.
Les posicions s'etiqueten manualment amb fins a 16 articulacions corporals, i les fotografies estan preses de pel·lícules de YouTube que cobreixen 410 activitats humanes diferents.
22. UCF101
El conjunt de dades UCF101 conté 13,320 clips de vídeo organitzats en 101 categories. Aquestes 101 categories es divideixen en cinc categories: moviments corporals, interaccions home-humà, interaccions home-objecte, joc d'instruments musicals i esports.
Els vídeos són de YouTube i tenen una durada de 27 hores.
23. Conjunt d'àudio
Audioset és un conjunt de dades d'esdeveniments d'àudio format per més de 2 milions de segments de vídeo de 10 segons anotats per humans. Per anotar aquestes dades, s'utilitza una ontologia jeràrquica que inclou 632 tipus d'esdeveniments, la qual cosa implica que el mateix so pot ser etiquetat de manera diferent.
24. Inferència del llenguatge natural de Stanford
El conjunt de dades SNLI (Stanford Natural Language Inference) conté 570k aparellaments de frases que s'han categoritzat manualment com a implicació, contradicció o neutral.
Les premisses són descripcions d'imatges de Flickr30k, mentre que les hipòtesis van ser desenvolupades per anotadors multitudinaris als quals se'ls va proporcionar una premissa i se'ls va instruir per generar declaracions implicades, contradictòries i neutrals.
25. Resposta visual de preguntes
Visual Question Answering (VQA) és un conjunt de dades que conté preguntes obertes sobre imatges. Per respondre aquestes preguntes, cal comprendre la visió, el llenguatge i el sentit comú.
Conclusió
A mesura que l'aprenentatge automàtic i la intel·ligència artificial (IA) esdevenen més freqüents en pràcticament totes les empreses i en la nostra vida diària, també ho fa el nombre de recursos i informació disponible sobre el tema.
Els conjunts de dades públics preparats ofereixen un gran punt de partida per desenvolupar models d'IA alhora que permeten als programadors de ML experimentats estalviar temps i centrar-se en altres elements dels seus projectes.
Deixa un comentari