25 meilleurs ensembles de données d'entraînement IA alternatifs (2024)

De nos jours, la plupart d'entre nous se concentrent sur le développement de modèles d'apprentissage automatique et d'IA et sur la résolution de problèmes à l'aide des ensembles de données actuels. Mais d'abord, nous devons définir un ensemble de données, sa signification et son rôle dans le développement de solutions d'IA et de ML solides.

Aujourd'hui, nous disposons d'une pléthore d'ensembles de données open source sur lesquels mener des recherches ou développer des applications pour résoudre des problèmes réels dans divers secteurs.

Cependant, la rareté des ensembles de données quantitatives de haute qualité est une source d'inquiétude. Les données ont énormément augmenté et continueront de se développer à un rythme plus rapide à l'avenir.

Dans cet article, nous couvrirons les ensembles de données disponibles gratuitement que vous pouvez utiliser pour développer votre prochain projet d'IA.

1. Ensemble de données d'attributs CelebFaces

CelebFaces Attributes Dataset (CelebA) contient plus de 200 40 photos de célébrités et XNUMX annotations d'attributs pour chaque image, ce qui en fait un excellent point de départ pour des projets tels que reconnaissance de visage, la détection des visages, la localisation des points de repère (ou des composants du visage) et l'édition et la synthèse des visages. De plus, les photos de cette collection contiennent un large éventail de variantes de position et d'encombrement de fond.

2. DOTA

DOTA (jeu de données de Détection d'objet dans Aerial Photos) est un ensemble de données à grande échelle pour la détection d'objets qui comprend 15 catégories courantes (par exemple, navire, avion, voiture, etc.), 1411 images pour la formation et 458 images pour la validation.

3. Ensemble de données de comparaison Google Facial Expression

L'ensemble de données de comparaison d'expressions faciales de Google contient environ 500,000 156,000 triplets d'images, dont XNUMX XNUMX photos de visage. Il convient de noter que chaque triplet de cet ensemble de données a été annoté par au moins six évaluateurs humains.

Cet ensemble de données est utile pour les projets impliquant l'analyse de l'expression du visage, comme la récupération d'images basée sur l'expression, la catégorisation des émotions, la synthèse d'expression, etc. Pour accéder à l'ensemble de données, un bref formulaire doit être rempli.

4. Génome visuel

Les données Visual Question Answering dans un environnement à choix multiples sont disponibles dans Visual Genome. Il est composé de 101,174 1.7 photos MSCOCO avec 17 million de paires QA, avec une moyenne de XNUMX questions par image.

Par rapport à l'ensemble de données Visual Question Answering, l'ensemble de données Visual Genome a une distribution plus équitable sur six types de questions : Quoi, Où, Quand, Qui, Pourquoi et Comment.

De plus, le jeu de données Visual Genome comprend 108 XNUMX photos qui ont été fortement taguées avec des objets, des propriétés et des connexions.

5. LibriDiscours

Le corpus LibriSpeech est une collection d'environ 1,000 XNUMX heures de livres audio du projet LibriVox. La majorité des livres audio proviennent du projet Gutenberg.

Les données de formation sont divisées en trois partitions de 100 heures, 360 heures et 500 heures, tandis que les données de développement et de test ont une durée audio d'environ 5 heures.

6. Les Cityspaces

L'une des bases de données à grande échelle les plus connues de vidéos stéréo avec des vues urbaines s'appelle The Cityscapes.

Avec des annotations au pixel près qui incluent les emplacements GPS, la température extérieure, les données de mouvement de l'ego et les bonnes perspectives stéréo, il comprend des enregistrements de 50 villes allemandes distinctes.

7. Ensemble de données cinétiques

L'un des jeux de données vidéo les plus connus pour reconnaître l'activité humaine à grande échelle et avec une bonne qualité est le jeu de données Kinetics. Il y a au moins 600 clips vidéo pour chacune des 600 classes d'activité humaine, totalisant plus de 500,000 XNUMX au total.

Les films ont été extraits de YouTube ; chacun dure environ 10 secondes et n'a qu'une seule classe d'activité répertoriée.

8. CelebAMask-HQ

CelebAMask-HQ est une collection de 30,000 19 photos de visage haute résolution avec des masques soigneusement annotés et XNUMX classes qui incluent des composants faciaux comme la peau, le nez, les yeux, les sourcils, les oreilles, la bouche, les lèvres, les cheveux, le chapeau, les lunettes, la boucle d'oreille, le collier, cou, matière.

L'ensemble de données peut être utilisé pour tester et entraîner la reconnaissance faciale, l'analyse faciale et les GAN pour les algorithmes de génération et d'édition de visages.

9. Penn Treebank

L'un des corpus les plus remarquables et les plus souvent utilisés pour l'évaluation des modèles d'étiquetage de séquences est le corpus anglais Penn Treebank (PTB), en particulier la partie du corpus correspondant aux articles du Wall Street Journal.

Chaque mot doit avoir sa partie du discours étiquetée en tant que composant de la tâche. Niveau caractère et niveau mot modélisation du langage utilise aussi fréquemment le corpus.

10. VoxCélébrité

VoxCeleb est un ensemble de données d'identification vocale à grande échelle généré automatiquement à partir de médias open source. VoxCeleb a plus d'un million d'énoncés de plus de 6 XNUMX locuteurs.

Comme l'ensemble de données comprend de l'audio-visuel, il peut être utilisé pour une variété d'applications supplémentaires, y compris la synthèse vocale visuelle, la séparation de la parole, le transfert intermodal du visage à la voix ou vice versa, et la formation à la reconnaissance faciale à partir de la vidéo pour compléter la reconnaissance faciale actuelle. ensembles de données.

11. SIXray

L'ensemble de données SIXray comprend 1,059,231 XNUMX XNUMX images radiographiques recueillies dans les stations de métro et annotées par des inspecteurs de la sécurité humaine pour détecter six principaux types d'objets interdits : pistolets, couteaux, clés, pinces, ciseaux et marteaux. De plus, des cadres de délimitation pour chaque élément non autorisé ont été ajoutés manuellement aux ensembles de test afin d'évaluer les performances de la localisation des objets.

12. Accidents aux États-Unis

La substance du projet est déjà révélée par le nom du jeu de données, US Accidents. Cet ensemble de données sur les accidents automobiles à l'échelle nationale comprend des informations de février 2016 à décembre 2021 et couvre 49 États des États-Unis.

Environ 1.5 million de fiches d'accidents sont désormais présentes dans cette collection. Il a été collecté en temps réel en utilisant plusieurs API de trafic.

Ces API transmettent des informations sur le trafic recueillies auprès de diverses sources, notamment des caméras de circulation, des organismes chargés de l'application de la loi et les départements des transports des États-Unis et des États.

13. Reconnaissance des maladies oculaires

La base de données ophtalmique organisée Ocular Disease Intelligent Recognition (ODIR) contient des informations sur 5,000 XNUMX patients, y compris leur âge, la couleur du fond de l'œil gauche et droit et les mots-clés de diagnostic des professionnels de la santé.

Cet ensemble de données est une collection réelle de données sur les patients de divers hôpitaux et établissements médicaux en Chine que Shanggong Medical Technology Co., Ltd. a acquis. Avec gestion du contrôle qualité, les annotations ont été étiquetées par des lecteurs humains expérimentés.

14. Maladies du cœur

Cet ensemble de données sur les maladies cardiaques aide à identifier l'existence d'une maladie cardiaque chez un patient en fonction de 76 paramètres tels que l'âge, le sexe, le type de douleur thoracique, la pression artérielle au repos, etc.

Avec 303 cas, la base de données cherche à différencier simplement l'existence d'une maladie (valeur 1,2,3,4) de son absence (valeur 0).

15. CLÉVR

L'ensemble de données CLEVR (Compositional Language and Elementary Visual Reasoning) imite la réponse visuelle aux questions. Il se compose de photographies d'objets rendus en 3D, chaque photographie étant accompagnée d'une série de questions hautement compositionnelles divisées en plusieurs catégories.

Pour toutes les images et questions de train et de validation, l'ensemble de données comprend 70,000 700,000 photographies et 15,000 150,000 questions pour la formation, 15,000 150,000 images et XNUMX XNUMX questions pour la validation, et XNUMX XNUMX images et XNUMX XNUMX questions pour les tests impliquant des objets, des réponses, des graphiques de scène et des programmes fonctionnels.

16. Dépendances universelles

Le projet Universal Dependencies (UD) vise à créer des annotations interlinguistiques uniformes de morphologie et de syntaxe pour de nombreuses langues. La version 2.7, sortie en 2020, compte 183 treebanks en 104 langues.

L'annotation est composée de balises POW universelles, d'en-têtes de dépendance et d'étiquettes de dépendance universelles.

17. KITTI – 360

L'un des ensembles de données les plus utilisés pour les robots mobiles et conduite autonome est KITTI (Karlsruhe Institute of Technology et Toyota Technological Institute).

Il est composé d'heures de scénarios de trafic qui ont été capturés à l'aide d'une gamme de modalités de capteurs, telles que des caméras RVB haute résolution, stéréo à niveaux de gris et scanner laser 3D. L'ensemble de données a été amélioré au fil du temps par plusieurs chercheurs qui en ont annoté manuellement diverses parties en fonction de leurs besoins.

18. MOT (suivi d'objets multiples)

MOT (Multiple Object Tracking) est un ensemble de données pour le suivi d'objets multiples qui comprend des scènes intérieures et extérieures de lieux publics qui incluent des piétons comme objets d'intérêt. La vidéo de chaque scène est divisée en deux parties, l'une pour la formation et l'autre pour les tests.

L'ensemble de données comprend détections d'objets dans des images vidéo à l'aide de trois détecteurs : SDP, Faster-RCNN et DPM.

19. PASCAL3D+

Le jeu de données multi-vues Pascal3D+ est composé de photographies collectées dans la nature, c'est-à-dire d'images de catégories d'éléments à forte variabilité, capturées dans des circonstances incontrôlées, dans des environnements encombrés et dans une variété de positions. Pascal3D+ comprend 12 catégories d'objets rigides tirées du jeu de données PASCAL VOC 2012.

Ces éléments comportent des informations de posture marquées (azimut, élévation et distance à la caméra). Pascal3D+ inclut en outre des photos annotées de pose de la collection ImageNet dans ces 12 catégories.

20. Modèles faciaux déformables d'animaux

L'objectif du projet Facial Deformable Models of Animals (FDMA) est de remettre en question les méthodologies actuelles d'identification et de suivi des repères faciaux humains et de développer de nouveaux algorithmes capables de gérer la variabilité considérablement plus grande qui caractérise les caractéristiques faciales des animaux.

Les algorithmes du projet ont démontré la capacité de reconnaître et de suivre les points de repère sur les visages humains tout en traitant les variations induites par les changements d'émotions ou de positions faciales, les occlusions partielles et l'éclairage.

21. Ensemble de données MPII Human Post

L'ensemble de données de pose humaine MPII contient environ 25 15 photos, dont 3 7 sont des échantillons d'apprentissage, XNUMX XNUMX sont des échantillons de validation et XNUMX XNUMX sont des échantillons de test.

Les positions sont étiquetées manuellement avec jusqu'à 16 articulations corporelles, et les photographies sont tirées de films YouTube couvrant 410 activités humaines diverses.

22. UCF101

L'ensemble de données UCF101 contient 13,320 101 clips vidéo organisés en 101 catégories. Ces XNUMX catégories sont divisées en cinq catégories : mouvements corporels, interactions homme-homme, interactions homme-objet, jeu d'instruments de musique et sports.

Les vidéos proviennent de YouTube et durent 27 heures.

23. Ensemble audio

Audioset est un ensemble de données d'événements audio composé de plus de 2 millions de segments vidéo de 10 secondes annotés par un humain. Pour annoter ces données, une ontologie hiérarchique comprenant 632 types d'événements est utilisée, ce qui implique qu'un même son peut être étiqueté différemment.

24. Inférence en langage naturel de Stanford

L'ensemble de données SNLI (Stanford Natural Language Inference) contient 570 XNUMX paires de phrases qui ont été classées manuellement en implication, contradiction ou neutre.

Les prémisses sont des descriptions d'images Flickr30k, tandis que les hypothèses ont été développées par des annotateurs issus de la foule qui ont reçu une prémisse et ont été chargés de générer des déclarations impliquantes, contradictoires et neutres.

25. Réponse visuelle aux questions

Visual Question Answering (VQA) est un ensemble de données qui contient des questions ouvertes concernant les images. Pour répondre à ces questions, vous devez saisir la vision, le langage et le bon sens.

Conclusion

Alors que l'apprentissage automatique et l'intelligence artificielle (IA) deviennent de plus en plus répandus dans pratiquement toutes les entreprises et dans notre vie quotidienne, le nombre de ressources et d'informations disponibles sur le sujet augmente également.

Les ensembles de données publics prêts à l'emploi constituent un excellent point de départ pour développer des modèles d'IA tout en permettant aux programmeurs ML chevronnés de gagner du temps et de se concentrer sur d'autres éléments de leurs projets.

Meilleurs ensembles de données de formation IA alternatifs

25 meilleurs ensembles de données de formation IA alternatifs

1. Ensemble de données d'attributs CelebFaces

2. DOTA

3. Ensemble de données de comparaison Google Facial Expression

4. Génome visuel

5. LibriDiscours

6. Les Cityspaces

7. Ensemble de données cinétiques

8. CelebAMask-HQ

9. Penn Treebank

10. VoxCélébrité

11. SIXray

12. Accidents aux États-Unis

13. Reconnaissance des maladies oculaires

14. Maladies du cœur

15. CLÉVR

16. Dépendances universelles

17. KITTI – 360

18. MOT (suivi d'objets multiples)

19. PASCAL3D+

20. Modèles faciaux déformables d'animaux

21. Ensemble de données MPII Human Post

22. UCF101

23. Ensemble audio

24. Inférence en langage naturel de Stanford

25. Réponse visuelle aux questions

Conclusion

Qui sommes-nous Geai

Plus d'articles sur HashDork :

Comment réduire les hallucinations dans votre IA

Colossian contre Heygen

Cette newsletter Future Tech ne craint pas

25 meilleurs ensembles de données de formation IA alternatifs

1. Ensemble de données d'attributs CelebFaces

2. DOTA

3. Ensemble de données de comparaison Google Facial Expression

4. Génome visuel

5. LibriDiscours

6. Les Cityspaces

7. Ensemble de données cinétiques

8. CelebAMask-HQ

9. Penn Treebank

10. VoxCélébrité

11. SIXray

12. Accidents aux États-Unis

13. Reconnaissance des maladies oculaires

14. Maladies du cœur

15. CLÉVR

16. Dépendances universelles

17. KITTI – 360

18. MOT (suivi d'objets multiples)

19. PASCAL3D+

20. Modèles faciaux déformables d'animaux

21. Ensemble de données MPII Human Post

22. UCF101

23. Ensemble audio

24. Inférence en langage naturel de Stanford

25. Réponse visuelle aux questions

Conclusion

Qui sommes-nous Geai

Plus d'articles sur HashDork :

Comment réduire les hallucinations dans votre IA

10 meilleurs outils d'IA pour les médias sociaux

Colossian contre Heygen

10 meilleurs outils de création de vidéos animées AI

Interactions Reader

Soyez sympa! Laissez un commentaire Annuler la réponse

Cette newsletter Future Tech ne craint pas