Los 25 mejores conjuntos de datos alternativos de entrenamiento de IA (2024)

Hoy en día, la mayoría de nosotros nos enfocamos en desarrollar modelos de inteligencia artificial y aprendizaje automático y abordar problemas utilizando conjuntos de datos actuales. Pero primero, debemos definir un conjunto de datos, su importancia y su función en el desarrollo de soluciones sólidas de IA y ML.

Hoy en día, tenemos una gran cantidad de conjuntos de datos de código abierto sobre los cuales realizar investigaciones o desarrollar aplicaciones para abordar problemas del mundo real en una variedad de sectores.

Sin embargo, la escasez de conjuntos de datos cuantitativos de alta calidad es motivo de preocupación. Los datos han aumentado enormemente y continuarán expandiéndose a un ritmo más rápido en el futuro.

En esta publicación, cubriremos conjuntos de datos disponibles gratuitamente que puede utilizar para desarrollar su próximo proyecto de IA.

1. Conjunto de datos de atributos de CelebFaces

El conjunto de datos de atributos de CelebFaces (CelebA) contiene más de 200 40 fotos de celebridades y XNUMX anotaciones de atributos para cada imagen, lo que lo convierte en un excelente punto de partida para proyectos como Reconocimiento facial, detección de rostros, localización de puntos de referencia (o componentes faciales) y edición y síntesis de rostros. Además, las fotos de esta colección contienen una amplia gama de variantes de posición y desorden de fondo.

2. DOTA

DOTA (Conjunto de datos de Detección de objetos en fotos aéreas) es un conjunto de datos a gran escala para la detección de objetos que incluye 15 categorías comunes (p. ej., barco, avión, automóvil, etc.), 1411 imágenes para entrenamiento y 458 imágenes para validación.

3. Conjunto de datos de comparación de expresiones faciales de Google

El conjunto de datos de comparación de expresiones faciales de Google contiene alrededor de 500,000 156,000 trillizos de imágenes, incluidas XNUMX XNUMX fotos de rostros. Vale la pena señalar que cada triplete en este conjunto de datos fue anotado por al menos seis evaluadores humanos.

Este conjunto de datos es útil para proyectos que implican el análisis de expresiones faciales, como la recuperación de imágenes basadas en expresiones, la categorización de emociones, la síntesis de expresiones, etc. Para acceder al conjunto de datos, se debe completar un breve formulario.

4. Genoma visual

Los datos de Visual Question Answering en un entorno de opción múltiple están disponibles en Visual Genome. Está compuesto por 101,174 fotos MSCOCO con 1.7 millones de pares QA, con una media de 17 preguntas por imagen.

En comparación con el conjunto de datos Visual Question Answering, el conjunto de datos Visual Genome tiene una distribución más justa en seis tipos de preguntas: qué, dónde, cuándo, quién, por qué y cómo.

Además, el conjunto de datos de Visual Genome incluye fotos de 108K que han sido fuertemente etiquetadas con objetos, propiedades y conexiones.

5. LibriDiscurso

El corpus LibriSpeech es una colección de alrededor de 1,000 horas de audiolibros del proyecto LibriVox. La mayoría de los audiolibros provienen del Proyecto Gutenberg.

Los datos de entrenamiento se dividen en tres particiones de conjuntos de 100 h, 360 h y 500 h, mientras que los datos de desarrollo y prueba tienen una duración de audio de aproximadamente 5 h.

6. Los espacios de la ciudad

Una de las bases de datos a gran escala más conocidas de videos estéreo con vistas urbanas se llama The Cityscapes.

Con anotaciones con precisión de píxel que incluyen ubicaciones de GPS, la temperatura exterior, datos de movimiento del ego y perspectivas estéreo correctas, incluye grabaciones de 50 ciudades alemanas distintas.

7. Conjunto de datos cinéticos

Uno de los conjuntos de datos de video más conocidos para reconocer la actividad humana a gran escala y con buena calidad es el conjunto de datos Kinetics. Hay al menos 600 videoclips para cada una de las 600 clases de actividad humana, con un total de más de 500,000 en total.

Las películas fueron extraídas de YouTube; cada uno dura alrededor de 10 segundos y solo tiene una clase de actividad en la lista.

8. CelebAMask-HQ

CelebAMask-HQ es una colección de 30,000 fotos de rostros de alta resolución con máscaras cuidadosamente anotadas y 19 clases que incluyen componentes faciales como piel, nariz, ojos, cejas, orejas, boca, labios, cabello, sombrero, anteojos, arete, collar, cuello, material.

El conjunto de datos se puede utilizar para probar y entrenar el reconocimiento facial, el análisis facial y las GAN para generar algoritmos de edición y generación de rostros.

9. Banco de árboles de Penn

Uno de los corpus más notables y de uso frecuente para la evaluación de modelos para el etiquetado de secuencias es el corpus inglés Penn Treebank (PTB), en particular la parte del corpus correspondiente a los artículos del Wall Street Journal.

Cada palabra debe tener su parte del discurso etiquetada como un componente de la tarea. Nivel de carácter y nivel de palabra modelado del lenguaje también utiliza con frecuencia el corpus.

10. VoxCeleb

VoxCeleb es un conjunto de datos de identificación de voz a gran escala generado automáticamente a partir de medios de comunicación de código abierto. VoxCeleb tiene más de un millón de declaraciones de más de 6k oradores.

Como el conjunto de datos incluye audiovisuales, se puede utilizar para una variedad de aplicaciones adicionales, incluida la síntesis de voz visual, la separación de voz, la transferencia multimodal de cara a voz o viceversa, y el entrenamiento de reconocimiento facial a partir de video para complementar el reconocimiento facial actual. conjuntos de datos

11. Seis rayos

El conjunto de datos de SIXray incluye 1,059,231 XNUMX XNUMX imágenes de rayos X recopiladas de estaciones de metro y anotadas por inspectores de seguridad humana para detectar seis tipos principales de artículos prohibidos: pistolas, cuchillos, llaves inglesas, alicates, tijeras y martillos. Además, los cuadros delimitadores para cada elemento no permitido se agregaron manualmente a los conjuntos de prueba para evaluar el rendimiento de la localización de objetos.

12. Accidentes en EE. UU.

La sustancia del proyecto ya se revela con el nombre del conjunto de datos, Accidentes de EE. UU. Este conjunto de datos sobre accidentes automovilísticos a nivel nacional incluye información desde febrero de 2016 hasta diciembre de 2021 y cubre 49 estados de EE. UU.

Aproximadamente 1.5 millones de registros de accidentes ahora están presentes en esta colección. Se recopiló en tiempo real utilizando varias API de tráfico.

Estas API transmiten información de tráfico recopilada de una variedad de fuentes, incluidas cámaras de tráfico, organizaciones encargadas de hacer cumplir la ley y los departamentos de transporte estatales y de EE. UU.

13. Reconocimiento de enfermedades oculares

La base de datos oftálmica organizada Ocular Disease Intelligent Recognition (ODIR) contiene información sobre 5,000 pacientes, incluida su edad, el color del fondo del ojo izquierdo y derecho y las palabras clave de diagnóstico de los profesionales médicos.

Este conjunto de datos es una colección real de datos de pacientes de varios hospitales e instalaciones médicas en China que Shanggong Medical Technology Co., Ltd. ha adquirido. Con gestión de control de calidad, las anotaciones fueron etiquetadas por lectores humanos expertos.

14. Enfermedad del corazón

Este conjunto de datos de enfermedades cardíacas ayuda a identificar la existencia de enfermedades cardíacas en un paciente en función de 76 parámetros como la edad, el sexo, el tipo de dolor torácico, la presión arterial en reposo, etc.

Con 303 casos, la base de datos busca diferenciar simplemente la existencia de una enfermedad (valor 1,2,3,4) de su ausencia (valor 0).

15. INTELIGENTE

El conjunto de datos CLEVR (lenguaje compositivo y razonamiento visual elemental) imita la respuesta visual a preguntas. Consiste en fotografías de objetos renderizados en 3D, con cada fotografía acompañada de una serie de preguntas altamente compositivas divididas en varias categorías.

Para todas las imágenes y preguntas de entrenamiento y validación, el conjunto de datos comprende 70,000 700,000 fotografías y 15,000 150,000 preguntas para entrenamiento, 15,000 150,000 imágenes y XNUMX XNUMX preguntas para validación, y XNUMX XNUMX imágenes y XNUMX XNUMX preguntas para probar objetos, respuestas, gráficos de escenas y programas funcionales.

16. Dependencias universales

El proyecto Dependencias universales (UD) tiene como objetivo crear una anotación de banco de árbol de sintaxis y morfología interlingüísticamente uniforme para muchos idiomas. La versión 2.7, que se lanzó en 2020, tiene 183 treebanks en 104 idiomas.

La anotación se compone de etiquetas POW universales, encabezados de dependencia y etiquetas de dependencia universal.

17. KITTI – 360

Uno de los conjuntos de datos más utilizados para robots móviles y conducción autónoma es KITTI (Instituto de Tecnología de Karlsruhe e Instituto Tecnológico de Toyota).

Se compone de horas de escenarios de tráfico que se capturaron utilizando una variedad de modalidades de sensores, como cámaras RGB de alta resolución, estéreo en escala de grises y escáner láser 3D. El conjunto de datos ha sido mejorado con el tiempo por varios investigadores que anotaron manualmente varias partes del mismo para satisfacer sus necesidades.

18. MOT (seguimiento de objetos múltiples)

MOT (seguimiento de múltiples objetos) es un conjunto de datos para el seguimiento de múltiples objetos que incluye escenarios interiores y exteriores de lugares públicos que incluyen peatones como objetos de interés. El video de cada escena se divide en dos partes, una para entrenamiento y otra para prueba.

El conjunto de datos incluye detecciones de objetos en cuadros de video utilizando tres detectores: SDP, Faster-RCNN y DPM.

19. Pascal 3D+

El conjunto de datos multivista de Pascal3D+ está formado por fotografías recopiladas en la naturaleza, es decir, imágenes de categorías de elementos con alta variabilidad, capturadas en circunstancias no controladas, en entornos abarrotados y en una variedad de posiciones. Pascal3D+ incluye 12 categorías de objetos rígidos extraídos del conjunto de datos PASCAL VOC 2012.

Estos elementos tienen información sobre la postura marcada (acimut, elevación y distancia a la cámara). Pascal3D+ también incluye fotos con anotaciones de poses de la colección ImageNet en estas 12 categorías.

20. Modelos faciales deformables de animales

El objetivo del proyecto Modelos deformables faciales de animales (FDMA) es desafiar las metodologías actuales en la identificación y el seguimiento de puntos de referencia faciales humanos y desarrollar nuevos algoritmos que puedan lidiar con la variabilidad considerablemente mayor que es característica de las características faciales de los animales.

Los algoritmos del proyecto demostraron la capacidad de reconocer y realizar un seguimiento de los puntos de referencia en los rostros humanos mientras se ocupan de las variaciones inducidas por los cambios en las emociones o posiciones faciales, las oclusiones parciales y la iluminación.

21. Conjunto de datos posteriores humanos de MPII

El conjunto de datos de postura humana de MPII contiene alrededor de 25 15 fotos, 3 7 de las cuales son muestras de entrenamiento, XNUMX XNUMX de las cuales son muestras de validación y XNUMX XNUMX de las cuales son muestras de prueba.

Las posiciones se etiquetan manualmente con hasta 16 articulaciones corporales, y las fotografías se toman de películas de YouTube que cubren 410 actividades humanas diversas.

22. UCF101

El conjunto de datos UCF101 contiene 13,320 videoclips organizados en 101 categorías. Estas 101 categorías se dividen en cinco categorías: movimientos corporales, interacciones humano-humano, interacciones humano-objeto, tocar instrumentos musicales y deportes.

Los videos son de YouTube y tienen una duración de 27 horas.

23. conjunto de audio

Audioset es un conjunto de datos de eventos de audio compuesto por más de 2 millones de segmentos de video de 10 segundos anotados por humanos. Para anotar estos datos, se utiliza una ontología jerárquica que comprende 632 tipos de eventos, lo que implica que el mismo sonido puede etiquetarse de manera diferente.

24. Inferencia del lenguaje natural de Stanford

El conjunto de datos SNLI (Stanford Natural Language Inference) contiene 570 XNUMX pares de oraciones que se han categorizado manualmente como vinculación, contradicción o neutral.

Las premisas son descripciones de imágenes de Flickr30k, mientras que las hipótesis fueron desarrolladas por anotadores de fuentes múltiples a quienes se les proporcionó una premisa y se les instruyó para generar afirmaciones neutrales, contradictorias y vinculantes.

25. Respuesta Visual a Preguntas

Visual Question Answering (VQA) es un conjunto de datos que contiene preguntas abiertas sobre imágenes. Para responder a estas preguntas, debe comprender la visión, el lenguaje y el sentido común.

Conclusión

A medida que el aprendizaje automático y la inteligencia artificial (IA) se vuelven más frecuentes en prácticamente todos los negocios y en nuestra vida diaria, también lo hace la cantidad de recursos e información disponibles sobre el tema.

Los conjuntos de datos públicos listos para usar brindan un excelente punto de partida para desarrollar modelos de IA y, al mismo tiempo, permiten que los programadores de ML experimentados ahorren tiempo y se concentren en otros elementos de sus proyectos.

Los mejores conjuntos de datos alternativos de entrenamiento de IA

Los 25 mejores conjuntos de datos alternativos de entrenamiento de IA

1. Conjunto de datos de atributos de CelebFaces

2. DOTA

3. Conjunto de datos de comparación de expresiones faciales de Google

4. Genoma visual

5. LibriDiscurso

6. Los espacios de la ciudad

7. Conjunto de datos cinéticos

8. CelebAMask-HQ

9. Banco de árboles de Penn

10. VoxCeleb

11. Seis rayos

12. Accidentes en EE. UU.

13. Reconocimiento de enfermedades oculares

14. Enfermedad del corazón

15. INTELIGENTE

16. Dependencias universales

17. KITTI – 360

18. MOT (seguimiento de objetos múltiples)

19. Pascal 3D+

20. Modelos faciales deformables de animales

21. Conjunto de datos posteriores humanos de MPII

22. UCF101

23. conjunto de audio

24. Inferencia del lenguaje natural de Stanford

25. Respuesta Visual a Preguntas

Conclusión

Nuestra Empresa arrendajo

Más artículos sobre HashDork:

Cómo reducir las alucinaciones en tu IA

Colossyan vs Heygen

Este boletín de Future Tech no apesta

Los 25 mejores conjuntos de datos alternativos de entrenamiento de IA

1. Conjunto de datos de atributos de CelebFaces

2. DOTA

3. Conjunto de datos de comparación de expresiones faciales de Google

4. Genoma visual

5. LibriDiscurso

6. Los espacios de la ciudad

7. Conjunto de datos cinéticos

8. CelebAMask-HQ

9. Banco de árboles de Penn

10. VoxCeleb

11. Seis rayos

12. Accidentes en EE. UU.

13. Reconocimiento de enfermedades oculares

14. Enfermedad del corazón

15. INTELIGENTE

16. Dependencias universales

17. KITTI – 360

18. MOT (seguimiento de objetos múltiples)

19. Pascal 3D+

20. Modelos faciales deformables de animales

21. Conjunto de datos posteriores humanos de MPII

22. UCF101

23. conjunto de audio

24. Inferencia del lenguaje natural de Stanford

25. Respuesta Visual a Preguntas

Conclusión

Nuestra Empresa arrendajo

Más artículos sobre HashDork:

Cómo reducir las alucinaciones en tu IA

Las 10 mejores herramientas de inteligencia artificial para redes sociales

Colossyan vs Heygen

Las 10 mejores herramientas para crear videos animados con IA

Interacciones Reader

Deje un comentario Cancelar respuesta

Este boletín de Future Tech no apesta