Índice del contenido[Esconder][Espectáculo]
Cada proyecto de Machine Learning se basa en un buen conjunto de datos. Es este gran conjunto de datos el que le permitirá entrenar y validar su modelo ML. Por lo tanto, una gran parte del trabajo en un proyecto de ML es encontrar el conjunto de datos perfecto para sus necesidades. Sin embargo, no siempre es posible encontrar una opción que se ajuste a su ambición, ya que muchos archivos que parecen interesantes, al final, no lo son.
Puede ser desalentador perder el tiempo descargando innumerables conjuntos de datos hasta llegar al conjunto ideal. Con eso en mente, hemos reunido algunas opciones que parecen interesantes y pueden ayudarlo a desarrollar su proyecto ML. Tenga en cuenta que algunos están destinados para uso personal en lugar de comercial, así que considere estas opciones como una forma de ganar experiencia en el universo ML.
Conceptos básicos de los conjuntos de datos
Antes de mencionar los conjuntos de datos, debemos definir algunos términos. En proyectos de Inteligencia Artificial, especialmente Aprendizaje automático (Machine learning & LLM), se requiere una gran cantidad de datos, que se utilizarán para entrenar el algoritmo. Esta cantidad de datos se recopila en una base de datos, que es extremadamente útil para enseñar un algoritmo.
Con estos datos, el algoritmo se entrena, también se prueba, y se vuelve capaz de encontrar patrones, establecer relaciones y, por lo tanto, tomar decisiones de forma autónoma. sin entrenamiento, Aprendizaje automático (Machine learning & LLM) los algoritmos no pueden realizar ninguna acción. Por lo tanto, cuanto mejores sean los datos de entrenamiento, mejor funcionará el modelo. Para que una base de datos sea útil para el proyecto, no se trata de cantidad: se trata también de clasificación.
Idealmente, los datos deben estar bien etiquetados. Piense en el caso de los chatbots: la inserción del idioma es importante, pero se debe hacer un análisis sintáctico cuidadoso para que el algoritmo creado pueda entender cuándo el interlocutor está usando jerga. Solo así el asistente virtual podrá lanzar la respuesta de acuerdo a lo solicitado por el usuario.
Los conjuntos de datos se pueden generar a partir de encuestas, datos de compra de usuarios, evaluaciones que se dejan en los servicios y de muchas otras formas que permiten recopilar información útil organizada en columnas y filas en un archivo CSV.
Antes de emprender la búsqueda del conjunto de datos perfecto, es importante que conozca el propósito de su proyecto, especialmente si se trata de un área específica, como el clima, las finanzas, la salud, etc. Esto determinará la fuente de donde obtendrá su conjunto de datos
Conjuntos de datos para ML
Entrenamiento de chatbot
Un chatbot efectivo requiere una gran cantidad de datos de entrenamiento para resolver rápidamente las consultas de los usuarios sin intervención humana. Sin embargo, el cuello de botella principal en el desarrollo de chatbots es obtener datos de diálogo realistas y orientados a tareas para entrenar estos sistemas basados en Machine Learning.
Un conjunto de datos conversacional recopila datos en un formato de pregunta y respuesta. Es ideal para entrenar chatbots que darán respuestas automatizadas a la audiencia. Sin estos datos, el chatbot no podrá resolver rápidamente las consultas de los usuarios ni responder las preguntas de los usuarios sin necesidad de intervención humana.
Con estos conjuntos de datos, las empresas pueden crear una herramienta que brinde respuestas rápidas a los clientes las 24 horas del día, los 7 días de la semana y es significativamente más económica que tener un equipo de personas que se encarguen de la atención al cliente.
1. Conjunto de datos de preguntas y respuestas
Este conjunto de datos proporciona un conjunto de artículos de Wikipedia, preguntas y sus respectivas respuestas generadas manualmente. Es un conjunto de datos recopilados entre 2008 y 2010 para su uso en la investigación académica.
2. Datos de idioma
Language Data es una base de datos administrada por Yahoo con información generada a partir de algunos de los servicios de la empresa, como Yahoo! Answer, que funciona como una comunidad abierta para que los usuarios publiquen preguntas y respuestas.
3. Wiki QA
El corpus de WikiQA también consta de un conjunto de preguntas y respuestas. La fuente de las preguntas es Bing, mientras que las respuestas enlazan con una página de Wikipedia con el potencial de resolver la pregunta inicial.
En total, hay más de 3,000 preguntas y un conjunto de 29,258 1,400 oraciones en el conjunto de datos, de las cuales alrededor de XNUMX se han categorizado como respuestas a una pregunta correspondiente.
Datos del gobierno
Los conjuntos de datos generados por los gobiernos brindan datos demográficos, que son excelentes insumos para proyectos relacionados con la comprensión de las tendencias sociales, la creación de políticas públicas y la mejora de la sociedad. Esto puede ser útil para campañas políticas, publicidad dirigida o análisis de mercado.
Estos conjuntos de datos suelen contener datos anónimos, por lo que, si bien los modelos pueden acceder a los datos sin procesar, no hay violaciones de la privacidad personal.
4. Data.gov
Lanzado en 2009, Data.gov es la fuente de datos de América del Norte. Su catálogo es impresionante: más de 218,000 conjuntos de datos que permiten segmentar por formato, etiquetas, tipos y temas.
5. Portal de datos abiertos de la UE
El Portal de datos abiertos de la UE proporciona acceso a datos abiertos compartidos por instituciones de la Unión Europea. Estos son datos que pueden estar destinados a uso comercial y no comercial. A disposición del usuario hay más de 15.5 mil conjuntos de datos, que cubren temas como salud, energía, medio ambiente, cultura y educación.
Datos de salud
A raíz de la actual crisis de salud en todo el mundo, los conjuntos de datos generados por las organizaciones de salud son esenciales para desarrollar soluciones efectivas para salvar vidas. Estos conjuntos de datos pueden ayudar a identificar los factores de riesgo, determinar los patrones de transmisión de enfermedades y acelerar el diagnóstico.
Estos conjuntos de datos consisten en registros de salud, datos demográficos de los pacientes, prevalencia de enfermedades, uso de medicamentos, valores nutricionales y mucho más.
6. Observatorio Global de Salud
Este conjunto de datos es una iniciativa de la Organización Mundial de la Salud (OMS). Proporciona datos públicos relacionados con diferentes áreas de la salud, organizados por temas como sistemas de salud, control del tabaquismo, maternidad, VIH/SIDA, etc. También existe la opción de consultar datos sobre COVID-19.
7. CABLE-19
CORD-19 es un corpus de publicaciones académicas sobre COVID-19 y otros artículos sobre el nuevo coronavirus. Es un conjunto de datos abierto destinado a generar nuevos conocimientos sobre COVID-19.
Datos económicos
Los conjuntos de datos relacionados con el entorno financiero suelen reunir una gran cantidad de información, ya que es común que se hayan recopilado durante mucho tiempo. Son ideales para crear predicciones económicas o establecer tendencias de inversión.
Con los conjuntos de datos financieros correctos, un Modelo de aprendizaje automático podría ser capaz de predecir el comportamiento de un activo dado. Es por eso que el sector financiero está haciendo todo lo que está a su alcance para crear un modelo de ML efectivo, ya que cualquier cosa que pueda predecir incluso razonablemente bien tiene el potencial de generar millones de dólares. El aprendizaje automático ya está prediciendo el comportamiento de los ciudadanos, lo que está afectando la forma en que los legisladores hacen su trabajo.
8. Fondo Monetario Internacional
El conjunto de datos del FMI contiene una variedad de indicadores económicos y financieros, estadísticas de los países miembros y otros datos sobre préstamos y tipos de cambio.
9. Banco Mundial
El repositorio del Banco Mundial contiene diferentes conjuntos de datos con información económica de diferentes países. Hay más de 17,000 conjuntos de datos divididos por continentes.
Reseñas de productos y servicios
El análisis de sentimiento ha encontrado sus aplicaciones en varios campos que ahora están ayudando a las empresas a estimar y aprender de sus clientes o clientes correctamente. El análisis de sentimientos se utiliza cada vez más para el seguimiento de las redes sociales, el seguimiento de la marca, la voz del cliente (VoC), el servicio al cliente y la investigación de mercado.
El análisis de sentimientos utiliza PNL (programación neurolingüística) métodos y algoritmos que se basan en reglas, son híbridos o se basan en técnicas de aprendizaje automático para aprender datos de conjuntos de datos.
Los datos necesarios en el análisis de sentimiento deben ser especializados y se requieren en grandes cantidades. La parte más desafiante del proceso de capacitación del análisis de sentimientos no es encontrar grandes cantidades de datos; en cambio, es encontrar los conjuntos de datos relevantes. Estos conjuntos de datos deben cubrir una amplia área de aplicaciones de análisis de sentimientos y casos de uso.
10. Amazon comentarios
Este conjunto de datos contiene alrededor de 35 millones de reseñas de Amazon, que abarcan un período de 18 años de información recopilada. Es un conjunto de datos de producto, usuario y contenido de revisión.
11. Reseñas de Yelp
Yelp también ofrece un conjunto de datos basado en la información recopilada de su servicio. Hay más de 8 millones de reseñas, 1 millón de sugerencias y casi 1.5 millones de atributos relacionados con las empresas, como el horario de apertura y la disponibilidad.
12. Opiniones de IMDB
Esta base de datos contiene un conjunto de más de 25 mil reseñas de películas para capacitación y otras 25 mil para pruebas extraídas informalmente de la página de IMDB, especializada en ratings de películas. También ofrece datos sin etiquetar como un adicional.
Conjuntos de datos para los primeros pasos en ML
13. Conjunto de datos de calidad del vino
Este conjunto de datos proporciona información relacionada con el vino, tanto tinto como verde, producido en el norte de Portugal. El objetivo es definir la calidad del vino en base a pruebas fisicoquímicas. Interesante para aquellos que quieran practicar la creación de un sistema de predicción.
14. Conjunto de datos Titanic
Este conjunto de datos trae datos de 887 pasajeros reales del Titanic, y cada columna define si sobrevivieron, su edad, clase de pasajero, género y la tarifa de embarque que pagaron. Este conjunto de datos formaba parte de un desafío lanzado por la plataforma Kaggle, cuyo objetivo era crear un modelo que pudiera predecir qué pasajeros sobrevivieron al hundimiento del Titanic.
Plataformas para encontrar otros conjuntos de datos
Si quieres ir más allá y encontrar tu propio conjunto de datos, la mejor manera es navegar a través de los repositorios más famosos de la Aprendizaje automático (Machine learning & LLM) universo:
Kaggle
Kaggle, una subsidiaria de Google LLC, es una comunidad en línea de científicos de datos y profesionales del aprendizaje automático. Kaggle permite a los usuarios buscar y publicar conjuntos de datos, explorar y crear modelos en un entorno de ciencia de datos basado en la web; trabajar con otros científicos de datos y Ingenieros de aprendizaje automáticoy participar en concursos para resolver desafíos de ciencia de datos.
Kaggle comenzó en 2010 ofreciendo concursos de Machine Learning y ahora también ofrece un público plataforma de datos, un banco de trabajo basado en la nube para la educación en ciencia de datos e inteligencia artificial.
Búsqueda de conjunto de datos
Dataset Search es un motor de búsqueda de Google que ayuda a los investigadores a localizar datos en línea que están disponibles gratuitamente para su uso. En toda la web, hay millones de conjuntos de datos sobre casi cualquier tema que le interese.
Si está buscando comprar un cachorro, puede encontrar conjuntos de datos que recopilan quejas de compradores de cachorros o estudios sobre la cognición de los cachorros. O si le gusta esquiar, puede encontrar datos sobre los ingresos de las estaciones de esquí o las tasas de lesiones y los números de participación. Dataset Search ha indexado casi 25 millones de estos conjuntos de datos, lo que le brinda un lugar único para buscar conjuntos de datos y encontrar vínculos a donde se encuentran los datos.
Depósito de aprendizaje automático de UCI
El repositorio de aprendizaje automático de UCI es una colección de bases de datos, teorías de dominio y generadores de datos que utiliza la comunidad de aprendizaje automático para el análisis empírico de los algoritmos de aprendizaje automático. El archivo fue creado como un archivo ftp en 1987 por David Aha y sus compañeros estudiantes de posgrado en UC Irvine.
Desde entonces, ha sido ampliamente utilizado por estudiantes, educadores e investigadores de todo el mundo como fuente principal de conjuntos de datos de ML. Como indicación del impacto del archivo, ha sido citado más de 1000 veces, lo que lo convierte en uno de los 100 "artículos" más citados en toda la informática.
Quandl
Quandl es una plataforma que proporciona a sus usuarios conjuntos de datos económicos, financieros y alternativos. Los usuarios pueden descargar datos gratuitos, comprar datos pagos o vender datos a Quandl. Puede ser una herramienta útil para el desarrollo de algoritmos comerciales, Por ejemplo.
Conclusión
Al explorar estas herramientas, seguramente encontrará excelentes aportes para sus proyectos. Asegúrese de elegir el conjunto de datos que mejor se adapte a sus necesidades específicas y tenga siempre presente: no se trata solo de cantidad, sino también de calidad. El conjunto de datos es la base de cualquier Proyecto de aprendizaje automático y es esencial basarse en datos de calidad para evitar el riesgo de llegar a conclusiones erróneas.
Deje un comentario