Table des matières[Cacher][Montrer]
Chaque projet d'apprentissage automatique repose sur un bon ensemble de données. C'est ce grand ensemble de données qui vous permettra d'entraîner et de valider votre modèle ML. Ainsi, une grande partie du travail d'un projet ML consiste à trouver l'ensemble de données parfait pour vos besoins. Cependant, il n'est pas toujours possible de trouver une option qui corresponde à votre ambition, car de nombreux fichiers qui semblent intéressants, au final, ne le sont pas.
Il peut être intimidant de perdre du temps à télécharger d'innombrables ensembles de données jusqu'à ce que vous arriviez à un ensemble idéal. Dans cet esprit, nous avons rassemblé quelques options qui semblent intéressantes et peuvent vous aider à développer votre projet ML. Notez que certaines sont destinées à un usage personnel plutôt qu'à un usage commercial, alors considérez ces options comme un moyen d'acquérir de l'expérience dans l'univers ML.
Principes de base des ensembles de données
Avant de mentionner les ensembles de données, nous devons définir certains termes. Dans les projets d'intelligence artificielle, en particulier Machine Learning, une grande quantité de données est nécessaire, qui sera utilisée pour entraîner l'algorithme. Cette quantité de données est rassemblée dans une base de données, ce qui est extrêmement utile pour enseigner un algorithme.
Avec ces données, l'algorithme est formé - également testé - et devient capable de trouver des modèles, d'établir des relations et ainsi de prendre des décisions de manière autonome. Sans formation, Machine Learning les algorithmes ne peuvent effectuer aucune action. Par conséquent, plus les données d'apprentissage sont bonnes, meilleures seront les performances du modèle. Pour qu'une base de données soit utile au projet, ce n'est pas une question de quantité : c'est aussi une question de classification.
Idéalement, les données devraient être bien étiquetées. Pensez au cas des chatbots : l'insertion de la langue est importante, mais une analyse syntaxique minutieuse doit être faite pour que l'algorithme créé puisse comprendre quand l'interlocuteur utilise l'argot. Ce n'est qu'alors que l'assistant virtuel pourra lancer la réponse en fonction de ce qui a été demandé par l'utilisateur.
Les ensembles de données peuvent être générés à partir d'enquêtes, de données d'achat d'utilisateurs, d'évaluations laissées sur des services et de nombreuses autres manières permettant de collecter des informations utiles organisées en colonnes et en lignes dans un fichier CSV.
Avant de partir à la recherche de l'ensemble de données parfait, il est important que vous connaissiez l'objectif de votre projet, surtout s'il provient d'un domaine spécifique, tel que la météo, les finances, la santé, etc. Cela déterminera la source à partir de laquelle vous vous procurerez votre base de données.
Ensembles de données pour le ML
Formation chatbot
Un chatbot efficace nécessite une quantité massive de données de formation afin de résoudre rapidement les demandes des utilisateurs sans intervention humaine. Cependant, le principal goulot d'étranglement dans le développement de chatbot est d'obtenir des données de dialogue réalistes et orientées tâche pour former ces systèmes basés sur l'apprentissage automatique.
Un ensemble de données conversationnel rassemble des données sous forme de questions et réponses. Il est idéal pour former des chatbots qui donneront des réponses automatisées au public. Sans ces données, le chatbot ne parviendra pas à résoudre rapidement les demandes des utilisateurs ou à répondre aux questions des utilisateurs sans intervention humaine.
À l'aide de ces ensembles de données, les entreprises peuvent créer un outil qui fournit des réponses rapides aux clients 24h/7 et XNUMXj/XNUMX et qui est nettement moins cher que d'avoir une équipe de personnes chargées du support client.
1. Ensemble de données question-réponse
Cet ensemble de données fournit un ensemble d'articles, de questions et de réponses générées manuellement sur Wikipedia. Il s'agit d'un ensemble de données collectées entre 2008 et 2010 pour une utilisation dans recherche universitaire.
2. Données linguistiques
Language Data est une base de données gérée par Yahoo avec des informations générées par certains des services de l'entreprise, tels que Yahoo! Answer, qui fonctionne comme une communauté ouverte permettant aux utilisateurs de publier des questions et des réponses.
3. WikiQA
Le corpus WikiQA consiste également en un ensemble de questions et réponses. La source des questions est Bing, tandis que les réponses renvoient à une page Wikipedia avec le potentiel de résoudre la question initiale.
Au total, il y a plus de 3,000 29,258 questions et un ensemble de 1,400 XNUMX phrases dans l'ensemble de données, dont environ XNUMX XNUMX ont été classées comme réponses à une question correspondante.
Données gouvernementales
Les ensembles de données générés par les gouvernements apportent des données démographiques, qui sont d'excellents apports pour les projets liés à la compréhension des tendances sociales, à la création de politiques publiques et à l'amélioration de la société. Cela peut être utile pour les campagnes politiques, la publicité ciblée ou l'analyse de marché.
Ces ensembles de données contiennent généralement des données anonymisées, de sorte que même si les modèles peuvent accéder aux données brutes, il n'y a aucune violation de la vie privée.
4. Data.gov
Lancé en 2009, Data.gov est la source nord-américaine de données. Son catalogue est impressionnant : plus de 218,000 XNUMX jeux de données qui permettent une segmentation par format, balises, types et sujets.
5. Portail de données ouvertes de l'UE
Le portail des données ouvertes de l'UE donne accès aux données ouvertes partagées par les institutions de l'Union européenne. Ce sont des données qui peuvent être destinées à un usage commercial et non commercial. Plus de 15.5 XNUMX ensembles de données sont à la disposition de l'utilisateur, couvrant des sujets tels que la santé, l'énergie, l'environnement, la culture et l'éducation.
Données de santé
Dans le sillage de la crise sanitaire actuelle dans le monde, les ensembles de données générés par les organisations de santé sont essentiels pour développer des solutions efficaces pour sauver des vies. Ces ensembles de données peuvent aider à identifier les facteurs de risque, à déterminer les schémas de transmission des maladies et à accélérer le diagnostic.
Ces ensembles de données comprennent les dossiers de santé, les données démographiques des patients, la prévalence des maladies, l'utilisation médicinale, les valeurs nutritionnelles et bien plus encore.
6. Observatoire de la santé mondiale
Cet ensemble de données est une initiative de l'Organisation mondiale de la santé (OMS). Il fournit des données publiques liées à différents domaines de la santé, organisées par thèmes tels que les systèmes de santé, la lutte contre le tabagisme, la maternité, le VIH/sida, etc. Il est également possible de consulter des données sur le COVID-19.
7. CORDON-19
CORD-19 est un corpus de publications académiques sur le COVID-19 et d'autres articles sur le nouveau coronavirus. Il s'agit d'un ensemble de données ouvert destiné à générer de nouvelles informations sur le COVID-19.
Données économiques
Les ensembles de données liés à l'environnement financier rassemblent généralement une énorme quantité d'informations, car il est courant qu'elles soient collectées depuis longtemps. Ils sont idéaux pour créer des prévisions économiques ou établir des tendances d'investissement.
Avec les bons ensembles de données financières, un Modèle d'apprentissage automatique pourrait être en mesure de prédire le comportement d'un actif donné. C'est pourquoi le secteur financier fait tout ce qui est en son pouvoir pour créer un modèle ML efficace, car tout ce qui peut prédire même raisonnablement bien a le potentiel de générer des millions de dollars. L'apprentissage automatique prédit déjà le comportement des citoyens, ce qui a un impact sur la façon dont les décideurs politiques font leur travail.
8. Fond monétaire international
L'ensemble de données du FMI contient une série d'indicateurs économiques et financiers, des statistiques sur les pays membres et d'autres données sur les prêts et les taux de change.
9. La Banque Mondiale
Le référentiel de la Banque mondiale contient différents ensembles de données avec des informations économiques de différents pays. Il existe plus de 17,000 XNUMX ensembles de données répartis par continents.
Avis sur les produits et services
L'analyse des sentiments a trouvé ses applications dans divers domaines qui aident désormais les entreprises à estimer et à apprendre correctement de leurs clients ou clients. L'analyse des sentiments est de plus en plus utilisée pour la surveillance des médias sociaux, la surveillance de la marque, la voix du client (VoC), le service client et les études de marché.
L'analyse des sentiments utilise la PNL (programmation neuro-linguistique) méthodes et algorithmes basés sur des règles, hybrides ou reposant sur des techniques d'apprentissage automatique pour apprendre des données à partir d'ensembles de données.
Les données nécessaires à l'analyse des sentiments doivent être spécialisées et sont requises en grande quantité. La partie la plus difficile du processus de formation à l'analyse des sentiments n'est pas de trouver des données en grande quantité ; il s'agit plutôt de trouver les ensembles de données pertinents. Ces ensembles de données doivent couvrir un large éventail d'applications d'analyse des sentiments et de cas d'utilisation.
10. Critiques Amazon
Cet ensemble de données contient environ 35 millions d'avis Amazon, couvrant une période de 18 ans d'informations collectées. Il s'agit d'un ensemble de données de produit, d'utilisateur et de contenu d'avis.
11. Avis sur Yelp
Yelp propose également un ensemble de données basé sur les informations recueillies auprès de son service. Il y a plus de 8 millions d'avis, 1 million de conseils et près de 1.5 million d'attributs liés aux entreprises, tels que les heures d'ouverture et la disponibilité.
12. Avis sur IMDB
Cette base de données contient un ensemble de plus de 25 25 critiques de films pour la formation et XNUMX XNUMX autres pour les tests tirés de manière informelle de la page IMDB, spécialisée dans les classements de films. Il propose également des données non étiquetées en plus.
Ensembles de données pour les premiers pas dans le ML
13. Ensemble de données sur la qualité du vin
Cet ensemble de données fournit des informations relatives au vin, rouge et vert, produit dans le nord du Portugal. L'objectif est de définir la qualité du vin sur la base de tests physico-chimiques. Intéressant pour ceux qui veulent s'entraîner à créer un système de prédiction.
14. Ensemble de données Titanic
Cet ensemble de données contient des données de 887 passagers réels du Titanic, chaque colonne définissant s'ils ont survécu, leur âge, leur classe de passagers, leur sexe et les frais d'embarquement qu'ils ont payés. Cet ensemble de données faisait partie d'un défi lancé par la plateforme Kaggle, dont le but était de créer un modèle qui pourrait prédire quels passagers ont survécu au naufrage du Titanic.
Plates-formes pour trouver d'autres ensembles de données
Si vous souhaitez aller plus loin et trouver votre propre jeu de données, le mieux est de parcourir les référentiels les plus célèbres du Machine Learning univers:
Kaggle
Kaggle, une filiale de Google LLC, est une communauté en ligne de scientifiques des données et de professionnels de l'apprentissage automatique. Kaggle permet aux utilisateurs de trouver et de publier des ensembles de données, d'explorer et de créer des modèles dans un environnement de science des données basé sur le Web ; travailler avec d'autres data scientists et Ingénieurs d'apprentissage machine, et participez à des concours pour résoudre les défis de la science des données.
Kaggle a commencé en 2010 en proposant des concours d'apprentissage automatique et propose désormais également un public plateforme de données, un atelier basé sur le cloud pour l'enseignement de la science des données et de l'intelligence artificielle.
Recherche d'ensembles de données
Dataset Search est un moteur de recherche de Google qui aide les chercheurs à localiser des données en ligne librement disponibles. Sur le Web, il existe des millions d'ensembles de données sur presque tous les sujets qui vous intéressent.
Si vous cherchez à acheter un chiot, vous pouvez trouver des ensembles de données compilant les plaintes des acheteurs de chiots ou des études sur la cognition des chiots. Ou si vous aimez le ski, vous pouvez trouver des données sur les revenus des stations de ski ou les taux de blessures et les chiffres de participation. Dataset Search a indexé près de 25 millions de ces ensembles de données, vous offrant un emplacement unique pour rechercher des ensembles de données et trouver des liens vers où se trouvent les données.
Référentiel d'apprentissage automatique UCI
Le référentiel d'apprentissage machine UCI est une collection de bases de données, de théories de domaine et de générateurs de données qui sont utilisés par la communauté d'apprentissage machine pour l'analyse empirique des algorithmes d'apprentissage machine. L'archive a été créée en tant qu'archive ftp en 1987 par David Aha et d'autres étudiants diplômés de l'UC Irvine.
Depuis lors, il a été largement utilisé par les étudiants, les enseignants et les chercheurs du monde entier comme source principale d'ensembles de données ML. Comme indication de l'impact de l'archive, elle a été citée plus de 1000 fois, ce qui en fait l'un des 100 « articles » les plus cités dans toute l'informatique.
Quandl
Quandl est une plateforme qui fournit à ses utilisateurs des ensembles de données économiques, financières et alternatives. Les utilisateurs peuvent télécharger des données gratuites, acheter des données payantes ou vendre des données à Quandl. Il peut être un outil utile pour le développement de algorithmes de trading, Par exemple.
Conclusion
En explorant ces outils, vous êtes sûr de trouver d'excellentes entrées pour vos projets. Assurez-vous de choisir l'ensemble de données qui convient le mieux à vos besoins spécifiques et gardez toujours à l'esprit qu'il ne s'agit pas seulement de quantité, mais aussi de qualité. L'ensemble de données est la base de tout Projet d'apprentissage automatique et il est essentiel de s'appuyer sur des données de qualité afin d'éviter le risque de tirer des conclusions erronées.
Soyez sympa! Laissez un commentaire