Table des matières[Cacher][Montrer]
Les programmes d'analyse avancée et d'apprentissage automatique sont propulsés par les données, mais l'accès à ces données peut être difficile pour les universitaires en raison de problèmes de confidentialité et de procédures commerciales.
Les données synthétiques, qui peuvent être partagées et utilisées d'une manière que les données réelles ne peuvent pas, sont une nouvelle direction potentielle à poursuivre. Cependant, cette nouvelle stratégie n'est pas sans dangers ni inconvénients, il est donc crucial que les entreprises examinent attentivement où et comment elles utilisent leurs ressources.
À l'ère actuelle de l'IA, nous pouvons également affirmer que les données sont le nouveau pétrole, mais seuls quelques privilégiés sont assis sur un jaillissement. Par conséquent, beaucoup de gens produisent leur propre carburant, qui est à la fois abordable et efficace. C'est ce qu'on appelle des données synthétiques.
Dans cet article, nous examinerons en détail les données synthétiques : pourquoi les utiliser, comment les produire, ce qui les différencie des données réelles, les cas d'utilisation qu'elles peuvent servir, et bien plus encore.
Alors, qu'est-ce que les données synthétiques ?
Lorsque les ensembles de données authentiques sont inadéquats en termes de qualité, de nombre ou de diversité, des données synthétiques peuvent être utilisées pour former des modèles d'IA à la place de données historiques réelles.
Lorsque les données existantes ne répondent pas aux exigences de l'entreprise ou présentent des risques de confidentialité lorsqu'elles sont utilisées pour développer machine learning modèles, logiciels de test, etc., les données synthétiques peuvent être un outil important pour les efforts d'IA des entreprises.
En termes simples, les données synthétiques sont fréquemment utilisées à la place des données réelles. Plus précisément, ce sont des données qui ont été étiquetées artificiellement et produites par des simulations ou des algorithmes informatiques.
Les données synthétiques sont des informations qui ont été créées artificiellement par un programme informatique plutôt qu'à la suite d'événements réels. Les entreprises peuvent ajouter des données synthétiques à leurs données de formation pour couvrir toutes les situations d'utilisation et de périphérie, réduire le coût de la collecte de données ou satisfaire aux réglementations en matière de confidentialité.
Les données artificielles sont désormais plus accessibles que jamais grâce aux améliorations de la puissance de traitement et des méthodes de stockage des données comme le cloud. Les données synthétiques améliorent la création de solutions d'IA qui sont plus bénéfiques pour tous les utilisateurs finaux, et c'est sans aucun doute une bonne évolution.
Quelle est l'importance des données synthétiques et pourquoi devriez-vous les utiliser ?
Lors de la formation de modèles d'IA, les développeurs ont souvent besoin d'énormes ensembles de données avec un étiquetage précis. Lorsqu'il est enseigné avec des données plus variées, les réseaux de neurones effectuer avec plus de précision.
Cependant, la collecte et l'étiquetage de ces ensembles de données massifs contenant des centaines, voire des millions d'éléments, peuvent prendre beaucoup de temps et d'argent. Le prix de production des données de formation peut être considérablement réduit en utilisant des données synthétiques. Par exemple, si elle est créée artificiellement, une image d'entraînement qui coûte 5 $ lorsqu'elle est achetée auprès d'un fournisseur d'étiquetage de données pourrait ne coûter que 0.05 $.
Les données synthétiques peuvent atténuer les problèmes de confidentialité liés aux données potentiellement sensibles générées à partir du monde réel tout en réduisant les dépenses.
Par rapport aux données authentiques, qui ne pourraient pas refléter avec précision l'éventail complet des faits sur le monde réel, cela pourrait aider à réduire les préjugés. En fournissant des occurrences inhabituelles qui représentent des possibilités plausibles mais qui peuvent être difficiles à obtenir à partir de données légitimes, les données synthétiques peuvent offrir une plus grande diversité.
Les données synthétiques pourraient parfaitement convenir à votre projet pour les raisons énumérées ci-dessous :
1. La robustesse du modèle
Sans avoir à l'acquérir, accédez à des données plus variées pour vos modèles. Avec des données synthétiques, vous pouvez former votre modèle en utilisant des variantes de la même personne avec diverses coupes de cheveux, poils du visage, lunettes, poses de tête, etc., ainsi que le teint de la peau, les traits ethniques, la structure osseuse, les taches de rousseur et d'autres caractéristiques pour générer unique visages et le fortifier.
2. Les cas limites sont pris en compte
Équilibré l'ensemble de données est préféré par l'apprentissage automatique algorithmes. Repensez à notre exemple de reconnaissance faciale. La précision de leurs modèles se serait améliorée (et en fait, certaines de ces entreprises ont fait exactement cela), et elles auraient produit un modèle plus moral si elles avaient produit des données synthétiques de visages à la peau plus foncée pour combler leurs lacunes en matière de données. Les équipes peuvent couvrir tous les cas d'utilisation, y compris les cas extrêmes où les données sont rares ou inexistantes, à l'aide de données synthétiques.
3. Elles peuvent être obtenues plus rapidement que les données "réelles"
Les équipes sont capables de générer rapidement de grandes quantités de données synthétiques. Ceci est particulièrement utile lorsque les données réelles dépendent d'événements sporadiques. Les équipes peuvent avoir du mal à obtenir suffisamment de données réelles sur les conditions routières difficiles lors de la collecte de données pour une voiture autonome, par exemple, en raison de leur rareté. Afin d'accélérer le processus d'annotation laborieux, les scientifiques des données peuvent mettre en place des algorithmes pour étiqueter automatiquement les données synthétiques au fur et à mesure de leur génération.
4. Il sécurise les informations de confidentialité des utilisateurs
Les entreprises peuvent avoir des problèmes de sécurité lors du traitement de données sensibles, selon l'activité et le type de données. Les informations personnelles sur la santé (PHI), par exemple, sont fréquemment incluses dans les données des patients hospitalisés dans le secteur de la santé et doivent être traitées avec la plus grande sécurité.
Étant donné que les données synthétiques n'incluent pas d'informations sur les personnes réelles, les problèmes de confidentialité sont atténués. Envisagez d'utiliser des données synthétiques comme alternative si votre équipe doit respecter certaines lois sur la confidentialité des données.
Données réelles vs données synthétiques
Dans le monde réel, des données réelles sont obtenues ou mesurées. Lorsqu'une personne utilise un smartphone, un ordinateur portable ou un ordinateur, porte une montre-bracelet, accède à un site Web ou effectue une transaction en ligne, ce type de données est généré instantanément.
De plus, les enquêtes peuvent être utilisées pour fournir des données authentiques (en ligne et hors ligne). Les paramètres numériques produisent des données synthétiques. À l'exception de la partie qui n'a pas été dérivée d'événements du monde réel, les données synthétiques sont créées d'une manière qui imite avec succès les données réelles en termes de qualités fondamentales.
L'idée d'utiliser des données synthétiques comme substitut aux données réelles est très prometteuse puisqu'elle peut être utilisée pour données de formation que l'apprentissage automatique les modèles exigent. Mais ce n'est pas certain que intelligence artificielle peut résoudre tous les problèmes qui se posent dans le monde réel.
Les cas d'utilisation
Les données synthétiques sont utiles à diverses fins commerciales, notamment la formation de modèles, la validation de modèles et les tests de nouveaux produits. Nous énumérerons quelques-uns des secteurs qui ont ouvert la voie dans son application à l'apprentissage automatique :
1. Soins De Santé
Compte tenu de la sensibilité de ses données, le secteur de la santé se prête bien à l'utilisation de données synthétiques. Les données synthétiques peuvent être utilisées par les équipes pour enregistrer les physiologies de tous les types de patients qui pourraient exister, aidant ainsi à un diagnostic plus rapide et plus précis des maladies.
Le modèle de détection de mélanome de Google en est une illustration intrigante puisqu'il intègre des données synthétiques de personnes à la peau plus foncée (un domaine de données cliniques malheureusement sous-représenté) pour fournir au modèle la capacité de fonctionner efficacement pour tous les types de peau.
2. Les automobiles
Les simulateurs sont fréquemment utilisés par les entreprises qui créent des automobiles autonomes pour évaluer les performances. Lorsque le temps est rude, par exemple, la collecte de données routières réelles peut être risquée ou difficile.
S'appuyer sur des tests réels avec des voitures réelles sur les routes n'est généralement pas une bonne idée car il y a tout simplement trop de variables à prendre en compte dans toutes les différentes situations de conduite.
3. Portabilité des données
Pour pouvoir partager leurs données de formation avec d'autres, les organisations ont besoin de méthodes fiables et sécurisées. Cacher les informations personnellement identifiables (PII) avant de rendre l'ensemble de données public est une autre application intrigante pour les données synthétiques. L'échange d'ensembles de données de recherche scientifique, de données médicales, de données sociologiques et d'autres champs susceptibles de contenir des IPI est appelé données synthétiques préservant la confidentialité.
4. Sécurité
Les organisations sont plus sécurisées grâce aux données synthétiques. En ce qui concerne notre exemple de reconnaissance faciale, vous connaissez peut-être l'expression «deep fakes», qui décrit des photos ou des vidéos fabriquées. Des contrefaçons profondes peuvent être produites par des entreprises pour tester leurs propres systèmes de reconnaissance faciale et de sécurité. Les données synthétiques sont également utilisées dans la vidéosurveillance pour former des modèles plus rapidement et à moindre coût.
Données synthétiques et apprentissage automatique
Pour construire un modèle solide et fiable, les algorithmes d'apprentissage automatique ont besoin d'une quantité importante de données à traiter. En l'absence de données synthétiques, produire un si grand volume de données serait difficile.
Dans des domaines comme la vision par ordinateur ou le traitement d'images, où le développement de modèles est facilité par le développement de données synthétiques précoces, cela peut être extrêmement important. Un nouveau développement dans le domaine de la reconnaissance d'images est l'utilisation des réseaux antagonistes génératifs (GAN). Se compose généralement de deux réseaux : un générateur et un discriminateur.
Alors que le réseau discriminateur vise à séparer les vraies photos des fausses, le réseau générateur fonctionne pour produire des images synthétiques qui ressemblent beaucoup plus aux images du monde réel.
Dans l'apprentissage automatique, les GAN sont un sous-ensemble de la famille des réseaux de neurones, où les deux réseaux apprennent et se développent en continu en ajoutant de nouveaux nœuds et couches.
Lors de la création de données synthétiques, vous avez la possibilité de modifier l'environnement et le type de données selon vos besoins pour améliorer les performances du modèle. Alors que la précision des données synthétiques peut être facilement atteinte avec un score élevé, la précision des données en temps réel étiquetées peut parfois être extrêmement coûteuse.
Comment générer des données synthétiques ?
Les approches utilisées pour créer une collection de données synthétiques sont les suivantes :
Basé sur la distribution statistique
La stratégie utilisée dans ce cas consiste à tirer des chiffres de la distribution ou à examiner les distributions statistiques réelles afin de créer de fausses données qui semblent comparables. Les données réelles peuvent être complètement absentes dans certaines circonstances.
Un spécialiste des données peut générer un ensemble de données contenant un échantillon aléatoire de n'importe quelle distribution s'il a une compréhension approfondie de la distribution statistique dans les données réelles. La distribution normale, la distribution exponentielle, la distribution chi carré, la distribution log-normale, etc. ne sont que quelques exemples de distributions de probabilités statistiques qui peuvent être utilisées à cette fin.
Le niveau d'expérience du data scientist avec la situation aura un impact significatif sur la précision du modèle formé.
Selon le modèle
Cette technique construit un modèle qui tient compte du comportement observé avant d'utiliser ce modèle pour générer des données aléatoires. Essentiellement, cela implique d'ajuster des données réelles à des données d'une distribution connue. L'approche Monte Carlo peut ensuite être utilisée par les entreprises pour créer de fausses données.
De plus, les distributions peuvent également être ajustées à l'aide de modèles d'apprentissage automatique comme les arbres de décision. Data scientists doit cependant faire attention aux prévisions, car les arbres de décision sont généralement surajustés en raison de leur simplicité et de leur expansion en profondeur.
Avec un apprentissage en profondeur
L'apprentissage en profondeur Les modèles qui utilisent un auto-encodeur variationnel (VAE) ou des modèles de réseau antagoniste génératif (GAN) sont deux façons de créer des données synthétiques. Les modèles d'apprentissage automatique non supervisés incluent les VAE.
Ils sont constitués d'encodeurs, qui rétrécissent et compactent les données d'origine, et de décodeurs, qui scrutent ces données pour fournir une représentation des données réelles. Maintenir les données d'entrée et de sortie aussi identiques que possible est l'objectif fondamental d'une VAE. Deux réseaux de neurones opposés sont les modèles GAN et les réseaux contradictoires.
Le premier réseau, dit réseau générateur, est chargé de produire de fausses données. Le réseau discriminateur, le deuxième réseau, fonctionne en comparant les données synthétiques créées avec les données réelles dans le but d'identifier si l'ensemble de données est frauduleux. Le discriminateur alerte le générateur lorsqu'il découvre un jeu de données erroné.
Le lot de données suivant fourni au discriminateur est ensuite modifié par le générateur. En conséquence, le discriminateur s'améliore avec le temps pour repérer les faux ensembles de données. Ce type de modèle est fréquemment utilisé dans le secteur financier pour la détection des fraudes ainsi que dans le secteur de la santé pour l'imagerie médicale.
L'augmentation des données est une méthode différente que les data scientists utilisent pour produire plus de données. Il ne faut cependant pas le confondre avec de fausses données. En termes simples, l'augmentation des données consiste à ajouter de nouvelles données à un ensemble de données authentique qui existe déjà.
Créer plusieurs images à partir d'une seule image, par exemple en ajustant l'orientation, la luminosité, le grossissement, etc. Parfois, l'ensemble de données réel est utilisé avec seulement les informations personnelles restantes. L'anonymisation des données est ce que c'est, et un ensemble de telles données ne doit pas non plus être considéré comme des données synthétiques.
Défis et limites des données synthétiques
Bien que les données synthétiques présentent divers avantages qui peuvent aider les entreprises dans leurs activités de science des données, elles présentent également certaines limites :
- La fiabilité des données : Il est de notoriété publique que chaque modèle d'apprentissage automatique/d'apprentissage en profondeur est aussi bon que les données qu'il alimente. La qualité des données synthétiques dans ce contexte est fortement liée à la qualité des données d'entrée et du modèle utilisé pour produire les données. Il est essentiel de s'assurer qu'aucun biais n'existe dans les données sources, car ceux-ci peuvent être très clairement reflétés dans les données synthétiques. De plus, avant de faire des prévisions, la qualité des données doit être confirmée et vérifiée.
- Nécessite des connaissances, des efforts et du temps : Bien que la création de données synthétiques puisse être plus simple et moins coûteuse que la création de données authentiques, elle nécessite des connaissances, du temps et des efforts.
- Réplication des anomalies: La réplique parfaite des données du monde réel n'est pas possible ; les données synthétiques ne peuvent qu'en faire une approximation. Par conséquent, certaines valeurs aberrantes qui existent dans des données réelles peuvent ne pas être couvertes par des données synthétiques. Les anomalies de données sont plus importantes que les données typiques.
- Contrôler la production et assurer la qualité: Les données synthétiques sont destinées à répliquer des données du monde réel. La vérification manuelle des données devient essentielle. Il est essentiel de vérifier l'exactitude des données avant de les incorporer dans des modèles d'apprentissage automatique/d'apprentissage en profondeur pour des ensembles de données complexes créés automatiquement à l'aide d'algorithmes.
- Les commentaires des utilisateurs: Les données synthétiques étant un concept nouveau, tout le monde ne sera pas prêt à croire les prévisions faites avec. Cela indique que pour accroître l'acceptabilité des utilisateurs, il est d'abord nécessaire d'accroître les connaissances sur l'utilité des données synthétiques.
A venir
L'utilisation de données synthétiques a considérablement augmenté au cours de la décennie précédente. S'il permet aux entreprises d'économiser du temps et de l'argent, il n'est pas sans inconvénients. Il manque des valeurs aberrantes, qui se produisent naturellement dans les données réelles et sont essentielles pour la précision de certains modèles.
Il convient également de noter que la qualité des données synthétiques dépend souvent des données d'entrée utilisées pour la création ; les biais dans les données d'entrée peuvent rapidement se propager dans les données synthétiques, il ne faut donc pas surestimer le choix de données de haute qualité comme point de départ.
Enfin, il nécessite un contrôle de sortie supplémentaire, notamment en comparant les données synthétiques avec des données réelles annotées par l'homme pour vérifier que des écarts ne sont pas introduits. Malgré ces obstacles, les données synthétiques restent un domaine prometteur.
Cela nous aide à créer de nouvelles solutions d'IA même lorsque les données du monde réel ne sont pas disponibles. Plus important encore, il permet aux entreprises de créer des produits plus inclusifs et représentatifs de la diversité de leurs consommateurs finaux.
Dans un avenir axé sur les données, cependant, les données synthétiques visent à aider les scientifiques des données à effectuer des tâches nouvelles et créatives qui seraient difficiles à accomplir uniquement avec des données du monde réel.
Conclusion
Dans certains cas, les données synthétiques peuvent pallier un déficit de données ou un manque de données pertinentes au sein d'une entreprise ou d'une organisation. Nous avons également examiné quelles stratégies peuvent aider à générer des données synthétiques et qui peut en tirer profit.
Nous avons également parlé de certaines des difficultés liées au traitement des données synthétiques. Pour la prise de décision commerciale, les données réelles seront toujours privilégiées. Cependant, des données réalistes sont la meilleure option lorsque ces véritables données brutes ne sont pas accessibles pour analyse.
Cependant, il faut rappeler que pour produire des données synthétiques, des data scientists ayant une solide maîtrise de la modélisation des données sont nécessaires. Une compréhension approfondie des données réelles et de leur environnement est également essentielle. Ceci est essentiel pour s'assurer que, si elles sont disponibles, les données produites sont aussi précises que possible.
Soyez sympa! Laissez un commentaire