Génération de données synthétiques : types, techniques et plus

Table des matières[Cacher][Montrer]

Qu'est-ce qu'une donnée synthétique ?
Importance des données synthétiques
Types de données synthétiques+-
Techniques de génération de données synthétiques+-
Fournisseurs de données synthétiques+-
- Données structurées
- Données non structurées
Défis
Conclusion

Les chercheurs et les spécialistes des données rencontrent souvent des circonstances dans lesquelles ils ne disposent pas des données réelles ou sont incapables de les utiliser pour des raisons de confidentialité ou de respect de la vie privée.

Pour résoudre ce problème, la production de données synthétiques est utilisée pour produire un remplacement des données authentiques.

Le remplacement approprié des données authentiques est nécessaire pour que l'algorithme fonctionne correctement, ce qui doit également être de caractère réaliste. Vous pouvez utiliser ces données pour préserver la confidentialité, tester des systèmes ou produire des données de formation pour les algorithmes d'apprentissage automatique.

Explorons en détail la génération de données synthétiques et voyons pourquoi elles sont vitales à l'ère de l'IA.

Qu'est-ce qu'une donnée synthétique ?

Les données synthétiques sont des données annotées générées par des simulations informatiques ou des algorithmes en remplacement des données du monde réel. Il s'agit d'une réplique de données réelles générée par l'intelligence artificielle.

On peut utiliser des modèles de données et des dimensions à l'aide d'algorithmes d'IA avancés. Ils peuvent créer une quantité illimitée de données synthétiques statistiquement représentatives des données d'entraînement d'origine une fois qu'ils sont entraînés.

Il existe une variété d'approches et de technologies qui peuvent nous aider à créer des données synthétiques et que vous pouvez utiliser dans une variété d'applications.

Les logiciels de génération de données nécessitent souvent :

Métadonnées d'un référentiel de données, pour lequel des données synthétiques doivent être créées.
Technique de génération de valeurs plausibles mais fictives. Les exemples incluent les listes de valeurs et les expressions régulières.
Connaissance complète de toutes les relations de données, celles déclarées au niveau de la base de données ainsi que celles contrôlées au niveau du code de l'application.

Il faut également valider le modèle et comparer les aspects comportementaux des données réelles à ceux générés par le modèle.

Ces ensembles de données fictifs ont toute la valeur de la réalité, mais aucune des données sensibles. C'est comme un gâteau succulent et sans calories. Il dépeint fidèlement le monde réel.

Par conséquent, vous pouvez l'utiliser pour remplacer les données du monde réel.

Importance des données synthétiques

Les données synthétiques ont des caractéristiques pour répondre à certaines demandes ou situations qui, autrement, ne seraient pas disponibles dans les données du monde réel. Lorsqu'il y a un manque de données pour les tests ou lorsque la confidentialité est une considération primordiale, il vient à la rescousse.

Les ensembles de données générés par l'IA sont adaptables, sécurisés et faciles à stocker, échanger et supprimer. La technique de synthèse des données est appropriée pour créer des sous-ensembles et améliorer les données d'origine.

Par conséquent, il est idéal pour une utilisation en tant que données de test et données de formation IA.

Pour enseigner Uber basé sur ML et Voitures autonomes Tesla.
Dans les industries médicales et de la santé, pour évaluer des maladies et des circonstances spécifiques pour lesquelles des données authentiques n'existent pas.
La détection et la protection contre la fraude sont cruciales dans le secteur financier. En l'utilisant, vous pouvez enquêter sur de nouvelles instances frauduleuses.
Amazon forme le système linguistique d'Alexa à l'aide de données synthétiques.
American Express utilise des données financières synthétiques pour améliorer la détection des fraudes.

Types de données synthétiques

Les données synthétiques sont créées de manière aléatoire dans le but de dissimuler des informations privées sensibles tout en conservant des informations statistiques sur les caractéristiques des données d'origine.

Il est principalement de trois types :

Données entièrement synthétiques
Données partiellement synthétiques
Données synthétiques hybrides

1. Données entièrement synthétiques

Ces données sont entièrement générées et ne contiennent aucune donnée originale.

En règle générale, le générateur de données de ce type identifie les fonctions de densité des entités dans les données réelles et estime leurs paramètres. Plus tard, à partir des fonctions de densité prédites, des séries protégées par la confidentialité sont créées au hasard pour chaque entité.

Si seules quelques caractéristiques des données réelles sont choisies pour être remplacées par celles-ci, les séries protégées de ces caractéristiques sont mappées aux caractéristiques restantes des données réelles pour classer les séries protégées et réelles dans le même ordre.

Les techniques bootstrap et les imputations multiples sont deux méthodes traditionnelles pour produire des données entièrement synthétiques.

Étant donné que les données sont entièrement synthétiques et qu'aucune donnée réelle n'existe, cette stratégie offre une excellente protection de la vie privée en s'appuyant sur la véracité des données.

2. Données partiellement synthétiques

Ces données utilisent uniquement des valeurs synthétiques pour remplacer les valeurs de quelques fonctionnalités sensibles.

Dans cette situation, les valeurs authentiques ne sont modifiées que s'il existe un risque substantiel d'exposition. Ce changement est fait pour protéger la confidentialité des données fraîchement créées.

L'imputation multiple et des approches fondées sur des modèles sont utilisées pour produire des données partiellement synthétiques. Ces méthodes peuvent également être utilisées pour remplir les valeurs manquantes dans les données du monde réel.

3. Données synthétiques hybrides

Les données synthétiques hybrides comprennent à la fois des données réelles et fausses.

Un quasi-enregistrement y est sélectionné pour chaque enregistrement aléatoire de données réelles, et les deux sont ensuite joints pour générer des données hybrides. Il présente les avantages de données entièrement synthétiques et partiellement synthétiques.

Il offre donc une forte préservation de la vie privée avec une grande utilité par rapport aux deux autres, mais au prix de plus de mémoire et de temps de traitement.

Techniques de génération de données synthétiques

Pendant de nombreuses années, le concept de données fabriquées par la machine a été populaire. Maintenant, il mûrit.

Voici quelques-unes des techniques utilisées pour générer des données synthétiques :

1. Basé sur la distribution

Dans le cas où aucune donnée réelle n'existe, mais que l'analyste de données a une idée précise de la façon dont la distribution de l'ensemble de données apparaîtrait ; ils peuvent produire un échantillon aléatoire de n'importe quelle distribution, y compris normale, exponentielle, chi carré, t, lognormal et uniforme.

La valeur des données synthétiques dans cette méthode varie en fonction du niveau de compréhension de l'analyste sur un certain environnement de données.

2. Données du monde réel dans une distribution connue

Les entreprises peuvent le produire en identifiant les distributions les mieux ajustées pour des données réelles données s'il existe des données réelles.

Les entreprises peuvent utiliser l'approche de Monte Carlo pour le produire si elles souhaitent ajuster des données réelles dans une distribution connue et connaître les paramètres de distribution.

Bien que l'approche de Monte Carlo puisse aider les entreprises à localiser la meilleure correspondance disponible, la meilleure adéquation peut ne pas être suffisamment utile pour les besoins de données synthétiques de l'entreprise.

Les entreprises pourraient envisager d'utiliser des modèles d'apprentissage automatique pour s'adapter aux distributions dans ces circonstances.

Les techniques d'apprentissage automatique, telles que les arbres de décision, permettent aux organisations de modéliser des distributions non classiques, qui peuvent être multimodales et manquer des propriétés communes des distributions reconnues.

Les entreprises peuvent produire des données synthétiques qui se connectent à des données authentiques à l'aide de cette distribution ajustée d'apprentissage automatique.

Toutefois, modèles d'apprentissage automatique sont susceptibles de sur-ajustement, ce qui les empêche de faire correspondre les nouvelles données ou de prédire les observations futures.

3. Apprentissage en profondeur

Les modèles génératifs profonds comme le Variational Autoencoder (VAE) et le Generative Adversarial Network (GAN) peuvent produire des données synthétiques.

Autoencodeur variationnel

VAE est une approche non supervisée dans laquelle l'encodeur compresse l'ensemble de données d'origine et envoie les données au décodeur.

Le décodeur produit alors une sortie qui est une représentation de l'ensemble de données d'origine.

L'apprentissage du système implique de maximiser la corrélation entre les données d'entrée et de sortie.

Vae

Réseau d'adversaire génératif

Le modèle GAN entraîne le modèle de manière itérative à l'aide de deux réseaux, le générateur et le discriminateur.

Le générateur crée un ensemble de données synthétiques à partir d'un ensemble d'échantillons de données aléatoires.

Le discriminateur compare les données créées synthétiquement à un ensemble de données réel en utilisant des conditions prédéfinies.

Gan

Fournisseurs de données synthétiques

Données structurées

Les plateformes mentionnées ci-dessous fournissent des données synthétiques dérivées de données tabulaires.

Il réplique les données du monde réel conservées dans des tables et peut être utilisé pour l'analyse comportementale, prédictive ou transactionnelle.

Instiller l'IA: Il s'agit d'un fournisseur d'un système de création de données synthétiques qui utilise les réseaux antagonistes génératifs et la confidentialité différentielle.
Meilleures données: Il s'agit d'un fournisseur d'une solution de données synthétiques préservant la confidentialité pour l'IA, le partage de données et le développement de produits.
Divépale: C'est le fournisseur de Geminai, un système de création d'ensembles de données "jumeaux" avec les mêmes caractéristiques statistiques que les données d'origine.

Données non structurées

Les plates-formes mentionnées ci-dessous fonctionnent avec des données non structurées, fournissant des biens et services de données synthétiques pour la formation d'algorithmes de vision et de reconnaissance.

Générateur de données: Il fournit des données de formation simulées en 3D pour l'apprentissage et le développement de l'IA visuelle.
Neurolabs: Neurolabs est un fournisseur d'une plate-forme de données synthétiques de vision par ordinateur.
Domaine parallèle: Il s'agit d'un fournisseur d'une plate-forme de données synthétiques pour la formation de systèmes autonomes et les tests de cas d'utilisation.
Belle-sœur: C'est un fournisseur de simulation pour ADAS et les développeurs de véhicules autonomes.
Bifrost: Il fournit des API de données synthétiques pour créer des environnements 3D.

3 2

Défis

Il a une longue histoire dans Intelligence artificielle, et bien qu'il présente de nombreux avantages, il présente également des inconvénients importants que vous devez résoudre lorsque vous travaillez avec des données synthétiques.

Voici quelques-uns d'entre eux:

De nombreuses erreurs peuvent se produire lors de la copie de la complexité des données réelles vers des données synthétiques.
La nature malléable de celui-ci conduit à des biais dans son comportement.
Il peut y avoir des défauts cachés dans les performances des algorithmes formés à l'aide de représentations simplifiées de données synthétiques qui ont récemment fait surface lors du traitement de données réelles.
La réplication de tous les attributs pertinents à partir de données du monde réel peut devenir compliquée. Il est également possible que certains aspects essentiels soient négligés tout au long de cette opération.

Conclusion

La production de données synthétiques retient clairement l'attention.

Cette méthode peut ne pas être une réponse unique pour tous les cas générateurs de données.

En outre, la technique peut nécessiter une intelligence via AI/ML et être capable de gérer des situations compliquées du monde réel de création de données interdépendantes, idéalement des données adaptées à un certain domaine.

Néanmoins, il s'agit d'une technologie innovante qui comble une lacune là où d'autres technologies de protection de la vie privée sont insuffisantes.

Aujourd'hui, le synthétique la production de données peut nécessiter la coexistence de masquage de données.

À l'avenir, il pourrait y avoir une plus grande convergence entre les deux, ce qui se traduirait par une solution de génération de données plus complète.

Partagez vos points de vue dans les commentaires !

Génération de données synthétiques : types, techniques et plus

Qu'est-ce qu'une donnée synthétique ?

Importance des données synthétiques