Augmentation des données : essentielle pour les modèles d'apprentissage automatique

Table des matières[Cacher][Montrer]

Alors, qu'est-ce que l'augmentation des données ?
À quoi sert l'augmentation des données dans le présent ?
Types d'augmentation de données+-
- Augmentation réelle des données
- Augmentation des données synthétiques
Techniques d'augmentation des données+-
Case Study
Défis
Conclusion

La plupart des modèles d'apprentissage automatique et d'apprentissage en profondeur dépendent fortement de la quantité et de la variété des données pour bien fonctionner. Le volume et la diversité des données fournies lors de la formation ont un impact significatif sur la précision de prédiction de ces modèles.

Les modèles d'apprentissage en profondeur qui ont appris à effectuer efficacement des tâches complexes incluent souvent des neurones cachés. Le nombre de paramètres entraînables augmente en fonction du nombre de neurones cachés.

La quantité de données requises est proportionnelle au nombre de paramètres apprenables du modèle. Une méthode pour faire face à la difficulté des données limitées consiste à appliquer une variété de transformations aux données actuelles pour synthétiser de nouvelles données.

La technique de synthèse de nouvelles données à partir de données existantes est appelée « augmentation des données ». L'augmentation des données peut être utilisée pour répondre aux deux exigences : le volume de données et la variété des données de formation nécessaires pour développer des modèles d'apprentissage automatique ou d'apprentissage profond.

Dans cet article, nous examinerons de près l'augmentation des données, ses types, pourquoi elle est essentielle et bien plus encore.

Alors, qu'est-ce que l'augmentation des données ?

L'augmentation des données est le processus de développement de données nouvelles et représentatives à partir de données existantes. Vous pouvez y parvenir en incluant des versions modifiées de données existantes ou en synthétisant de nouvelles données.

Les ensembles de données produits par cette méthode amélioreront votre machine learning ou modèles d'apprentissage profond en minimisant le risque de surajustement. C'est le processus de modification ou « d'augmentation » d'un ensemble de données avec des informations supplémentaires.

Cette entrée supplémentaire peut aller des images au texte et améliore les performances des systèmes d'apprentissage automatique.

Supposons que nous voulions construire un modèle pour catégoriser les races de chiens et que nous disposions d'un grand nombre de photographies de toutes les variétés, à l'exception des carlins. En conséquence, le modèle aurait du mal à catégoriser les carlins.

Nous pourrions ajouter des photos de carlin supplémentaires (réelles ou fausses) à la collection, ou nous pourrions doubler nos photographies de carlin actuelles (par exemple en les reproduisant et en les déformant pour les rendre artificiellement uniques).

À quoi sert l'augmentation des données dans le présent ?

Applications pour machine learning se développent et se diversifient rapidement, notamment dans le domaine du deep learning. Les défis auxquels l'industrie de l'intelligence artificielle est confrontée peuvent être surmontés grâce à des techniques d'augmentation des données.

L'augmentation des données peut améliorer les performances et les résultats des modèles d'apprentissage automatique en ajoutant des exemples nouveaux et variés aux ensembles de données de formation.

Lorsque l'ensemble de données est volumineux et suffisant, un modèle d'apprentissage automatique fonctionne mieux et est plus précis. Pour les modèles d'apprentissage automatique, la collecte et l'étiquetage des données peuvent prendre du temps et coûter cher.

Les entreprises peuvent réduire leurs coûts opérationnels en modifiant les ensembles de données et en utilisant des stratégies d'augmentation des données.

Le nettoyage des données est l'une des étapes du développement d'un modèle de données, et il est essentiel pour les modèles de haute précision. Cependant, le modèle ne pourra pas anticiper les entrées appropriées du monde réel si le nettoyage des données diminue la représentabilité.

Les modèles d'apprentissage automatique peuvent être renforcés en utilisant des approches d'augmentation des données, qui produisent des variances que le modèle pourrait rencontrer dans le monde réel.

Types d'augmentation de données

Augmentation réelle des données

L'augmentation réelle des données se produit lorsque vous ajoutez des données supplémentaires authentiques à un jeu de données. Cela peut aller de fichiers texte avec des attributs supplémentaires (pour les images étiquetées) à des images d'autres objets comparables à l'objet d'origine, ou même des enregistrements de la chose réelle.

Par exemple, en ajoutant quelques fonctionnalités supplémentaires à un fichier image, un modèle d'apprentissage automatique peut détecter l'élément plus facilement.

Plus de métadonnées sur chaque image (par exemple, son nom et sa description) pourraient être incluses afin que notre modèle d'IA en sache plus sur ce que chaque image représente avant de commencer à s'entraîner sur ces photos.

Lorsque vient le temps de catégoriser les nouvelles photos dans l'une de nos catégories prédéterminées, comme "chat" ou "chien", le modèle pourrait être mieux à même de détecter les éléments présents dans une image et de mieux performer en conséquence.

Données synthétiques Augmentation

En plus d'ajouter plus de données réelles, vous pouvez également contribuer données synthétiques ou des données artificielles qui semblent authentiques.

Ceci est bénéfique pour les tâches difficiles comme le transfert de style neuronal, mais c'est également bon pour toute conception, que vous utilisiez des GAN (Generative Adversarial Networks), des CNN (Convolutional Neural Networks) ou d'autres architectures de réseaux neuronaux profonds.

Par exemple, si nous voulons catégoriser correctement les carlins sans avoir à sortir et à prendre un certain nombre de photos, nous pourrions ajouter de fausses photographies de carlin à une collection d'images de chiens.

Cette forme d'augmentation des données est particulièrement efficace pour améliorer la précision du modèle lorsque la collecte de données est difficile, coûteuse ou chronophage. Dans cette situation, nous élargissons artificiellement l'ensemble de données.

Supposons que notre groupe initial de 1000 photographies de races de chiens ne contienne que 5 images de carlins. Plutôt que d'ajouter des photographies de carlin réelles supplémentaires de vrais chiens, créons-en une fausse en clonant l'une des photographies actuelles et en la déformant légèrement pour qu'elle ressemble toujours à un carlin.

Techniques d'augmentation des données

Les approches d'augmentation des données impliquent d'apporter peu de modifications aux données existantes. C'est la même chose que de reformuler une déclaration. Nous pouvons diviser l'augmentation des données en trois catégories :

Texte

Remplacement de mots : cette approche d'augmentation des données comprend le remplacement des termes actuels par des synonymes. Par exemple, "Ce film est idiot" peut devenir "Ce film est idiot".
Mélange de phrases/mots : cette stratégie consiste à changer la séquence de phrases ou de mots tout en maintenant la cohérence globale.
Manipulation de l'arbre syntaxique : vous modifiez une phrase existante pour qu'elle soit grammaticalement précise tout en utilisant les mêmes termes.
Suppression aléatoire : bien que cette stratégie produise une écriture laide, elle est efficace. En conséquence, la ligne "Je n'achèterai pas ce disque car il est rayé" devient "Je n'achèterai pas ce disque car il est rayé". La phrase est moins claire, mais elle reste un ajout plausible.
Back Translation : Cette approche est à la fois efficace et agréable. Prenez une déclaration écrite dans votre langue, traduisez-la dans une autre langue, puis retraduisez-la dans votre langue d'origine.

Ajouter des images

Filtres du noyau : Cette approche rend plus nette ou rend floue une image.
Combinaison d'images : Bien que cela puisse sembler étrange, vous pouvez mélanger des photos.
Effacer au hasard : Supprimer une infime partie de l'image actuelle.
Transformations géométriques : cette approche comprend, entre autres, le retournement, la rotation, le recadrage ou la traduction arbitraire d'images.
Retourner une image : Vous pouvez retourner une image de l'orientation horizontale à la verticale.
Transformation de l'espace colorimétrique : vous pouvez modifier les canaux de couleur RVB ou améliorer n'importe quelle couleur actuelle.
La mise à l'échelle est le processus d'ajustement de l'échelle visuelle. Vous avez la possibilité d'augmenter ou de diminuer l'échelle. Lorsque vous redimensionnez vers l'intérieur, l'image devient plus petite que la taille initiale. L'image sera plus grande que l'originale si vous la redimensionnez vers l'extérieur.

Audio

Hauteur : cette approche consiste à modifier la hauteur audio.
Modifier la vitesse : modifier la vitesse du fichier audio ou de l'enregistrement.
Plus de bruit : vous pouvez ajouter plus de bruit au fichier audio.

Case Study

L'imagerie médicale est actuellement un cas d'utilisation important pour l'augmentation des données. Les collections d'images médicales sont petites et le partage des données est difficile en raison des règles et des problèmes de confidentialité.

De plus, les ensembles de données sont beaucoup plus contraints dans le cas de troubles peu fréquents. Les entreprises d'imagerie médicale utilisent l'augmentation des données pour diversifier leurs ensembles de données.

Défis

L'évolutivité, la diversité des ensembles de données et la pertinence sont quelques-uns des problèmes qui doivent être résolus afin de développer des techniques efficaces d'augmentation des données.

En termes d'évolutivité, les données augmentées doivent être évolutives afin que de nombreux modèles différents puissent les utiliser. Vous voudrez vous assurer que cela peut être dupliqué pour une utilisation dans de futurs modèles, car la mise en place d'un système d'augmentation de données qui génère une grande quantité de données pertinentes, précieuses et améliorées peut prendre un certain temps.

En termes d'hétérogénéité, divers ensembles de données ont des caractéristiques distinctes qui doivent être prises en compte lors du développement de données augmentées. Pour développer des données améliorées appropriées, les propriétés de chaque ensemble de données doivent être utilisées.

En d'autres termes, l'augmentation des données différera entre les ensembles de données et les cas d'utilisation.

Enfin, pour garantir que les avantages de l'augmentation des données dépassent tous les risques, les données augmentées doivent être évaluées à l'aide de métriques appropriées avant d'être utilisées par des modèles d'apprentissage automatique.

Par exemple, la présence d'un bruit de fond important ou d'éléments non liés dans les données augmentées basées sur l'image pourrait avoir un impact négatif sur les performances du modèle.

Conclusion

En fin de compte, que vous tentiez de prévoir une perte, d'identifier une fraude financière ou de mieux construire classification d'image modèles, l'augmentation des données est un moyen essentiel de créer des modèles plus précis et plus robustes.

Grâce à une procédure de formation supérieure, un simple prétraitement et une augmentation des données peuvent même aider les équipes à développer des modèles de pointe.

Les entreprises peuvent utiliser l'augmentation des données pour réduire le temps passé à préparer les données de formation et créer des modèles d'apprentissage automatique plus précis et plus rapides..

En augmentant la quantité de données pertinentes dans l'ensemble de données, l'augmentation des données peut également profiter aux modèles d'apprentissage automatique qui contiennent déjà beaucoup de données.

Augmentation des données : essentielle pour les modèles d'apprentissage automatique

Alors, qu'est-ce que l'augmentation des données ?

À quoi sert l'augmentation des données dans le présent ?