Depuis des années, le deep learning fait la une de la tech. Et, il est simple de comprendre pourquoi.
Cette branche de l'intelligence artificielle transforme des secteurs allant de la santé à la banque en passant par les transports, permettant des avancées auparavant impensables.
L'apprentissage en profondeur repose sur un ensemble d'algorithmes sophistiqués qui apprennent à extraire et à prédire des modèles complexes à partir d'énormes volumes de données.
Nous examinerons les 15 meilleurs algorithmes d'apprentissage en profondeur dans cet article, des réseaux de neurones convolutifs aux réseaux antagonistes génératifs en passant par les réseaux à mémoire longue et à court terme.
Cet article vous donnera des informations essentielles pour savoir si vous êtes un débutant ou expert en deep learning.
1. Réseaux de transformateurs
Les réseaux de transformateurs ont transformé vision par ordinateur et les applications de traitement du langage naturel (TAL). Ils analysent les données entrantes et utilisent des processus d'attention pour capturer les relations à long terme. Cela les rend plus rapides que les modèles séquence-à-séquence conventionnels.
Les réseaux de transformateurs ont été décrits pour la première fois dans la publication "Attention Is All You Need" de Vaswani et al.
Ils se composent d'un encodeur et d'un décodeur (2017). Le modèle de transformateur a démontré des performances dans une variété d'applications NLP, y compris l'analyse des sentiments, catégorisation de texte et traduction automatique.
Les modèles basés sur des transformateurs peuvent également être utilisés dans la vision par ordinateur pour des applications. Ils peuvent effectuer la reconnaissance d'objets et le sous-titrage d'images.
2. Réseaux de mémoire longue à court terme (LSTM)
Les réseaux de mémoire longue à court terme (LSTM) sont une forme de Réseau neuronal spécialement conçu pour gérer l'entrée séquentielle. Ils sont appelés "long court terme" car ils peuvent rappeler des connaissances d'il y a longtemps tout en oubliant des informations inutiles.
Les LSTM fonctionnent à travers certaines « portes » qui régissent le flux d'informations à l'intérieur du réseau. Selon que l'information est jugée significative ou non, ces portes peuvent soit la laisser entrer, soit l'empêcher.
Cette technique permet aux LSTM de rappeler ou d'oublier les informations des pas de temps passés, ce qui est essentiel pour des tâches telles que la reconnaissance vocale, le traitement du langage naturel et la prédiction de séries chronologiques.
Les LSTM sont extrêmement bénéfiques dans tous les cas où vous avez des données séquentielles qui doivent être évaluées ou prévues. Ils sont souvent utilisés dans les logiciels de reconnaissance vocale pour convertir des mots parlés en texte, ou dans marché boursier analyse pour prévoir les prix futurs sur la base des données précédentes.
3. Cartes auto-organisées (SOM)
Les SOM sont une sorte de réseau de neurones capable d'apprendre et représenter des données complexes dans un environnement de faible dimension. Le procédé fonctionne en transformant des données d'entrée de grande dimension en une grille bidimensionnelle, chaque unité ou neurone représentant une partie différente de l'espace d'entrée.
Les neurones sont reliés entre eux et créent une structure topologique, leur permettant d'apprendre et de s'adapter aux données d'entrée. Ainsi, SOM est basé sur un apprentissage non supervisé.
L'algorithme n'a pas besoin données étiquetées apprendre de. Au lieu de cela, il utilise les caractéristiques statistiques des données d'entrée pour découvrir des modèles et des corrélations entre les variables.
Au cours de la phase d'apprentissage, les neurones rivalisent pour être la meilleure indication des données d'entrée. Et, ils s'auto-organisent en une structure significative. Les SOM ont un large éventail d'applications, y compris la reconnaissance d'images et de la parole, l'exploration de données et la reconnaissance de formes.
Ils sont utiles pour visualiser des données compliquées, regrouper les points de données associés et détecter les anomalies ou les valeurs aberrantes.
4. Apprentissage par renforcement en profondeur
Profond Apprentissage par renforcement est une sorte d'apprentissage automatique dans lequel un agent est formé pour prendre des décisions basées sur un système de récompense. Il fonctionne en laissant l'agent interagir avec son environnement et apprendre par essais et erreurs.
L'agent est récompensé pour chaque action qu'il fait, et son but est d'apprendre à optimiser ses avantages au fil du temps. Cela peut être utilisé pour apprendre aux agents à jouer à des jeux, à conduire des automobiles et même à gérer des robots.
Le Q-Learning est une méthode bien connue de Deep Reinforcement Learning. Il fonctionne en évaluant la valeur d'une certaine action dans un état particulier et en mettant à jour cette estimation lorsque l'agent interagit avec l'environnement.
L'agent utilise ensuite ces estimations pour déterminer quelle action est la plus susceptible d'entraîner la plus grande récompense. Le Q-Learning a été utilisé pour apprendre aux agents à jouer aux jeux Atari, ainsi qu'à améliorer la consommation d'énergie dans les centres de données.
Deep Q-Networks est une autre célèbre méthode Deep Reinforcement Learning (DQN). Les DQN sont similaires au Q-Learning en ce sens qu'ils estiment les valeurs d'action à l'aide d'un réseau neuronal profond plutôt qu'une table.
Cela leur permet de gérer des paramètres énormes et compliqués avec de nombreuses actions alternatives. Les DQN ont été utilisés pour former des agents à jouer à des jeux tels que Go et Dota 2, ainsi que pour créer des robots capables d'apprendre à marcher.
5. Réseaux de neurones récurrents (RNN)
Les RNN sont une sorte de réseau neuronal capable de traiter des données séquentielles tout en conservant un état interne. Considérez-le comme une personne lisant un livre, où chaque mot est digéré par rapport à ceux qui l'ont précédé.
Les RNN sont donc idéaux pour des tâches telles que la reconnaissance vocale, la traduction linguistique et même la prévision du mot suivant dans une phrase.
Les RNN fonctionnent en utilisant des boucles de rétroaction pour connecter la sortie de chaque pas de temps à l'entrée du pas de temps suivant. Cela permet au réseau d'utiliser des informations de pas de temps antérieurs pour informer ses prédictions pour les pas de temps futurs. Malheureusement, cela signifie également que les RNN sont vulnérables au problème du gradient de fuite, dans lequel les gradients utilisés pour la formation deviennent très petits et le réseau a du mal à apprendre des relations à long terme.
Malgré cette contrainte apparente, les RNN ont trouvé une utilisation dans un large éventail d'applications. Ces applications incluent le traitement du langage naturel, la reconnaissance vocale et même la production musicale.
Google translate, par exemple, utilise un système basé sur RNN pour traduire dans toutes les langues, tandis que Siri, l'assistant virtuel, utilise un système basé sur RNN pour détecter la voix. Les RNN ont également été utilisés pour prévoir les cours des actions et créer des textes et des graphiques réalistes.
6. Réseaux de capsules
Capsule Networks est un nouveau type de conception de réseau neuronal qui peut identifier plus efficacement les modèles et les corrélations dans les données. Ils organisent les neurones en « capsules » qui codent certains aspects d'une entrée.
De cette façon, ils peuvent faire des prédictions plus précises. Les réseaux de capsules extraient des propriétés progressivement compliquées des données d'entrée en utilisant de nombreuses couches de capsules.
La technique de Capsule Networks leur permet d'apprendre des représentations hiérarchiques de l'entrée donnée. Ils peuvent coder correctement les connexions spatiales entre les éléments à l'intérieur d'une image en communiquant entre les capsules.
L'identification d'objets, la segmentation d'images et le traitement du langage naturel sont toutes des applications de Capsule Networks.
Les réseaux capsules ont le potentiel d'être employés dans conduite autonome les technologies. Ils aident le système à reconnaître et à distinguer des éléments tels que des automobiles, des personnes et des panneaux de signalisation. Ces systèmes peuvent éviter les collisions en faisant des prédictions plus précises sur le comportement des objets dans leur environnement.
7. Auto-encodeurs variationnels (VAE)
Les VAE sont une forme d'outil d'apprentissage profond qui est utilisé pour l'apprentissage non supervisé. En encodant les données dans un espace de dimension inférieure, puis en les décodant dans le format d'origine, ils peuvent apprendre à repérer des modèles dans les données.
Ils sont comme un magicien qui peut transformer un lapin en chapeau puis redevenir un lapin ! Les VAE sont bénéfiques pour générer des visuels ou de la musique réalistes. De plus, ils peuvent être utilisés pour produire de nouvelles données comparables aux données d'origine.
Les VAE s'apparentent à des codebreakers secrets. Ils peuvent découvrir le sous-jacent structure des données en le décomposant en morceaux plus simples, un peu comme la façon dont un puzzle est décomposé. Ils peuvent utiliser ces informations pour créer de nouvelles données qui ressemblent à l'original après avoir trié les pièces.
Cela peut être pratique pour compresser d'énormes fichiers ou produire de nouveaux graphismes ou de la musique dans un certain style. Les VAE peuvent également produire du contenu inédit, comme des reportages ou des paroles de musique.
8. Réseaux antagonistes génératifs (GAN)
Les GAN (Generative Adversarial Networks) sont une forme de système d'apprentissage en profondeur qui génère de nouvelles données qui ressemblent à l'original. Ils fonctionnent en entraînant deux réseaux : un réseau générateur et un réseau discriminateur.
Le générateur produit de nouvelles données comparables à l'original.
Et, le discriminateur tente de faire la distinction entre les données originales et créées. Les deux réseaux sont entraînés en tandem, le générateur tentant de tromper le discriminateur et le discriminateur tentant d'identifier correctement les données d'origine.
Considérez les GAN comme un croisement entre un faussaire et un détective. Le générateur fonctionne de la même manière qu'un faussaire, produisant de nouvelles illustrations qui ressemblent à l'original.
Le discriminateur agit comme un détective, essayant de faire la distinction entre une œuvre d'art authentique et une contrefaçon. Les deux réseaux sont entraînés en tandem, le générateur s'améliorant pour faire des faux plausibles et le discriminateur pour les reconnaître.
Les GAN ont plusieurs utilisations, allant de la production d'images réalistes d'humains ou d'animaux à la création de nouvelles musiques ou écritures. Ils peuvent également être utilisés pour l'augmentation des données, ce qui implique de combiner les données produites avec des données réelles pour créer un ensemble de données plus important pour la formation de modèles d'apprentissage automatique.
9. Réseaux Q profonds (DQN)
Les Deep Q-Networks (DQN) sont une sorte d'algorithme d'apprentissage par renforcement de la prise de décision. Ils fonctionnent en apprenant une fonction Q qui prédit la récompense attendue pour faire une certaine action dans une condition particulière.
La fonction Q est enseignée par essais et erreurs, l'algorithme tentant diverses actions et apprenant des résultats.
Considérez-le comme un jeu vidéo personnage expérimentant diverses actions et découvrant celles qui mènent au succès ! Les DQN entraînent la fonction Q à l'aide d'un réseau neuronal profond, ce qui en fait des outils efficaces pour les tâches de prise de décision difficiles.
Ils ont même vaincu des champions humains dans des jeux tels que Go et les échecs, ainsi que dans la robotique et les automobiles autonomes. Ainsi, dans l'ensemble, les DQN travaillent en apprenant de l'expérience pour améliorer leurs compétences en matière de prise de décision au fil du temps.
10. Réseaux à fonction de base radiale (RBFN)
Les réseaux de fonctions à base radiale (RBFN) sont une sorte de réseau de neurones utilisé pour approximer des fonctions et effectuer des tâches de classification. Ils fonctionnent en transformant les données d'entrée dans un espace de dimension supérieure à l'aide d'un ensemble de fonctions de base radiales.
La sortie du réseau est une combinaison linéaire des fonctions de base, et chaque fonction de base radiale représente un point central dans l'espace d'entrée.
Les RBFN sont particulièrement efficaces pour les situations avec des interactions entrées-sorties complexes, et ils peuvent être enseignés à l'aide d'un large éventail de techniques, y compris l'apprentissage supervisé et non supervisé. Ils ont été utilisés pour tout, des prévisions financières à la reconnaissance d'images et de la parole en passant par les diagnostics médicaux.
Considérez les RBFN comme un système GPS qui utilise une série de points d'ancrage pour trouver son chemin sur un terrain difficile. La sortie du réseau est une combinaison des points d'ancrage, qui remplacent les fonctions de base radiale.
Nous pouvons parcourir des informations complexes et générer des prédictions précises sur la façon dont un scénario se déroulera en utilisant les RBFN.
11. Perceptrons multicouches (MLP)
Une forme typique de réseau neuronal appelée perceptron multicouche (MLP) est utilisée pour des tâches d'apprentissage supervisé telles que la classification et la régression. Ils fonctionnent en empilant plusieurs couches de nœuds liés, ou neurones, chaque couche modifiant de manière non linéaire les données entrantes.
Dans un MLP, chaque neurone reçoit une entrée des neurones de la couche inférieure et envoie un signal aux neurones de la couche supérieure. La sortie de chaque neurone est déterminée à l'aide d'une fonction d'activation, qui confère au réseau une non-linéarité.
Ils sont capables d'apprendre des représentations sophistiquées des données d'entrée puisqu'ils peuvent avoir plusieurs couches cachées.
Les MLP ont été appliqués à une variété de tâches, telles que l'analyse des sentiments, la détection des fraudes et la reconnaissance de la voix et de l'image. Les MLP peuvent être comparés à un groupe d'enquêteurs travaillant ensemble pour résoudre un cas difficile.
Ensemble, ils peuvent reconstituer les faits et résoudre le crime malgré le fait que chacun a un domaine de spécialité particulier.
12. Réseaux de neurones convolutionnels (CNN)
Les images et les vidéos sont traitées à l'aide de réseaux de neurones convolutifs (CNN), une forme de réseau de neurones. Ils fonctionnent en utilisant un ensemble de filtres apprenants, ou noyaux, pour extraire des caractéristiques significatives des données d'entrée.
Les filtres glissent sur l'image d'entrée, exécutant des convolutions pour créer une carte des caractéristiques qui capture les aspects essentiels de l'image.
Comme les CNN sont capables d'apprendre des représentations hiérarchiques des caractéristiques de l'image, ils sont particulièrement utiles pour les situations impliquant d'énormes volumes de données visuelles. Plusieurs applications les ont utilisées, telles que la détection d'objets, la catégorisation d'images et la détection de visages.
Considérez CNN comme un peintre qui utilise plusieurs pinceaux pour créer un chef-d'œuvre. Chaque pinceau est un noyau, et l'artiste peut créer une image complexe et réaliste en mélangeant plusieurs noyaux. Nous pouvons extraire des caractéristiques significatives des photos et les utiliser pour prévoir avec précision le contenu de l'image en utilisant les CNN.
13. Réseaux de croyances profondes (DBN)
Les DBN sont une forme de réseau neuronal utilisé pour des tâches d'apprentissage non supervisées telles que la réduction de la dimensionnalité et l'apprentissage des fonctionnalités. Ils fonctionnent en empilant plusieurs couches de machines de Boltzmann restreintes (RBM), qui sont des réseaux de neurones à deux couches capables d'apprendre à reconstituer des données d'entrée.
Les DBN sont très bénéfiques pour les problèmes de données de grande dimension car ils peuvent apprendre une représentation compacte et efficace de l'entrée. Ils ont été utilisés pour tout, de la reconnaissance vocale à la catégorisation d'images en passant par la découverte de médicaments.
Par exemple, les chercheurs ont utilisé un DBN pour estimer l'affinité de liaison des médicaments candidats au récepteur des œstrogènes. Le DBN a été formé sur une collection de caractéristiques chimiques et d'affinités de liaison, et il a pu prédire avec précision l'affinité de liaison de nouveaux candidats-médicaments.
Cela met en évidence l'utilisation des DBN dans le développement de médicaments et d'autres applications de données de grande dimension.
14. Auto-encodeurs
Les auto-encodeurs sont des réseaux de neurones utilisés pour des tâches d'apprentissage non supervisées. Ils sont destinés à reconstruire les données d'entrée, ce qui implique qu'ils apprendront à encoder les informations dans une représentation compacte, puis à les décoder dans l'entrée d'origine.
Les encodeurs automatiques sont très efficaces pour la compression des données, la suppression du bruit et la détection des anomalies. Ils peuvent également être utilisés pour l'apprentissage de fonctionnalités, où la représentation compacte de l'auto-encodeur est introduite dans une tâche d'apprentissage supervisé.
Considérez les auto-encodeurs comme des élèves prenant des notes en classe. L'étudiant écoute le cours magistral et note les points les plus pertinents de manière concise et efficace.
Plus tard, l'étudiant peut étudier et retenir la leçon en utilisant ses notes. Un auto-encodeur, d'autre part, encode les données d'entrée dans une représentation compacte qui peut ensuite être utilisée à différentes fins telles que la détection d'anomalies ou la compression de données.
15. Machines Boltzmann restreintes (RBM)
Les RBM (Restricted Boltzmann Machines) sont une sorte de réseau neuronal génératif utilisé pour des tâches d'apprentissage non supervisées. Ils sont constitués d'une couche visible et d'une couche cachée, avec des neurones dans chaque couche, liés mais pas au sein de la même couche.
Les RBM sont formés à l'aide d'une technique connue sous le nom de divergence contrastive, qui consiste à modifier les poids entre les couches visibles et cachées afin d'optimiser la probabilité des données de formation. Les RBM peuvent créer de nouvelles données après avoir été formés par échantillonnage à partir de la distribution apprise.
La reconnaissance d'images et de la parole, le filtrage collaboratif et la détection d'anomalies sont toutes des applications qui ont utilisé des RBM. Ils ont également été utilisés dans des systèmes de recommandation pour créer des recommandations personnalisées en apprenant des modèles à partir du comportement des utilisateurs.
Les RBM ont également été utilisés dans l'apprentissage des fonctionnalités pour créer une représentation compacte et efficace des données de grande dimension.
Conclusion et développements prometteurs à l'horizon
Les méthodes d'apprentissage en profondeur, telles que les réseaux de neurones convolutifs (CNN) et les réseaux de neurones récurrents (RNN), font partie des approches d'intelligence artificielle les plus avancées. Les CNN ont transformé la reconnaissance des images et du son, tandis que les RNN ont considérablement progressé dans le traitement du langage naturel et l'analyse séquentielle des données.
La prochaine étape de l'évolution de ces approches se concentrera probablement sur l'amélioration de leur efficacité et de leur évolutivité, leur permettant d'analyser des ensembles de données plus volumineux et plus complexes, ainsi que sur l'amélioration de leur interprétabilité et de leur capacité à apprendre à partir de données moins étiquetées.
L'apprentissage en profondeur a la possibilité de permettre des percées dans des domaines tels que la santé, la finance et les systèmes autonomes à mesure qu'il progresse.
Soyez sympa! Laissez un commentaire