Ces dernières années, les modèles génératifs appelés « modèles de diffusion » sont devenus de plus en plus populaires, et pour cause.
Le monde a vu de quoi les modèles de diffusion sont capables, comme de surpasser les GAN sur la synthèse d'images, grâce à quelques publications phares publiées uniquement dans les années 2020 et 2021.
Les praticiens ont récemment vu l'utilisation de modèles de diffusion dans DALL-E2, le modèle de création d'images d'OpenAI qui a été publié le mois dernier.
De nombreux praticiens de l'apprentissage automatique sont sans aucun doute curieux du fonctionnement interne des modèles de diffusion compte tenu de leur récent succès.
Dans cet article, nous examinerons les fondements théoriques des modèles de diffusion, leur conception, leurs avantages et bien plus encore. Allons-y.
Qu'est-ce que le modèle Diffusion ?
Commençons par comprendre pourquoi ce modèle est appelé modèle de diffusion.
Un mot lié à la thermodynamique dans les cours de physique est appelé diffusion. Un système n'est pas en équilibre s'il y a une grande concentration d'un matériau, comme un parfum, en un seul endroit.
La diffusion doit se produire pour que le système entre en équilibre. Les molécules du parfum se diffusent dans tout le système à partir d'une région de concentration plus élevée, rendant le système uniforme partout.
Tout finit par devenir homogène grâce à la diffusion.
Les modèles de diffusion sont motivés par cette condition de non-équilibre thermodynamique. Les modèles de diffusion utilisent une chaîne de Markov, qui est une série de variables où la valeur de chaque variable dépend de l'état de l'événement précédent.
En prenant une photo, on lui ajoute successivement une certaine quantité de bruit tout au long de la phase de diffusion vers l'avant.
Après avoir stocké l'image la plus bruyante, nous procédons à la création de l'image suivante dans la série en introduisant du bruit supplémentaire.
Plusieurs fois, cette procédure est effectuée. Une image de bruit pur résulte de la répétition de cette méthode plusieurs fois.
Comment alors créer une image à partir de cette image encombrée ?
Le processus de diffusion est inversé à l'aide d'un Réseau neuronal. Les mêmes réseaux et les mêmes poids sont utilisés dans le processus de rétrodiffusion pour créer l'image de t à t-1.
Au lieu de laisser le réseau anticiper l'image, on peut tenter de prédire le bruit à chaque étape, qu'il faut retirer de l'image, afin de simplifier encore la tâche.
Dans n'importe quel scénario, le conception de réseaux de neurones doivent être sélectionnés de manière à maintenir la dimensionnalité des données.
Plongée en profondeur dans le modèle de diffusion
Les composants d'un modèle de diffusion sont un processus direct (également appelé processus de diffusion), dans lequel une donnée (souvent une image) est progressivement bruitée, et un processus inverse (également appelé processus de diffusion inverse), dans lequel le bruit est reconvertie en échantillon à partir de la distribution cible.
Lorsque le niveau de bruit est suffisamment bas, des gaussiennes conditionnelles peuvent être utilisées pour établir les transitions de la chaîne d'échantillonnage dans le processus direct. Une paramétrisation facile du processus direct résulte du couplage de cette connaissance avec l'hypothèse de Markov :
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
Ici 1….T est un schéma de variance (soit appris, soit fixe) qui assure, pour T suffisamment élevé, que xT est virtuellement une gaussienne isotrope.
Le processus inverse est celui où la magie du modèle de diffusion se produit. Le modèle apprend à inverser ce processus de diffusion lors de la formation afin de produire de nouvelles données. Le modèle apprend la distribution conjointe comme (x0:T) le résultat de commencer avec l'équation de bruit gaussien pur
(xT):=N(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))
où les paramètres dépendant du temps des transitions gaussiennes sont découverts. En particulier, notez comment la formulation de Markov indique qu'une distribution de transition de diffusion inverse donnée dépend exclusivement du pas de temps précédent (ou du pas de temps suivant, selon la façon dont vous le regardez):
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Formation modèle
Un modèle de Markov inverse qui maximise la probabilité des données d'apprentissage est utilisé pour entraîner un modèle de diffusion. Pratiquement parlant, la formation est analogue à la réduction de la limite supérieure variationnelle de la probabilité logarithmique négative.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) = : L
Des modèles photo
Nous devons maintenant décider comment exécuter notre modèle de diffusion après avoir établi les fondements mathématiques de notre fonction d'objectif. La seule décision nécessaire pour le processus vers l'avant est de déterminer le calendrier des écarts, dont les valeurs augmentent généralement au cours de la procédure.
Nous envisageons fortement d'utiliser la paramétrisation de la distribution gaussienne et l'architecture du modèle pour la procédure inverse.
La seule condition de notre conception est que l'entrée et la sortie aient les mêmes dimensions. Cela souligne l'énorme degré de liberté qu'offrent les modèles de diffusion.
Ci-dessous, nous approfondirons ces options.
Processus de transfert
Nous devons fournir le calendrier des écarts par rapport au processus d'avancement. Nous les avons spécifiquement définies comme des constantes dépendant du temps et avons ignoré la possibilité qu'elles puissent être apprises. Un programme chronologique de
β1 = 10−4 à βT = 0.02.
Lt devient une constante par rapport à notre ensemble de paramètres apprenables en raison du calendrier de variance fixe, ce qui nous permet de ne pas en tenir compte pendant la formation, quelles que soient les valeurs spécifiques sélectionnées.
Processus inverse
Passons maintenant en revue les décisions nécessaires pour définir le processus inverse. Rappelez-vous comment nous avons décrit les transitions de Markov inverses comme gaussiennes :
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Maintenant que nous avons identifié les types fonctionnels. Malgré le fait qu'il existe des techniques plus complexes à paramétrer, nous nous contentons de définir
Σθ(xt, t) = σ 2 t je
σ 2 t = βt
En d'autres termes, nous considérons que la gaussienne multivariée est le résultat de gaussiennes séparées avec la même variance, une valeur de variance qui peut fluctuer dans le temps. Ces déviations sont définies pour correspondre au calendrier des déviations du processus de transmission.
Grâce à cette nouvelle formulation, on a:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)) :=N (xt−1; µθ (xt, t), σ2 t I)
Cela se traduit par la fonction de perte alternative illustrée ci-dessous, qui, selon les auteurs, produit un entraînement plus cohérent et des résultats supérieurs :
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Les auteurs établissent également des liens entre cette formulation des modèles de diffusion et les modèles génératifs d'appariement des scores basés sur Langevin. Comme pour le développement indépendant et parallèle de la physique quantique basée sur les ondes et de la mécanique quantique basée sur les matrices, qui a révélé deux formulations comparables des mêmes phénomènes, il apparaît que les modèles de diffusion et les modèles basés sur les scores peuvent être les deux faces d'une même médaille.
Architecture de réseau
Malgré le fait que notre fonction de perte condensée vise à former un modèle Σθ, nous n'avons pas encore décidé de l'architecture de ce modèle. Gardez à l'esprit que le modèle doit simplement avoir les mêmes dimensions d'entrée et de sortie.
Compte tenu de cette contrainte, il n'est probablement pas surprenant que des architectures de type U-Net soient fréquemment utilisées pour créer des modèles de diffusion d'images.
De nombreux changements sont apportés le long de la voie du processus inverse tout en utilisant des distributions gaussiennes conditionnelles continues. N'oubliez pas que le but de la procédure inverse est de créer une image composée de valeurs de pixels entières. Il est donc nécessaire de déterminer des vraisemblances discrètes (log) pour chaque valeur de pixel potentielle sur tous les pixels.
Ceci est accompli en affectant un décodeur discret séparé à la dernière transition de la chaîne de diffusion inverse. estimer la chance d'une certaine image x0 donné x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ si x = 1 x + 1 255 si x < 1 δ−(x) = −∞ si x = −1 x − 1 255 si x > −1
où l'exposant I désigne l'extraction d'une coordonnée et D désigne le nombre de dimensions dans les données.
L'objectif à ce stade est d'établir la probabilité de chaque valeur entière pour un pixel spécifique compte tenu de la distribution des valeurs potentielles pour ce pixel dans le temps t = 1.
Objectif final
Selon les scientifiques, les meilleurs résultats provenaient de la prévision de la composante de bruit d'une image à un certain pas de temps. En fin de compte, ils emploient l'objectif suivant :
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Dans l'image suivante, les procédures d'entraînement et d'échantillonnage de notre modèle de diffusion sont décrites de manière concise :
Avantages du modèle de diffusion
Comme nous l'avons déjà indiqué, le nombre de recherches sur les modèles de diffusion s'est récemment multiplié. Les modèles de diffusion offrent désormais une qualité d'image de pointe et s'inspirent de la thermodynamique hors équilibre.
Les modèles de diffusion offrent une variété d'autres avantages en plus d'avoir une qualité d'image de pointe, comme ne pas nécessiter de formation contradictoire.
Les inconvénients de la formation contradictoire sont largement connus, il est donc souvent préférable de choisir des alternatives non contradictoires avec des performances et une efficacité de formation équivalentes.
Les modèles de diffusion offrent également les avantages de l'évolutivité et de la parallélisabilité en termes d'efficacité de la formation.
Bien que les modèles de diffusion semblent générer des résultats apparemment à partir de rien, la base de ces résultats repose sur un certain nombre de décisions et de subtilités mathématiques réfléchies et intéressantes, et les meilleures pratiques de l'industrie sont toujours en cours de développement.
Conclusion
En conclusion, les chercheurs démontrent des résultats de synthèse d'images de haute qualité en utilisant des modèles probabilistes de diffusion, une classe de modèles de variables latentes motivés par des idées de la thermodynamique hors équilibre.
Ils ont accompli des choses formidables grâce à leurs résultats de pointe et à leur formation non contradictoire et, compte tenu de leur enfance, d'autres progrès peuvent être anticipés dans les années à venir.
En particulier, il a été découvert que les modèles de diffusion sont cruciaux pour la fonctionnalité des modèles avancés comme DALL-E 2.
Ici vous pouvez accéder à la recherche complète.
Soyez sympa! Laissez un commentaire