En los últimos años, los modelos generativos llamados "modelos de difusión" se han vuelto cada vez más populares, y por una buena razón.
El mundo ha visto de lo que son capaces los modelos de difusión, como superar a las GAN en la síntesis de imágenes, gracias a unas pocas publicaciones destacadas publicadas solo en las décadas de 2020 y 2021.
Los profesionales vieron recientemente el uso de modelos de difusión en DALL-E2, el modelo de creación de imágenes de OpenAI que se publicó el mes pasado.
Sin duda, muchos profesionales del aprendizaje automático sienten curiosidad por el funcionamiento interno de los modelos de difusión dado su reciente aumento del éxito.
En esta publicación, veremos los fundamentos teóricos de los modelos de difusión, su diseño, sus ventajas y mucho más. Vámonos.
¿Qué es el modelo de difusión?
Comencemos por averiguar por qué este modelo se conoce como modelo de difusión.
Una palabra relacionada con la termodinámica en las clases de física se llama difusión. Un sistema no está en equilibrio si hay una gran concentración de un material, como un olor, en un lugar.
La difusión debe ocurrir para que el sistema entre en equilibrio. Las moléculas del aroma se difunden por todo el sistema desde una región de mayor concentración, lo que hace que el sistema sea uniforme en todas partes.
Todo eventualmente se vuelve homogéneo debido a la difusión.
Los modelos de difusión están motivados por esta condición de no equilibrio termodinámico. Los modelos de difusión utilizan una cadena de Markov, que es una serie de variables donde el valor de cada variable depende del estado del evento anterior.
Tomando una foto, le agregamos sucesivamente una cantidad particular de ruido a lo largo de la fase de difusión directa.
Después de almacenar la imagen con más ruido, procedemos a crear la siguiente imagen de la serie introduciendo ruido adicional.
Varias veces, este procedimiento se realiza. Una imagen de ruido puro resulta de repetir este método varias veces.
Entonces, ¿cómo podemos crear una imagen a partir de esta imagen desordenada?
El proceso de difusión se invierte usando un red neural. Las mismas redes y los mismos pesos se utilizan en el proceso de difusión hacia atrás para crear la imagen de t a t-1.
En lugar de dejar que la red anticipe la imagen, se puede intentar predecir el ruido en cada paso, que debe eliminarse de la imagen para simplificar aún más la tarea.
En cualquier escenario, el diseño de redes neuronales debe seleccionarse de manera que mantenga la dimensionalidad de los datos.
Inmersión profunda en el modelo de difusión
Los componentes de un modelo de difusión son un proceso directo (también conocido como proceso de difusión), en el que un dato (a menudo una imagen) se reduce gradualmente, y un proceso inverso (también conocido como proceso de difusión inversa), en el que el ruido se reduce. convertido de nuevo en una muestra de la distribución objetivo.
Cuando el nivel de ruido es lo suficientemente bajo, se pueden utilizar gaussianas condicionales para establecer las transiciones de la cadena de muestreo en el proceso directo. Una fácil parametrización del proceso directo resulta del acoplamiento de este conocimiento con la suposición de Markov:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
Aquí 1….T es un programa de varianza (aprendido o fijo) que asegura, para T suficientemente alto, que xT es virtualmente una Gaussiana isotrópica.
El proceso opuesto es donde ocurre la magia del modelo de difusión. El modelo aprende a revertir este proceso de difusión durante el entrenamiento para producir datos nuevos. El modelo aprende la distribución conjunta como (x0:T) el resultado de comenzar con la ecuación de ruido gaussiano puro
(XT):=N(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))
donde se descubren los parámetros dependientes del tiempo de las transiciones gaussianas. En particular, tome nota de cómo la formulación de Markov establece que una distribución de transición de difusión inversa dada depende exclusivamente del paso de tiempo anterior (o del paso de tiempo posterior, dependiendo de cómo se mire):
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Entrenamiento de modelos
Se utiliza un modelo de Markov inverso que maximiza la probabilidad de los datos de entrenamiento para entrenar un modelo de difusión. Hablando en términos prácticos, el entrenamiento es análogo a reducir el límite superior variacional en la probabilidad logarítmica negativa.
mi [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
fexibles
Ahora debemos decidir cómo ejecutar nuestro modelo de difusión después de establecer los fundamentos matemáticos de nuestra función objetivo. La única decisión necesaria para el proceso directo es determinar el programa de variación, cuyos valores suelen aumentar durante el procedimiento.
Consideramos seriamente el uso de la parametrización de distribución gaussiana y la arquitectura del modelo para el procedimiento inverso.
La única condición de nuestro diseño es que tanto la entrada como la salida tengan las mismas dimensiones. Esto subraya el enorme grado de libertad que proporcionan los modelos de difusión.
A continuación, profundizaremos en estas opciones.
Proceso de reenvío
Debemos proporcionar el programa de variación en relación con el proceso de avance. Los establecimos específicamente para que fueran constantes dependientes del tiempo y descartamos la posibilidad de que se puedan aprender. Un calendario cronológico de
β1 = 10−4 a βT = 0.02.
Lt se convierte en una constante con respecto a nuestro conjunto de parámetros aprendibles debido al programa de varianza fija, lo que nos permite ignorarlo durante el entrenamiento, independientemente de los valores específicos seleccionados.
Proceso Inverso
Ahora repasamos las decisiones necesarias para definir el proceso inverso. Recuerde cómo describimos las transiciones inversas de Markov como gaussianas:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Ahora que hemos identificado los tipos funcionales. A pesar de que existen técnicas más complejas para parametrizar, simplemente establecemos
Σθ(xt, t) = σ 2 t yo
σ2t = βt
Dicho de otro modo, consideramos que la gaussiana multivariante es el resultado de gaussianas separadas con la misma varianza, un valor de varianza que puede fluctuar con el tiempo. Estas desviaciones se establecen para que coincidan con el calendario de desviaciones del proceso de reenvío.
Como resultado de esta nueva formulación, tenemos:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt−1|xt) :=N (xt−2; µθ (xt−XNUMX), σXNUMX t I)
Esto da como resultado la función de pérdida alternativa que se muestra a continuación, que los autores encontraron que produce un entrenamiento más consistente y resultados superiores:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Los autores también establecen conexiones entre esta formulación de modelos de difusión y los modelos generativos de coincidencia de puntaje basados en Langevin. Al igual que con el desarrollo independiente y paralelo de la física cuántica basada en ondas y la mecánica cuántica basada en matrices, que revelaron dos formulaciones comparables de los mismos fenómenos, parece que los modelos de difusión y los modelos basados en puntajes pueden ser dos caras de la misma moneda.
Red de arquitectura
A pesar de que nuestra función de pérdida condensada apunta a entrenar un modelo Σθ, todavía no hemos decidido la arquitectura de este modelo. Tenga en cuenta que el modelo simplemente debe tener las mismas dimensiones de entrada y salida.
Dada esta restricción, probablemente no sea inesperado que las arquitecturas tipo U-Net se utilicen con frecuencia para crear modelos de difusión de imágenes.
Se realizan numerosos cambios a lo largo de la ruta del proceso inverso mientras se utilizan distribuciones gaussianas condicionales continuas. Recuerde que el objetivo del procedimiento inverso es crear una imagen formada por valores de píxeles enteros. Por lo tanto, es necesario determinar probabilidades discretas (log) para cada valor de píxel potencial sobre todos los píxeles.
Esto se logra asignando un decodificador discreto separado a la última transición de la cadena de difusión inversa. estimar la probabilidad de una determinada imagen x0 dado x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ si x = 1 x + 1 255 si x < 1 δ−(x) = −∞ si x = −1 x − 1 255 si x > −1
donde el superíndice I denota la extracción de una coordenada y D denota el número de dimensiones en los datos.
El objetivo en este punto es establecer la probabilidad de cada valor entero para un píxel específico dada la distribución de valores potenciales para ese píxel en el tiempo variable. t = 1.
Objetivo Final
Los mejores resultados, según los científicos, provinieron de pronosticar el componente de ruido de una imagen en un cierto intervalo de tiempo. Al final, emplean el siguiente objetivo:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
En la siguiente imagen, los procedimientos de entrenamiento y muestreo para nuestro modelo de difusión se representan de manera concisa:
Beneficios del modelo de difusión
Como ya se indicó, la cantidad de investigación sobre modelos de difusión se ha multiplicado recientemente. Los modelos de difusión ahora ofrecen una calidad de imagen de última generación y están inspirados en la termodinámica de no equilibrio.
Los modelos de difusión brindan una variedad de otras ventajas además de tener una calidad de imagen de vanguardia, como no requerir entrenamiento contradictorio.
Los inconvenientes del entrenamiento antagónico son ampliamente conocidos, por lo que a menudo es preferible elegir alternativas no antagónicas con un rendimiento y una eficacia de entrenamiento equivalentes.
Los modelos de difusión también brindan las ventajas de escalabilidad y paralelización en términos de efectividad del entrenamiento.
Aunque los modelos de difusión parecen generar resultados aparentemente de la nada, la base de estos resultados se basa en una serie de sutilezas y decisiones matemáticas reflexivas e interesantes, y las mejores prácticas de la industria aún se están desarrollando.
Conclusión
En conclusión, los investigadores demuestran hallazgos de síntesis de imágenes de alta calidad utilizando modelos probabilísticos de difusión, una clase de modelos de variables latentes motivados por ideas de la termodinámica sin equilibrio.
Han logrado cosas tremendas gracias a sus resultados de última generación y entrenamiento no confrontativo y, dada su infancia, se pueden anticipar más avances en los años venideros.
En particular, se ha descubierto que los modelos de difusión son cruciales para la funcionalidad de modelos avanzados como DALL-E 2.
Aquí Puedes acceder a la investigación completa.
Deje un comentario