Índice del contenido[Esconder][Espectáculo]
En general, los modelos generativos profundos como GAN, VAE y modelos autorregresivos manejan problemas de síntesis de imágenes.
Dada la alta calidad de los datos que crean, las redes antagónicas generativas (GAN) han recibido mucha atención en los últimos años.
Los modelos de difusión son otro fascinante campo de estudio que se ha establecido. Los campos de generación de imagen, video y voz han encontrado un amplio uso para ambos.
Modelos de difusión vs. GAN: ¿cuál produce mejores resultados? Naturalmente, esto ha llevado a una discusión en curso.
En la arquitectura computacional conocida como GAN, dos redes neuronales se luchan entre sí para producir instancias de datos recién sintetizados que pueden pasar por datos genuinos.
Los modelos de difusión son cada vez más populares ya que brindan estabilidad de entrenamiento y altos resultados para producir música y gráficos.
Este artículo analizará en detalle el modelo de difusión y las GAN, así como también cómo se diferencian entre sí y algunas otras cosas.
Entonces, ¿qué son las redes adversarias generativas?
Con el fin de crear nuevas instancias artificiales de datos que podrían confundirse con datos genuinos, las redes antagónicas generativas (GAN) emplean dos redes neuronales y las enfrentan entre sí (de ahí el "adversario" en el nombre).
Se utilizan ampliamente para la creación de voz, video e imágenes.
El objetivo de GAN es crear datos no descubiertos previamente a partir de un conjunto de datos específico. Intentar inferir un modelo de la distribución de datos subyacentes no identificados real de las muestras, hace esto.
Dicho de otra manera, estas redes son modelos implícitos que intentan aprender una distribución estadística específica.
El método que usó GAN para descubrir cómo lograr este objetivo fue novedoso. De hecho, producen datos jugando un juego de dos jugadores para desarrollar un modelo implícito.
A continuación se describe la estructura:
- un discriminador que adquiere la capacidad de diferenciar entre datos auténticos y falsos
- un generador que detecta nuevas formas de crear datos puede engañar al discriminador.
El discriminador se hace pasar por una red neuronal. Por lo tanto, el generador necesita crear una imagen de alta calidad para engañarla.
El hecho de que estos generadores no estén entrenados usando ninguna distribución de salida es una distinción significativa entre los modelos de codificador automático y otros modelos.
Hay dos formas de descomponer la función de pérdida del modelo:
- la capacidad de cuantificar si el discriminador prevé con precisión los datos reales
- los datos generados son predichos con precisión por una parte.
En el mejor discriminador factible, esta función de pérdida se minimiza:
Por lo tanto, los modelos genéricos pueden considerarse como modelos de minimización de distancia y, si el discriminador es ideal, como minimización de divergencia entre la distribución real y la producida.
En realidad, se pueden emplear diferentes divergencias y dar como resultado varios métodos de entrenamiento de GAN.
La dinámica de aprendizaje, que incluye una compensación entre el generador y el discriminador, es difícil de seguir, a pesar de que es simple ajustar la función de pérdida de las GAN.
Tampoco hay garantías de que el aprendizaje convergerá. Como resultado, entrenar un modelo GAN es difícil, ya que es típico encontrarse con problemas como la desaparición de gradientes y el colapso del modo (cuando no hay diversidad en las muestras generadas).
Ahora es el momento de los modelos de difusión.
El problema con la convergencia de entrenamiento de GAN se ha abordado mediante el desarrollo de modelos de difusión.
Estos modelos asumen que un proceso de difusión es equivalente a la pérdida de información provocada por la interferencia progresiva del ruido (se agrega un ruido gaussiano en cada paso del proceso de difusión).
El propósito de dicho modelo es determinar cómo afecta el ruido a la información presente en la muestra o, dicho de otro modo, cuánta información se pierde debido a la difusión.
Si un modelo puede resolver esto, debería poder recuperar la muestra original y deshacer la pérdida de información que ocurrió.
Esto se logra a través de un modelo de difusión de eliminación de ruido. Un proceso de difusión directa y un proceso de difusión inversa constituyen los dos pasos.
El proceso de difusión directa consiste en agregar gradualmente ruido gaussiano (es decir, el proceso de difusión) hasta que los datos estén completamente contaminados por el ruido.
Posteriormente, la red neuronal se entrena utilizando el método de difusión inversa para aprender las probabilidades de distribución condicional para invertir el ruido.
Aquí puedes entender más sobre el modelo de difusión.
Modelo de difusión frente a GAN
Como un modelo de difusión, las GAN producen imágenes a partir del ruido.
El modelo está compuesto por una red neuronal generadora, que parte del ruido de alguna variable condicionante informativa, como una etiqueta de clase o una codificación de texto.
El resultado debería ser algo que se asemeje a una imagen realista.
Para crear generaciones de imágenes fotorrealistas y de alta fidelidad, empleamos GAN. Incluso se producen imágenes más realistas que las GAN utilizando modelos de difusión.
En cierto modo, los modelos de difusión son más precisos para describir los hechos.
Mientras que una GAN toma como entrada ruido aleatorio o una variable condicionante de clase y genera una muestra realista, los modelos de difusión suelen ser más lentos, iterativos y necesitan mucha más orientación.
No hay mucho margen de error cuando la eliminación de ruido se aplica repetidamente con el objetivo de volver a la imagen original desde el ruido.
Cada punto de control se pasa a lo largo de la etapa de creación y, con cada paso, la imagen puede obtener más y más información.
Conclusión
En conclusión, debido a pocas investigaciones importantes que solo se publicaron en las décadas de 2020 y 2021, los modelos de difusión ahora pueden superar a las GAN en términos de síntesis de imágenes.
Este año, OpenAI lanzó DALL-E2, un modelo de producción de imágenes que permite a los profesionales emplear modelos de difusión.
Aunque las GAN son de vanguardia, sus limitaciones dificultan su escalado y uso en nuevos contextos.
Para lograr una calidad de muestra similar a GAN utilizando modelos basados en probabilidades, se ha puesto mucho trabajo en ello.
Deje un comentario