Índice analítico[Ocultar][Mostrar]
En xeral, os modelos xenerativos profundos como GAN, VAE e modelos autorregresivos manexan problemas de síntese de imaxes.
Dada a alta calidade dos datos que crean, as redes xerativas adversarias (GAN) recibiron moita atención nos últimos anos.
Os modelos de difusión son outro campo de estudo fascinante que se consolidou. Os campos da xeración de imaxe, vídeo e voz atoparon un uso extensivo para ambos.
Modelos de difusión vs GAN: que produce mellores resultados? Por suposto, isto levou a unha discusión en curso.
Na arquitectura computacional coñecida como GAN, dous redes neuronales loitan uns contra outros para producir instancias de datos recentemente sintetizadas que poden pasar por datos xenuínos.
Os modelos de difusión son cada vez máis populares xa que proporcionan estabilidade de adestramento e altos resultados para producir música e gráficos.
Este artigo analizará o modelo de difusión e as GAN en detalle, así como en que se diferencian entre si e algunhas cousas máis.
Entón, que son as redes xerativas adversarias?
Co fin de crear novas instancias artificiais de datos que poidan confundirse con datos xenuínos, as redes xerativas de adversario (GAN) empregan dúas redes neuronais e enfróntanas entre si (polo tanto, o "adversario" no nome).
Utilízanse amplamente para a creación de voz, vídeos e imaxes.
O obxectivo de GAN é crear datos non descubertos previamente a partir dun conxunto de datos específico. Intentar inferir un modelo da distribución de datos subxacente real e non identificada das mostras, fai isto.
Dito alternativamente, estas redes son modelos implícitos que intentan aprender unha distribución estatística específica.
O método que GAN utilizou para descubrir como conseguir este obxectivo foi novedoso. De feito, producen datos xogando a un xogo de dous xogadores para desenvolver un modelo implícito.
A continuación descríbese a estrutura:
- un discriminador que gaña a capacidade de diferenciar entre datos auténticos e falsos
- un xerador que recolle novas formas de crear datos pode enganar ao discriminador.
O discriminador fai pasar por unha rede neuronal. Polo tanto, o xerador debe crear unha imaxe con alta calidade para enganala.
O feito de que estes xeradores non estean adestrados usando ningunha distribución de saída é unha distinción significativa entre os modelos de codificador automático e outros modelos.
Hai dúas formas de descompoñer a función de perda do modelo:
- a capacidade de cuantificar se o discriminador prevé datos reais con precisión
- os datos xerados predínse con precisión por unha parte.
No mellor discriminador factible, esta función de perda minimízase:
Polo tanto, os modelos xenéricos poden ser pensados como modelos de minimización de distancia e, se o discriminador é ideal, como a minimización da diverxencia entre a distribución verdadeira e a producida.
En realidade, pódense empregar diferentes diverxencias que dan como resultado varios métodos de adestramento GAN.
As dinámicas de aprendizaxe, que inclúen unha compensación entre o xerador e o discriminador, son un reto de seguir, a pesar de que é sinxelo axustar a función de perda dos GAN.
Tampouco hai garantías de que a aprendizaxe converxa. Como resultado, adestrar un modelo GAN é difícil, xa que é típico atopar problemas como gradientes que desaparecen e colapso do modo (cando non hai diversidade nas mostras xeradas).
Agora é o momento dos modelos de difusión
O problema da converxencia de formación das GAN foi abordado mediante o desenvolvemento de modelos de difusión.
Estes modelos supoñen que un proceso de difusión é equivalente á perda de información provocada pola interferencia progresiva do ruído (engádese un ruído gaussiano en cada paso do proceso de difusión).
A finalidade deste modelo é determinar como afecta o ruído á información presente na mostra ou, dito doutro xeito, canta información se perde pola difusión.
Se un modelo pode descubrir isto, debería poder recuperar a mostra orixinal e desfacer a perda de información que se produciu.
Isto conséguese mediante un modelo de difusión de ruído. Un proceso de difusión cara adiante e un proceso de difusión inversa constitúen os dous pasos.
O proceso de difusión directa implica engadir gradualmente ruído gaussiano (é dicir, o proceso de difusión) ata que os datos estean completamente contaminados polo ruído.
A rede neuronal adestrase posteriormente usando o método de difusión inversa para aprender as probabilidades de distribución condicional para inverter o ruído.
Aquí podes entender máis sobre o modelo de difusión.
Modelo de difusión vs GAN
Como un modelo de difusión, os GAN producen imaxes a partir do ruído.
O modelo está formado por unha rede neuronal xeradora, que comeza co ruído dalgunha variable condicionante informativa, como unha etiqueta de clase ou unha codificación de texto.
O resultado debería ser algo que se asemella a unha imaxe realista.
Para crear xeracións de imaxes fotorrealistas e de alta fidelidade, empregamos GAN. Os elementos visuais aínda máis realistas que os GAN prodúcense utilizando modelos de difusión.
En certo modo, os modelos de difusión son máis precisos á hora de describir os feitos.
Aínda que un GAN toma como entrada un ruído aleatorio ou unha variable de condicionamento de clase e produce unha mostra realista, os modelos de difusión adoitan ser máis lentos, iterativos e necesitan moita máis orientación.
Non hai moito espazo para erros cando se aplica a eliminación de ruído repetidamente co obxectivo de volver á imaxe orixinal a partir do ruído.
Cada punto de control pasa ao longo da fase de creación e, con cada paso, a imaxe pode obter máis e máis información.
Conclusión
En conclusión, debido ás poucas investigacións significativas que só se publicaron nos anos 2020 e 2021, os modelos de difusión agora poden superar os GAN en termos de síntese de imaxes.
Este ano lanzouse OpenAI DALL-E2, un modelo de produción de imaxes que permite aos profesionais empregar modelos de difusión.
Aínda que os GAN son de vangarda, as súas limitacións fan que sexa difícil escalalos e utilizalos en novos contextos.
Co fin de conseguir unha calidade de mostra tipo GAN utilizando modelos baseados en verosimilitude, traballouse moito.
Deixe unha resposta