Nos últimos anos, os modelos xerativos chamados "modelos de difusión" foron cada vez máis populares, e con boas causas.
O mundo viu de que son capaces os modelos de difusión, como superar os GAN na síntese de imaxes, grazas a unhas poucas publicacións históricas publicadas só nos anos 2020 e 2021.
Os practicantes viron recentemente o uso de modelos de difusión en DALL-E2, o modelo de creación de imaxes de OpenAI que se publicou o mes pasado.
Moitos practicantes de Machine Learning teñen sen dúbida curiosidade polo funcionamento interno dos modelos de difusión dado o seu recente aumento de éxito.
Nesta publicación, analizaremos os fundamentos teóricos dos modelos de difusión, o seu deseño, as súas vantaxes e moito máis. Imos ir.
Que é o modelo de difusión?
Imos comezar por descubrir por que este modelo se denomina modelo de difusión.
Unha palabra relacionada coa termodinámica nas clases de física chámase difusión. Un sistema non está en equilibrio se hai unha gran concentración dun material, como un cheiro, nun lugar.
Debe producirse a difusión para que o sistema entre en equilibrio. As moléculas do perfume difunden por todo o sistema desde unha rexión de maior concentración, facendo que o sistema sexa uniforme.
Todo finalmente se fai homoxéneo debido á difusión.
Os modelos de difusión están motivados por esta condición termodinámica de non equilibrio. Os modelos de difusión usan unha cadea de Markov, que é unha serie de variables onde o valor de cada variable depende do estado do evento anterior.
Tirando unha foto, engadímoslle sucesivamente unha determinada cantidade de ruído ao longo da fase de difusión cara adiante.
Despois de almacenar a imaxe máis ruidosa, procedemos a crear a imaxe posterior da serie introducindo ruído adicional.
Varias veces, este procedemento faise. Unha imaxe de ruído puro resulta de repetir este método varias veces.
Como podemos crear unha imaxe a partir desta imaxe desordenada?
O proceso de difusión invértese usando a rede neural. As mesmas redes e os mesmos pesos úsanse no proceso de difusión cara atrás para crear a imaxe de t a t-1.
En lugar de deixar que a rede anticipe a imaxe, pódese tentar predecir o ruído en cada paso, que ten que ser eliminado da imaxe, para simplificar aínda máis a tarefa.
En calquera escenario, o deseño de redes neuronais debe seleccionarse de forma que manteña a dimensionalidade dos datos.
Mergullo profundo no modelo de difusión
Os compoñentes dun modelo de difusión son un proceso directo (tamén coñecido como proceso de difusión), no que un dato (a miúdo unha imaxe) é ruído gradualmente, e un proceso inverso (tamén coñecido como proceso de difusión inversa), no que se produce ruído. convertido de novo nunha mostra da distribución obxectivo.
Cando o nivel de ruído é o suficientemente baixo, pódense usar gaussianos condicionais para establecer as transicións da cadea de mostraxe no proceso directo. Unha parametrización sinxela do proceso directo resulta de acoplar este coñecemento coa suposición de Markov:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
Aquí un ...T é un esquema de varianza (aprendido ou fixo) que asegura, para un T suficientemente alto, que xT é practicamente unha gaussiana isótropa.
O proceso oposto é onde ocorre a maxia do modelo de difusión. O modelo aprende a revertir este proceso de difusión durante o adestramento para producir datos novos. O modelo aprende a distribución conxunta como (x0:T) o resultado de comezar coa ecuación de ruído gaussiano puro
(xT):=N(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))
onde se descobren os parámetros dependentes do tempo das transicións gaussianas. En particular, tome nota de como a formulación de Markov afirma que unha determinada distribución de transición de difusión inversa depende exclusivamente do paso de tempo anterior (ou do paso de tempo posterior, dependendo de como se mire):
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Formación de modelos
Para adestrar un modelo de difusión úsase un modelo de Markov inverso que maximiza a probabilidade dos datos de adestramento. Na práctica, o adestramento é análogo a reducir o límite superior variacional da probabilidade logarítmica negativa.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
Modelos
Agora necesitamos decidir como executar o noso modelo de difusión despois de establecer os fundamentos matemáticos da nosa función obxectivo. A única decisión necesaria para o proceso de avance é determinar o calendario de variacións, cuxos valores normalmente aumentan durante o procedemento.
Consideramos encarecidamente usar a parametrización da distribución gaussiana e a arquitectura do modelo para o procedemento inverso.
A única condición do noso deseño é que tanto a entrada como a saída teñan as mesmas dimensións. Isto subliña o enorme grao de liberdade que proporcionan os Modelos de Difusión.
A continuación, afondaremos sobre estas opcións.
Proceso de avance
Debemos proporcionar o calendario de variacións en relación co proceso de avance. Fixémolas especificamente como constantes dependentes do tempo e ignoramos a posibilidade de que se poidan aprender. Un horario cronolóxico de
β1 = 10−4 ata βT = 0.02.
Lt convértese nunha constante con respecto ao noso conxunto de parámetros aprendibles debido ao programa de variación fixa, o que nos permite ignoralo durante o adestramento independentemente dos valores específicos seleccionados.
Proceso inverso
Agora repasamos as decisións necesarias para definir o proceso inverso. Lembra como describimos as transicións inversas de Markov como gaussianas:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Agora que identificamos os tipos funcionais. A pesar de que hai técnicas máis complicadas para parametrizar, só establecemos
Σθ(xt, t) = σ 2 t I
σ 2 t = βt
Dito doutro xeito, consideramos que a gaussiana multivariante é o resultado de gaussianas separadas coa mesma varianza, un valor de varianza que pode flutuar co tempo. Estas desviacións están configuradas para coincidir co calendario de desviacións do proceso de envío.
Como resultado desta nova formulación, temos:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)) :=N (xt−1; µθ (xt, t), σ2 t I)
Isto dá como resultado a función de perda alternativa que se mostra a continuación, que os autores atoparon para producir un adestramento máis consistente e resultados superiores:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Os autores tamén establecen conexións entre esta formulación de modelos de difusión e os modelos xerativos de coincidencia de puntuación baseados en Langevin. Do mesmo xeito que co desenvolvemento independente e paralelo da física cuántica baseada en ondas e da mecánica cuántica baseada en matrices, que revelou dúas formulacións comparables dos mesmos fenómenos, parece que os modelos de difusión e os modelos baseados en puntuación poden ser dúas caras da mesma moeda.
Arquitectura de rede
A pesar de que a nosa función de perda condensada ten como obxectivo adestrar un modelo Σθ, aínda non nos decidimos pola arquitectura deste modelo. Teña en conta que o modelo simplemente ten que ter as mesmas dimensións de entrada e saída.
Dada esta limitación, probablemente non sexa inesperado que as arquitecturas tipo U-Net se utilicen con frecuencia para crear modelos de difusión de imaxes.
Realízanse numerosos cambios ao longo do percorrido do proceso inverso mentres se usan distribucións gaussianas condicionais continuas. Lembre que o obxectivo do procedemento inverso é crear unha imaxe formada por valores de píxeles enteiros. Polo tanto, é necesario determinar probabilidades discretas (log) para cada valor de píxel potencial sobre todos os píxeles.
Isto conséguese asignando un decodificador discreto separado á última transición da cadea de difusión inversa. estimando a probabilidade dunha determinada imaxe x0 dado x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ se x = 1 x + 1 255 se x < 1 δ−(x) = −∞ se x = −1 x − 1 255 se x > −1
onde o superíndice I indica a extracción dunha coordenada e D indica o número de dimensións dos datos.
O obxectivo neste punto é establecer a probabilidade de cada valor enteiro para un píxel específico dada a distribución dos valores potenciais para ese píxel no tempo variable. t = 1.
Obxectivo final
Os maiores resultados, segundo os científicos, proviñan de prever a compoñente de ruído dunha imaxe nun determinado momento. Ao final, empregan o seguinte obxectivo:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Na seguinte imaxe, represéntanse concisamente os procedementos de adestramento e mostraxe para o noso modelo de difusión:
Beneficios do modelo de difusión
Como xa se indicou, a cantidade de investigación sobre modelos de difusión multiplicouse recentemente. Os modelos de difusión agora ofrecen unha calidade de imaxe de última xeración e están inspirados na termodinámica sen equilibrio.
Os modelos de difusión ofrecen outras vantaxes ademais de ter unha calidade de imaxe de vangarda, como non esixir adestramento adversario.
Os inconvenientes do adestramento adversario son amplamente coñecidos, polo que moitas veces é preferible elixir alternativas non adversarias cun rendemento e eficacia do adestramento equivalentes.
Os modelos de difusión tamén proporcionan as vantaxes da escalabilidade e da paralelización en canto á eficacia do adestramento.
Aínda que os modelos de difusión parecen xerar resultados aparentemente da nada, a base destes resultados está establecida por unha serie de decisións e sutilezas matemáticas reflexivas e interesantes, e aínda se están a desenvolver as mellores prácticas da industria.
Conclusión
En conclusión, os investigadores demostran resultados de síntese de imaxes de alta calidade utilizando modelos probabilísticos de difusión, unha clase de modelos de variables latentes motivados por ideas da termodinámica non equilibrada.
Conseguiron cousas tremendas grazas aos seus resultados de última xeración e á formación non adversaria e, dada a súa infancia, pódense anticipar máis avances nos próximos anos.
En particular, descubriuse que os modelos de difusión son cruciais para a funcionalidade de modelos avanzados como DALL-E 2.
Aquí podes acceder á investigación completa.
Deixe unha resposta