En els darrers anys, els models generatius anomenats "models de difusió" s'han fet cada cop més populars i amb una bona causa.
El món ha vist de què són capaços els models de difusió, com ara superar els GAN en la síntesi d'imatges, gràcies a unes quantes publicacions de referència publicades només als anys 2020 i 2021.
Els professionals van veure més recentment l'ús de models de difusió DALL-E2, el model de creació d'imatges d'OpenAI que es va publicar el mes passat.
Sens dubte, molts professionals de l'aprenentatge automàtic tenen curiositat pel funcionament intern dels models de difusió donat el seu èxit recent.
En aquesta publicació, veurem els fonaments teòrics dels models de difusió, el seu disseny, els seus avantatges i molt més. Anem-hi.
Què és el model de difusió?
Comencem per esbrinar per què aquest model es coneix com a model de difusió.
Una paraula relacionada amb la termodinàmica a les classes de física s'anomena difusió. Un sistema no està en equilibri si hi ha una gran concentració d'un material, com una olor, en un lloc.
La difusió ha de produir-se perquè el sistema entri en equilibri. Les molècules de l'olor es difonen per tot el sistema des d'una regió de major concentració, fent que el sistema sigui uniforme.
Tot finalment es torna homogeni a causa de la difusió.
Els models de difusió estan motivats per aquesta condició de no equilibri termodinàmic. Els models de difusió utilitzen una cadena de Markov, que és una sèrie de variables on el valor de cada variable depèn de l'estat de l'esdeveniment anterior.
Fent una fotografia, li afegim successivament una quantitat particular de soroll durant la fase de difusió cap endavant.
Després d'emmagatzemar la imatge més sorollosa, procedim a crear la imatge posterior de la sèrie introduint soroll addicional.
Diverses vegades, aquest procediment es fa. Una imatge de soroll pur resulta de repetir aquest mètode unes quantes vegades.
Com podem crear una imatge a partir d'aquesta imatge desordenada?
El procés de difusió s'inverteix utilitzant a xarxa neural. Les mateixes xarxes i els mateixos pesos s'utilitzen en el procés de difusió cap enrere per crear la imatge de t a t-1.
En lloc de deixar que la xarxa anticipi la imatge, es pot intentar predir el soroll a cada pas, que s'ha d'eliminar de la imatge, per tal de simplificar encara més la tasca.
En qualsevol escenari, el disseny de xarxes neuronals s'ha de seleccionar de manera que es mantingui la dimensionalitat de les dades.
Immersió profunda en el model de difusió
Els components d'un model de difusió són un procés directe (també conegut com a procés de difusió), en el qual una dada (sovint una imatge) es fa sorollant gradualment, i un procés invers (també conegut com a procés de difusió inversa), en què el soroll és convertit de nou en una mostra de la distribució objectiu.
Quan el nivell de soroll és prou baix, es poden utilitzar gaussians condicionals per establir les transicions de la cadena de mostreig en el procés cap endavant. Una parametrització fàcil del procés endavant resulta d'acoblar aquest coneixement amb el supòsit de Markov:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
Aquí 1 ...T és un programa de variància (ja sigui après o fix) que assegura, per a una T prou alta, que xT és pràcticament un gaussià isòtrop.
El procés contrari és on es produeix la màgia del model de difusió. El model aprèn a revertir aquest procés de difusió durant l'entrenament per tal de produir dades noves. El model aprèn la distribució conjunta com (x0:T) el resultat de començar amb l'equació de soroll gaussià pur
(xT):=N(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))
on es descobreixen els paràmetres que depenen del temps de les transicions gaussianes. En particular, tingueu en compte com la formulació de Markov afirma que una distribució determinada de transició de difusió inversa depèn exclusivament del pas de temps anterior (o del pas de temps posterior, depenent de com ho mireu):
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Formació de models
S'utilitza un model de Markov invers que maximitza la probabilitat de les dades d'entrenament per entrenar un model de difusió. Pràcticament parlant, l'entrenament és anàleg a reduir el límit superior variacional de la probabilitat de registre negatiu.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
Models
Ara hem de decidir com executar el nostre model de difusió després d'establir els fonaments matemàtics de la nostra funció objectiu. L'única decisió necessària per al procés avançat és determinar el calendari de variacions, els valors del qual solen augmentar durant el procediment.
Considerem fermament utilitzar la parametrització de la distribució gaussiana i l'arquitectura del model per al procediment invers.
L'única condició del nostre disseny és que tant l'entrada com la sortida tinguin les mateixes dimensions. Això subratlla l'enorme grau de llibertat que ofereixen els models de difusió.
A continuació, aprofundirem en aquestes opcions.
Procés endavant
Hem de proporcionar el calendari de variacions en relació amb el procés endavant. Les vam establir específicament com a constants dependents del temps i vam ignorar la possibilitat que es puguin aprendre. Un calendari cronològic de
β1 = 10−4 a βT = 0.02.
Lt esdevé una constant pel que fa al nostre conjunt de paràmetres aprensibles a causa del calendari de variació fixa, que ens permet ignorar-lo durant l'entrenament independentment dels valors específics seleccionats.
Procés invers
Ara repassem les decisions necessàries per definir el procés invers. Recordeu com vam descriure les transicions inverses de Markov com a gaussianes:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Ara que hem identificat els tipus funcionals. Tot i que hi ha tècniques més complexes per parametritzar, acabem de configurar
Σθ(xt, t) = σ 2 t I
σ 2 t = βt
Per dir-ho d'una altra manera, considerem que la gaussiana multivariant és el resultat de gaussians separats amb la mateixa variància, un valor de variància que pot fluctuar amb el temps. Aquestes desviacions s'estableixen per coincidir amb el calendari de desviacions del procés d'enviament.
Com a resultat d'aquesta nova formulació, tenim:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)) :=N (xt−1; µθ (xt, t), σ2 t I)
Això dóna lloc a la funció de pèrdua alternativa que es mostra a continuació, que els autors van trobar que produeix un entrenament més coherent i resultats superiors:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Els autors també estableixen connexions entre aquesta formulació de models de difusió i els models generatius de concordança de puntuacions basats en Langevin. Igual que amb el desenvolupament independent i paral·lel de la física quàntica basada en ones i la mecànica quàntica basada en matrius, que va revelar dues formulacions comparables dels mateixos fenòmens, sembla que els models de difusió i els models basats en puntuacions poden ser dues cares de la mateixa moneda.
Arquitectura de xarxa
Tot i que la nostra funció de pèrdua condensada té com a objectiu entrenar un model Σθ, encara no ens hem decidit per l'arquitectura d'aquest model. Tingueu en compte que el model simplement ha de tenir les mateixes dimensions d'entrada i sortida.
Donada aquesta limitació, probablement no és inesperat que s'utilitzin sovint arquitectures semblants a U-Net per crear models de difusió d'imatges.
Es fan nombrosos canvis al llarg de la ruta del procés invers mentre s'utilitzen distribucions gaussianes condicionals contínues. Recordeu que l'objectiu del procediment invers és crear una imatge formada per valors de píxels enters. Per tant, és necessari determinar probabilitats discretes (log) per a cada valor de píxel potencial sobre tots els píxels.
Això s'aconsegueix assignant un descodificador discret separat a l'última transició de la cadena de difusió inversa. estimant la possibilitat d'una determinada imatge x0 donat x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ si x = 1 x + 1 255 si x < 1 δ−(x) = −∞ si x = −1 x − 1 255 si x > −1
on el superíndex I denota l'extracció d'una coordenada i D indica el nombre de dimensions de les dades.
L'objectiu en aquest punt és establir la probabilitat de cada valor enter per a un píxel específic donada la distribució de valors potencials per a aquest píxel en el temps variable. t=1.
Objectiu final
Els resultats més importants, segons els científics, provenien de la previsió del component de soroll d'una imatge en un moment determinat. Al final, utilitzen el següent objectiu:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
A la imatge següent, es representen de manera concisa els procediments d'entrenament i mostreig del nostre model de difusió:
Beneficis del model de difusió
Com ja s'ha indicat, la quantitat de recerca sobre models de difusió s'ha multiplicat recentment. Els models de difusió ara ofereixen una qualitat d'imatge d'última generació i estan inspirats en la termodinàmica no equilibrada.
Els models de difusió ofereixen una varietat d'altres avantatges a més de tenir una qualitat d'imatge d'avantguarda, com ara no requerir entrenament adversari.
Els inconvenients de l'entrenament adversari són àmpliament coneguts, per això sovint és preferible triar alternatives no adversàries amb un rendiment i una eficàcia d'entrenament equivalents.
Els models de difusió també proporcionen els avantatges de l'escalabilitat i la paral·lelització pel que fa a l'eficàcia de l'entrenament.
Tot i que els models de difusió semblen generar resultats aparentment de la nada, la base d'aquests resultats s'estableix per una sèrie de decisions i subtileses matemàtiques reflexives i interessants, i les millors pràctiques de la indústria encara s'estan desenvolupant.
Conclusió
En conclusió, els investigadors demostren resultats de síntesi d'imatges d'alta qualitat utilitzant models probabilístics de difusió, una classe de models variables latents motivats per idees de la termodinàmica no equilibrada.
Han aconseguit grans coses gràcies als seus resultats d'última generació i un entrenament no adversari i, donada la seva infància, es poden preveure més avenços en els propers anys.
En particular, s'ha descobert que els models de difusió són crucials per a la funcionalitat de models avançats com DALL-E 2.
Aquí podeu accedir a la recerca completa.
Deixa un comentari