Taula de continguts[Amaga][Espectacle]
En general, els models generatius profunds com els GAN, els VAE i els models autoregressius gestionen problemes de síntesi d'imatges.
Donada l'alta qualitat de les dades que creen, les xarxes generatives adversaries (GAN) han rebut molta atenció en els últims anys.
Els models de difusió són un altre camp d'estudi fascinant que s'ha consolidat. Els camps de la imatge, el vídeo i la generació de veu han trobat un ús extensiu per a tots dos.
Models de difusió vs. GAN: quins produeixen millors resultats? Naturalment, això ha portat a una discussió en curs.
A l'arquitectura computacional coneguda com a GAN, dos xarxes neuronals es lluiten entre si per produir instàncies de dades recentment sintetitzades que poden passar per dades genuïnes.
Els models de difusió són cada cop més populars, ja que proporcionen estabilitat d'entrenament i alts resultats per produir música i gràfics.
En aquest article es repassarà detalladament el model de difusió i els GAN, així com com es diferencien entre ells i algunes coses més.
Aleshores, què són les xarxes adversàries generatives?
Per tal de crear instàncies noves i artificials de dades que es podrien confondre amb dades genuïnes, les xarxes generatives adversaries (GAN) utilitzen dues xarxes neuronals i les enfronten entre elles (per tant, el "contrariador" del nom).
S'utilitzen àmpliament per a la creació de veu, vídeos i imatges.
L'objectiu de GAN és crear dades no descobertes prèviament a partir d'un conjunt de dades específic. Intentar inferir un model de la distribució de dades subjacent real i no identificada de les mostres, ho fa.
Dit alternativament, aquestes xarxes són models implícits que intenten aprendre una distribució estadística específica.
El mètode que va utilitzar GAN per descobrir com aconseguir aquest objectiu va ser nou. De fet, produeixen dades jugant a un joc de dos jugadors per desenvolupar un model implícit.
A continuació es descriu l'estructura:
- un discriminador que aconsegueix la capacitat de diferenciar entre dades autèntiques i falses
- un generador que recull noves maneres de crear dades pot enganyar el discriminador.
El discriminador es presenta com una xarxa neuronal. Per tant, el generador ha de crear una imatge amb alta qualitat per enganyar-la.
El fet que aquests generadors no estiguin entrenats utilitzant cap distribució de sortida és una distinció significativa entre els models d'autocodificador i altres models.
Hi ha dues maneres de descompondre la funció de pèrdua del model:
- la capacitat de quantificar si el discriminador preveu amb precisió dades reals
- les dades generades es prediuen amb precisió per una part.
En el millor discriminador factible, aquesta funció de pèrdua es minimitza llavors:
Per tant, els models genèrics es poden considerar com a models de minimització de la distància i, si el discriminador és ideal, com a minimització de la divergència entre la distribució veritable i la produïda.
En realitat, es poden utilitzar diferents divergències i donar lloc a diversos mètodes d'entrenament GAN.
Les dinàmiques d'aprenentatge, que inclouen una compensació entre el generador i el discriminador, són difícils de seguir, tot i que és senzill ajustar la funció de pèrdua dels GAN.
Tampoc hi ha garanties que l'aprenentatge convergirà. Com a resultat, entrenar un model GAN és difícil, ja que és habitual trobar problemes com la desaparició de gradients i el col·lapse del mode (quan no hi ha diversitat en les mostres generades).
Ara és el moment dels models de difusió
El problema de la convergència de formació dels GAN s'ha abordat mitjançant el desenvolupament de models de difusió.
Aquests models assumeixen que un procés de difusió és equivalent a la pèrdua d'informació provocada per la interferència progressiva del soroll (s'afegeix un soroll gaussià a cada pas del procés de difusió).
L'objectiu d'aquest model és determinar com el soroll afecta la informació present a la mostra o, dit d'una altra manera, quanta informació es perd a causa de la difusió.
Si un model pot esbrinar-ho, hauria de ser capaç de recuperar la mostra original i desfer la pèrdua d'informació que s'ha produït.
Això s'aconsegueix mitjançant un model de difusió de soroll. Un procés de difusió avançada i un procés de difusió inversa conformen els dos passos.
El procés de difusió cap endavant implica afegir gradualment soroll gaussià (és a dir, el procés de difusió) fins que les dades estiguin completament contaminades pel soroll.
La xarxa neuronal s'entrena posteriorment mitjançant el mètode de difusió inversa per aprendre les probabilitats de distribució condicional per revertir el soroll.
Aquí podeu entendre més sobre el model de difusió.
Model de difusió vs GAN
Com un model de difusió, els GAN produeixen imatges a partir del soroll.
El model està format per una xarxa neuronal generadora, que comença amb el soroll d'alguna variable de condicionament informatiu, com una etiqueta de classe o una codificació de text.
El resultat hauria de ser una cosa que s'assembli a una imatge realista.
Per crear generacions d'imatges fotorealistes i d'alta fidelitat, utilitzem GAN. Es produeixen visuals fins i tot més realistes que els GAN mitjançant models de difusió.
D'alguna manera, els models de difusió són més precisos a l'hora de descriure els fets.
Mentre que un GAN pren com a entrada un soroll aleatori o una variable de condicionament de classe i produeix una mostra realista, els models de difusió solen ser més lents, iteratius i necessiten molta més orientació.
No hi ha gaire marge d'error quan s'aplica repetidament la reducció de soroll amb l'objectiu de tornar a la imatge original des del soroll.
Cada punt de control es passa al llarg de l'etapa de creació, i amb cada pas, la imatge pot obtenir més i més informació.
Conclusió
En conclusió, a causa de poques investigacions significatives que només es van publicar als anys 2020 i 2021, els models de difusió ara poden superar els GAN en termes de síntesi d'imatges.
Aquest any s'ha llançat OpenAI DALL-E2, un model de producció d'imatges que permet als professionals emprar models de difusió.
Tot i que els GAN són d'avantguarda, les seves limitacions fan que sigui difícil escalar-los i utilitzar-los en nous contextos.
Per aconseguir una qualitat de mostra semblant a GAN utilitzant models basats en la probabilitat, s'hi ha treballat molt.
Deixa un comentari