In generale, i modelli generativi profondi come GAN, VAE e modelli autoregressivi gestiscono i problemi di sintesi delle immagini.
Data l'elevata qualità dei dati che creano, le reti generative contraddittorio (GAN) hanno ricevuto molta attenzione negli ultimi anni.
I modelli di diffusione sono un altro affascinante campo di studio che si è affermato. I campi della generazione di immagini, video e voce hanno entrambi trovato ampio uso per entrambi.
Modelli di diffusione vs. GAN: quale produce risultati migliori? Naturalmente, questo ha portato a una discussione in corso.
Nell'architettura computazionale nota come GAN, due reti neurali vengono combattuti l'uno contro l'altro per produrre istanze di dati appena sintetizzate che possono passare per dati autentici.
I modelli di diffusione stanno diventando sempre più popolari poiché forniscono stabilità all'allenamento e risultati elevati per la produzione di musica e grafica.
Questo articolo esaminerà in dettaglio il modello di diffusione e i GAN, nonché come differiscono l'uno dall'altro e alcune altre cose.
Quindi, cosa sono le reti generative contraddittorio?
Al fine di creare nuove istanze artificiali di dati che potrebbero essere scambiati per dati genuini, le reti generative contraddittorio (GAN) utilizzano due reti neurali e le mettono l'una contro l'altra (quindi "adversarial" nel nome).
Sono ampiamente utilizzati per la creazione di voce, video e immagini.
L'obiettivo di GAN è creare dati precedentemente sconosciuti da un set di dati specifico. Il tentativo di dedurre un modello della distribuzione dei dati sottostante effettiva e non identificata dai campioni, lo fa.
In alternativa, queste reti sono modelli impliciti che tentano di apprendere una specifica distribuzione statistica.
Il metodo utilizzato da GAN per scoprire come raggiungere questo obiettivo era nuovo. In effetti, producono dati giocando a due giocatori per sviluppare un modello implicito.
Di seguito viene descritta la struttura:
- un discriminatore che acquisisce la capacità di distinguere tra dati autentici e falsi
- un generatore che raccoglie nuovi modi per creare dati può ingannare il discriminatore.
Il discriminatore si atteggia a rete neurale. Pertanto, il generatore deve creare un'immagine di alta qualità per ingannarla.
Il fatto che questi generatori non siano addestrati utilizzando alcuna distribuzione di output è una distinzione significativa tra i modelli di autoencoder e altri modelli.
Esistono due modi per scomporre la funzione di perdita del modello:
- la capacità di quantificare se il discriminatore prevede con precisione dati reali
- i dati generati sono accuratamente previsti da una parte.
Sul miglior discriminatore possibile, questa funzione di perdita viene quindi ridotta al minimo:
I modelli generici possono quindi essere pensati come modelli di minimizzazione della distanza e, se il discriminatore è ideale, come minimizzazione della divergenza tra la distribuzione vera e quella prodotta.
In realtà, diverse divergenze possono essere impiegate e risultare in vari metodi di formazione GAN.
Le dinamiche di apprendimento, che includono un compromesso tra il generatore e il discriminatore, sono difficili da seguire, nonostante sia semplice regolare la funzione di perdita dei GAN.
Inoltre, non ci sono garanzie che l'apprendimento convergerà. Di conseguenza, l'addestramento di un modello GAN è difficile, poiché è tipico imbattersi in problemi come la scomparsa dei gradienti e il collasso della modalità (quando non c'è diversità nei campioni generati).
Ora è il momento dei modelli di diffusione
Il problema della convergenza formativa dei GAN è stato affrontato attraverso lo sviluppo di modelli di diffusione.
Questi modelli presuppongono che un processo di diffusione sia equivalente alla perdita di informazioni causata dall'interferenza progressiva del rumore (un rumore gaussiano viene aggiunto ad ogni fase del processo di diffusione).
Lo scopo di un tale modello è determinare in che modo il rumore influisce sulle informazioni presenti nel campione o, per dirla in altro modo, quante informazioni vengono perse a causa della diffusione.
Se un modello riesce a capirlo, dovrebbe essere in grado di recuperare il campione originale e annullare la perdita di informazioni che si è verificata.
Ciò si ottiene attraverso un modello di diffusione denoising. Un processo di diffusione in avanti e un processo di diffusione inversa costituiscono le due fasi.
Il processo di diffusione diretta prevede l'aggiunta graduale del rumore gaussiano (cioè il processo di diffusione) fino a quando i dati non sono completamente contaminati dal rumore.
La rete neurale viene successivamente addestrata utilizzando il metodo di diffusione inversa per apprendere le probabilità di distribuzione condizionale per invertire il rumore.
Qui puoi capire di più sul modello di diffusione.
Modello di diffusione contro GAN
Come un modello di diffusione, i GAN producono immagini dal rumore.
Il modello è costituito da una rete neurale del generatore, che inizia con il rumore di una variabile di condizionamento informativa, come un'etichetta di classe o una codifica di testo.
Il risultato dovrebbe quindi essere qualcosa che assomigli a un'immagine realistica.
Per creare generazioni di immagini fotorealistiche e ad alta fedeltà, utilizziamo GAN. Immagini ancora più realistiche rispetto ai GAN vengono prodotte utilizzando modelli di diffusione.
In un certo senso, i modelli di diffusione sono più accurati nel descrivere i fatti.
Mentre un GAN prende come input un rumore casuale o una variabile di condizionamento di classe e genera un campione realistico, i modelli di diffusione sono spesso più lenti, iterativi e richiedono molta più guida.
Non c'è molto spazio per errori quando il denoising viene applicato ripetutamente con l'obiettivo di tornare all'immagine originale dal rumore.
Ogni checkpoint viene superato durante la fase di creazione e, con ogni passaggio, l'immagine potrebbe acquisire sempre più informazioni.
Conclusione
In conclusione, a causa di poche ricerche significative pubblicate solo negli anni 2020 e 2021, i modelli di diffusione possono ora superare i GAN in termini di sintesi delle immagini.
Quest'anno è stato lanciato OpenAI DALL-MI2, un modello di produzione di immagini che consente ai professionisti di utilizzare modelli di diffusione.
Sebbene i GAN siano all'avanguardia, i loro vincoli rendono difficile ridimensionarli e utilizzarli in nuovi contesti.
Al fine di ottenere una qualità del campione simile a GAN utilizzando modelli basati sulla probabilità, è stato dedicato molto lavoro.
Lascia un Commento