Negli ultimi anni, i modelli generativi chiamati "modelli di diffusione" sono diventati sempre più popolari e con buone ragioni.
Il mondo ha visto di cosa sono capaci i modelli di diffusione, come ad esempio sovraperformare i GAN sulla sintesi delle immagini, grazie a poche pubblicazioni di riferimento selezionate solo negli anni 2020 e 2021.
I praticanti hanno recentemente visto l'uso di modelli di diffusione in DALL-MI2, il modello di creazione delle immagini di OpenAI che è stato pubblicato il mese scorso.
Molti professionisti dell'apprendimento automatico sono senza dubbio curiosi del funzionamento interno dei modelli di diffusione data la loro recente ondata di successo.
In questo post, esamineremo le basi teoriche dei modelli di diffusione, il loro design, i loro vantaggi e molto altro. Muoviamoci.
Cos'è il modello Diffusione?
Cominciamo col capire perché questo modello viene chiamato modello di diffusione.
Una parola relativa alla termodinamica nelle classi di fisica si chiama diffusione. Un sistema non è in equilibrio se c'è una grande concentrazione di un materiale, come un profumo, in una posizione.
La diffusione deve avvenire affinché il sistema entri in equilibrio. Le molecole del profumo si diffondono in tutto il sistema da una regione a concentrazione più elevata, rendendo il sistema uniforme in tutto.
Tutto alla fine diventa omogeneo per diffusione.
I modelli di diffusione sono motivati da questa condizione di non equilibrio termodinamico. I modelli di diffusione utilizzano una catena di Markov, che è una serie di variabili in cui il valore di ciascuna variabile si basa sullo stato dell'evento precedente.
Scattando una foto, aggiungiamo successivamente una particolare quantità di rumore durante la fase di diffusione in avanti.
Dopo aver memorizzato l'immagine più rumorosa, si procede alla creazione dell'immagine successiva della serie introducendo rumore aggiuntivo.
Più volte, questa procedura viene eseguita. Se si ripete questo metodo alcune volte, si ottiene un'immagine con rumore puro.
Come possiamo quindi creare un'immagine da questa immagine disordinata?
Il processo di diffusione viene invertito utilizzando a rete neurale. Le stesse reti e gli stessi pesi vengono utilizzati nel processo di diffusione all'indietro per creare l'immagine da t a t-1.
Invece di lasciare che la rete anticipi l'immagine, si può tentare di prevedere il rumore ad ogni passaggio, che deve essere rimosso dall'immagine per semplificare ulteriormente il compito.
In ogni scenario, il progettazione di reti neurali deve essere selezionato in modo da mantenere la dimensionalità dei dati.
Approfondimento nel modello di diffusione
I componenti di un modello di diffusione sono un processo in avanti (noto anche come processo di diffusione), in cui un dato (spesso un'immagine) viene gradualmente disturbato, e un processo inverso (noto anche come processo di diffusione inversa), in cui il rumore è riconvertito in un campione dalla distribuzione target.
Quando il livello di rumore è sufficientemente basso, le gaussiane condizionali possono essere utilizzate per stabilire le transizioni della catena di campionamento nel processo in avanti. Una facile parametrizzazione del processo in avanti risulta dall'accoppiamento di questa conoscenza con l'assunzione di Markov:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
Qui 1 ....T è un programma di varianza (appreso o fisso) che assicura, per T sufficientemente alto, che xT sia virtualmente un gaussiano isotropo.
Il processo opposto è dove avviene la magia del modello di diffusione. Il modello impara a invertire questo processo di diffusione durante l'addestramento per produrre nuovi dati. Il modello apprende la distribuzione congiunta come (x0:T) il risultato di iniziare con l'equazione del rumore gaussiano puro
(xT):=N(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))
dove vengono scoperti i parametri dipendenti dal tempo delle transizioni gaussiane. In particolare, prendi nota di come la formulazione di Markov affermi che una data distribuzione di transizione alla diffusione inversa dipende esclusivamente dal passaggio temporale precedente (o passaggio temporale successivo, a seconda di come lo guardi):
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Modello di formazione
Un modello di Markov inverso che massimizza la probabilità dei dati di addestramento viene utilizzato per addestrare un modello di diffusione. In pratica, l'allenamento è analogo alla riduzione del limite superiore variazionale della probabilità logaritmica negativa.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
Modelli
Ora dobbiamo decidere come eseguire il nostro modello di diffusione dopo aver stabilito le basi matematiche della nostra funzione obiettivo. L'unica decisione necessaria per il processo forward è la determinazione del programma di varianza, i cui valori tipicamente aumentano durante la procedura.
Consideriamo fortemente l'utilizzo della parametrizzazione della distribuzione gaussiana e dell'architettura del modello per la procedura inversa.
L'unica condizione del nostro progetto è che sia l'ingresso che l'uscita abbiano le stesse dimensioni. Ciò sottolinea l'enorme grado di libertà fornito dai modelli di diffusione.
Di seguito, approfondiremo queste opzioni.
Processo in avanti
Dobbiamo fornire il programma di varianza in relazione al processo in avanti. Li abbiamo specificatamente impostati come costanti dipendenti dal tempo e abbiamo ignorato la possibilità che possano essere appresi. Un calendario cronologico da
da β1 = 10−4 a βT = 0.02.
Lt diventa una costante rispetto al nostro insieme di parametri apprendibili a causa del programma di varianza fisso, permettendoci di ignorarlo durante l'allenamento indipendentemente dai valori specifici selezionati.
Processo inverso
Esaminiamo ora le decisioni necessarie per definire il processo inverso. Ricorda come abbiamo descritto le transizioni di Markov inverse come gaussiane:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Ora che abbiamo identificato i tipi funzionali. Nonostante il fatto che ci siano tecniche più complesse da parametrizzare, abbiamo semplicemente impostato
Σθ(xt, t) = σ2tI
σ 2 t = β t
Per dirla in altro modo, consideriamo la gaussiana multivariata il risultato di gaussiane separate con la stessa varianza, un valore di varianza che può fluttuare nel tempo. Queste deviazioni sono impostate per corrispondere al calendario delle deviazioni del processo di inoltro.
Come risultato di questa nuova formulazione, noi abbiamo:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)) :=N (xt−1; µθ (xt, t), σ2 t I)
Ciò si traduce nella funzione di perdita alternativa mostrata di seguito, che gli autori hanno riscontrato produrre un allenamento più coerente e risultati superiori:
Lsemplice(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Gli autori tracciano anche connessioni tra questa formulazione di modelli di diffusione e modelli generativi di corrispondenza dei punteggi basati su Langevin. Come con lo sviluppo indipendente e parallelo della fisica quantistica basata sulle onde e della meccanica quantistica basata su matrici, che ha rivelato due formulazioni comparabili degli stessi fenomeni, sembra che i modelli di diffusione e i modelli basati sul punteggio possano essere due facce della stessa medaglia.
Architettura di rete
Nonostante il fatto che la nostra funzione di perdita condensata miri ad addestrare un modello Σθ, non abbiamo ancora deciso l'architettura di questo modello. Tieni presente che il modello deve semplicemente avere le stesse dimensioni di input e output.
Dato questo vincolo, probabilmente non è inaspettato che le architetture simili a U-Net siano usate frequentemente per creare modelli di diffusione delle immagini.
Numerose modifiche vengono apportate lungo il percorso del processo inverso utilizzando distribuzioni gaussiane condizionali continue. Ricorda che l'obiettivo della procedura inversa è creare un'immagine composta da valori di pixel interi. È quindi necessario determinare le probabilità discrete (log) per ogni potenziale valore di pixel su tutti i pixel.
Ciò si ottiene assegnando un decodificatore discreto separato all'ultima transizione della catena di diffusione inversa. stimare la possibilità di una certa immagine x0 dato x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ io θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ se x = 1 x + 1 255 se x < 1 δ−(x) = −∞ se x = −1 x − 1 255 se x > −1
dove l'apice I indica l'estrazione di una coordinata e D indica il numero di dimensioni nei dati.
L'obiettivo a questo punto è stabilire la probabilità di ogni valore intero per un pixel specifico data la distribuzione dei valori potenziali per quel pixel nel tempo variabile t = 1.
Obiettivo finale
I risultati migliori, secondo gli scienziati, sono venuti dalla previsione della componente di rumore di un'immagine in un determinato intervallo di tempo. Alla fine, impiegano il seguente obiettivo:
Lsemplice(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Nell'immagine seguente sono brevemente illustrate le procedure di addestramento e campionamento per il nostro modello di diffusione:
Vantaggi del modello di diffusione
Come già indicato, la mole di ricerca sui modelli di diffusione si è moltiplicata di recente. I modelli di diffusione ora offrono una qualità dell'immagine all'avanguardia e si ispirano alla termodinamica di non equilibrio.
I modelli di diffusione offrono una varietà di altri vantaggi oltre ad avere una qualità dell'immagine all'avanguardia, come non richiedere una formazione del contraddittorio.
Gli svantaggi della formazione in contraddittorio sono ampiamente noti, per cui spesso è preferibile scegliere alternative non contraddittorie con prestazioni ed efficacia formativa equivalenti.
I modelli di diffusione offrono anche i vantaggi di scalabilità e parallelizzabilità in termini di efficacia della formazione.
Sebbene i modelli di diffusione sembrino generare risultati apparentemente dal nulla, la base di questi risultati è posta da una serie di decisioni e sottigliezze matematiche ponderate e interessanti e le migliori pratiche del settore sono ancora in fase di sviluppo.
Conclusione
In conclusione, i ricercatori dimostrano risultati di sintesi di immagini di alta qualità utilizzando modelli probabilistici di diffusione, una classe di modelli variabili latenti motivati da idee provenienti dalla termodinamica del non equilibrio.
Hanno ottenuto risultati straordinari grazie ai loro risultati all'avanguardia e alla formazione non contraddittoria e data la loro infanzia, negli anni a venire potrebbero essere previsti ulteriori progressi.
In particolare, è stato scoperto che i modelli di diffusione sono cruciali per la funzionalità di modelli avanzati come DALL-E 2.
Qui puoi accedere alla ricerca completa.
Lascia un Commento