Probabilmente sei consapevole che un computer può descrivere un'immagine.
Ad esempio, l'immagine di un cane che gioca con i tuoi bambini può essere tradotta come "cane e bambini in giardino". Ma sapevi che ora è possibile anche il contrario? Digitate alcune parole e la macchina genera una nuova immagine.
A differenza di una ricerca su Google, che ricerca le fotografie esistenti, questo è tutto nuovo. Negli ultimi anni, OpenAI è stata una delle organizzazioni leader, con risultati sorprendenti.
Addestrano i loro algoritmi su enormi database di testo e immagini. Hanno pubblicato un articolo sul loro modello di immagine GLIDE, che è stato addestrato su centinaia di milioni di foto. In termini di fotorealismo, supera il loro precedente modello "DALL-E".
In questo post, esamineremo GLIDE di OpenAI, una delle numerose iniziative affascinanti volte a produrre e modificare immagini fotorealistiche con modelli di diffusione guidati dal testo. Cominciamo.
Che cosa è l' Apri Planata AI?
Sebbene la maggior parte delle immagini possa essere descritta a parole, la creazione di immagini da input di testo richiede conoscenze specializzate e una notevole quantità di tempo.
Consentire a un agente di intelligenza artificiale di produrre immagini fotorealistiche da prompt del linguaggio naturale non solo consente alle persone di creare materiale visivo ricco e diversificato con una facilità senza precedenti, ma consente anche un perfezionamento iterativo più semplice e un controllo a grana fine delle immagini create.
GLIDE può essere utilizzato per modificare foto esistenti utilizzando istruzioni di testo in linguaggio naturale per inserire nuovi oggetti, creare ombre e riflessi, eseguire pittura dell'immagine, E così via.
Può anche trasformare i disegni al tratto di base in fotografie fotorealistiche e ha eccezionali capacità di produzione e riparazione senza campioni per situazioni complesse.
Ricerche recenti hanno dimostrato che i modelli di diffusione basati sulla verosimiglianza possono anche produrre immagini sintetiche di alta qualità, in particolare se combinati con un approccio guida che bilancia varietà e fedeltà.
OpenAI ha pubblicato a modello di diffusione guidata a maggio, che consente ai modelli di diffusione di essere subordinati alle etichette di un classificatore. GLIDE migliora questo successo apportando una diffusione guidata al problema della creazione di immagini condizionate dal testo.
Dopo aver addestrato un modello di diffusione GLIDE da 3.5 miliardi di parametri utilizzando un codificatore di testo per condizionare le descrizioni del linguaggio naturale, i ricercatori hanno testato due strategie guida alternative: guida CLIP e guida priva di classificatori.
CLIP è una tecnica scalabile per l'apprendimento di rappresentazioni congiunte di testo e immagini che fornisce un punteggio basato su quanto un'immagine è vicina a una didascalia.
Il team ha utilizzato questa strategia nei propri modelli di diffusione sostituendo il classificatore con un modello CLIP che “guida” i modelli. Nel frattempo, la guida senza classificatore è una strategia per dirigere modelli di diffusione che non implicano la formazione di un classificatore separato.
Architettura GLIDE
L'architettura GLIDE è composta da tre componenti: un Ablated Diffusion Model (ADM) addestrato per generare un'immagine 64 × 64, un modello di testo (trasformatore) che influenza la generazione dell'immagine tramite un prompt di testo e un modello di upsampling che converte il nostro piccolo 64 × 64 immagini a 256 x 256 pixel più interpretabili.
I primi due componenti lavorano insieme per controllare il processo di generazione dell'immagine in modo che rifletta adeguatamente la richiesta di testo, mentre il secondo è necessario per rendere le immagini che creiamo più facili da comprendere. Il progetto GLIDE è stato ispirato da a rapporto pubblicato nel 2021 che ha mostrato che le tecniche ADM hanno superato i modelli generativi attualmente popolari e all'avanguardia in termini di qualità del campione dell'immagine.
Per l'ADM, gli autori di GLIDE hanno utilizzato lo stesso modello ImageNet 64 x 64 di Dhariwal e Nichol, ma con 512 canali invece di 64. Di conseguenza, il modello ImageNet ha circa 2.3 miliardi di parametri.
Il team GLIDE, a differenza di Dhariwal e Nichol, voleva avere un maggiore controllo diretto sul processo di generazione dell'immagine, quindi ha combinato il modello visivo con un trasformatore abilitato all'attenzione. GLIDE ti dà un certo controllo sull'output del processo di generazione dell'immagine elaborando i prompt di immissione del testo.
Ciò si ottiene addestrando il modello del trasformatore su un set di dati adeguatamente grande di foto e didascalie (simile a quello impiegato nel progetto DALL-E).
Il testo è inizialmente codificato in una serie di K token per condizionarlo. Successivamente, i token vengono caricati in un modello di trasformatore. L'uscita del trasformatore può quindi essere utilizzata in due modi. Per il modello ADM, viene utilizzato l'incorporamento del token finale invece dell'incorporamento della classe.
In secondo luogo, lo strato finale dei token embedding – una serie di vettori di caratteristiche – viene proiettato indipendentemente dalle dimensioni per ciascun livello di attenzione nel modello ADM e concatenato a ciascun contesto di attenzione.
In realtà, ciò consente al modello ADM di produrre un'immagine da nuove combinazioni di token di testo simili in un modo unico e fotorealistico, basato sulla sua comprensione appresa delle parole di input e delle relative immagini. Questo trasformatore di codifica del testo contiene 1.2 miliardi di parametri e impiega 24 blocchi rimanenti con una larghezza di 2048.
Infine, il modello di diffusione dell'upsampler include circa 1.5 miliardi di parametri e varia dal modello base in quanto il suo codificatore di testo è più piccolo, con una larghezza di 1024 e 384 canali di base, rispetto al modello base. Questo modello, come indica il nome, aiuta nell'aggiornamento del campione al fine di migliorare l'interpretabilità sia per le macchine che per l'uomo.
Modello di diffusione
GLIDE genera immagini utilizzando la propria versione dell'ADM (ADM-G per "guidato"). Il modello ADM-G è una modifica del modello U-net di diffusione. Un modello U-net di diffusione differisce notevolmente dalle tecniche di sintesi delle immagini più comuni come VAE, GAN e trasformatori.
Costruiscono una catena Markov di passaggi di diffusione per iniettare gradualmente rumore casuale nei dati, quindi imparano a invertire il processo di diffusione e ricostruire i campioni di dati richiesti dal solo rumore. Funziona in due fasi: diffusione diretta e inversa.
Il metodo di diffusione diretta, dato un punto dati dalla vera distribuzione del campione, aggiunge una piccola quantità di rumore al campione su una serie preimpostata di passaggi. Quando i passaggi aumentano di dimensione e si avvicinano all'infinito, il campione perde tutte le caratteristiche riconoscibili e la sequenza inizia ad assomigliare a una curva gaussiana isotropa.
Durante la diffusione a ritroso fase, il modello di diffusione impara a invertire l'influenza del rumore aggiunto sulle immagini e riportare l'immagine prodotta alla sua forma originale tentando di assomigliare alla distribuzione del campione di input originale.
Un modello completato potrebbe farlo con un input di rumore gaussiano reale e un prompt. Il metodo ADM-G varia dal precedente in quanto un modello, CLIP o un trasformatore personalizzato, influisce sulla fase di diffusione all'indietro utilizzando i token di prompt di testo immessi.
Capacità di scivolamento
1. Generazione dell'immagine
L'uso più popolare e ampiamente utilizzato di GLIDE sarà probabilmente la sintesi di immagini. Sebbene le immagini siano modeste e GLIDE abbia difficoltà con le forme animali/umane, il potenziale per la produzione di immagini one-shot è quasi infinito.
Può creare foto di animali, celebrità, paesaggi, edifici e molto altro, e può farlo in una varietà di stili artistici e in modo fotorealistico. Gli autori dei ricercatori affermano che GLIDE è in grado di interpretare e adattare un'ampia varietà di input testuali in un formato visivo, come si vede negli esempi seguenti.
2. Pittura a scorrimento
La pittura fotografica automatica di GLIDE è probabilmente l'uso più affascinante. GLIDE può acquisire un'immagine esistente come input, elaborarla tenendo presente il prompt di testo per le posizioni che devono essere modificate e quindi apportare modifiche attive a quelle parti con facilità.
Deve essere utilizzato insieme a un modello di editing, come SDEdit, per produrre risultati ancora migliori. In futuro, le app che sfruttano funzionalità come queste potrebbero essere cruciali per lo sviluppo di approcci di alterazione delle immagini privi di codice.
Conclusione
Ora che abbiamo esaminato il processo, dovresti comprendere i fondamenti di come funziona GLIDE, nonché l'ampiezza delle sue capacità nella creazione di immagini e nella modifica delle immagini.
Lascia un Commento