Negli ultimi anni, i modelli di deep learning sono diventati più efficaci nella comprensione del linguaggio umano.
Pensa a progetti come GPT-3, che ora è in grado di creare interi articoli e siti web. GitHub ha recentemente introdotto Copilota GitHub, un servizio che fornisce interi frammenti di codice semplicemente descrivendo il tipo di codice necessario.
I ricercatori di OpenAI, Facebook e Google hanno lavorato su modi per utilizzare il deep learning per gestire un'altra attività: i sottotitoli delle immagini. Usando un grande set di dati con milioni di voci, ne hanno inventati alcuni sorprendente sul risultato.
Ultimamente, questi ricercatori hanno cercato di svolgere il compito opposto: creare immagini da una didascalia. È ora possibile creare un'immagine completamente nuova da una descrizione?
Questa guida esplorerà due dei modelli text-to-image più avanzati: DALL-E 2 di OpenAI e Imagen AI di Google. Ognuno di questi progetti ha introdotto metodi innovativi che possono cambiare la società come la conosciamo.
Ma prima, capiamo cosa intendiamo per generazione da testo a immagine.
Che cos'è la generazione da testo a immagine?
Modelli da testo a immagine consentire ai computer di creare immagini nuove e uniche in base ai prompt. Le persone possono ora fornire una descrizione testuale di un'immagine che desiderano produrre e il modello cercherà di creare un oggetto visivo che corrisponda a quella descrizione il più fedelmente possibile.
I modelli di apprendimento automatico hanno sfruttato l'uso di set di dati di grandi dimensioni contenenti coppie di didascalie immagine per migliorare ulteriormente le prestazioni.
La maggior parte da testo a immagine i modelli utilizzano un modello di linguaggio trasformatore per interpretare le richieste. Questo tipo di modello è a rete neurale che cerca di apprendere il contesto e il significato semantico del linguaggio naturale.
Successivamente, modelli generativi come modelli di diffusione e le reti generative contraddittorie sono utilizzate per la sintesi delle immagini.
Cos'è DALLE 2?
DALL-MI2 è un modello computerizzato di OpenAI che è stato rilasciato nell'aprile 2022. Il modello è stato addestrato su un database di milioni di immagini etichettate per associare parole e frasi alle immagini.
Gli utenti possono digitare una semplice frase, come "un gatto che mangia lasagne", e DALL-E 2 genererà la propria interpretazione di ciò che la frase sta cercando di descrivere.
Oltre a creare immagini da zero, DALL-E 2 può anche modificare immagini esistenti. Nell'esempio seguente, DALL-E è stato in grado di generare un'immagine modificata di una stanza con un divano aggiunto.
DALL-E 2 è solo uno dei tanti progetti simili che OpenAI ha rilasciato negli ultimi anni. Il GPT-3 di OpenAI è diventato degno di nota quando sembrava generare testo di stili diversi.
Attualmente, DALL-E 2 è ancora in fase di beta test. Gli utenti interessati possono registrarsi per il loro lista d'attesa e attendi l'accesso.
Come funziona?
Mentre i risultati di DALL-E 2 sono impressionanti, potresti chiederti come funziona.
DALL-E 2 è un esempio di implementazione multimodale del progetto GPT-3 di OpenAI.
Innanzitutto, il prompt di testo dell'utente viene inserito in un codificatore di testo che associa il prompt a uno spazio di rappresentazione. DALL-E 2 utilizza un altro modello OpenAI chiamato CLIP ( Contrastive Language-Image Pre-Training) per ottenere informazioni semantiche dal linguaggio naturale.
Successivamente, un modello noto come il precedente mappa la codifica del testo in una codifica dell'immagine. Questa codifica dell'immagine dovrebbe acquisire le informazioni semantiche trovate nella fase di codifica del testo.
Per creare l'immagine reale, DALL-E 2 utilizza un decodificatore di immagini per generare una visuale utilizzando informazioni semantiche e dettagli di codifica dell'immagine. OpenAI utilizza una versione modificata di SCIVOLARE modello per eseguire la generazione di immagini. GLIDE si basa su a modello di diffusione per creare immagini.
L'aggiunta di GLIDE al modello DALL-E 2 ha consentito un output più fotorealistico. Poiché il modello GLIDE è stocastico o determinato in modo casuale, il modello DALL-E 2 può facilmente creare variazioni eseguendo il modello ancora e ancora.
Limiti
Nonostante i risultati impressionanti del modello DALL-E 2, deve ancora affrontare alcune limitazioni.
Testo ortografico
I prompt che tentano di far generare testo a DALL-E 2 rivelano che ha difficoltà a scrivere le parole. Gli esperti presumono che ciò possa essere dovuto al fatto che le informazioni sull'ortografia non fanno parte del set di dati di addestramento.
Ragionamento compositivo
I ricercatori osservano che DALL-E 2 ha ancora qualche difficoltà con il ragionamento compositivo. In poche parole, il modello può comprendere i singoli aspetti di un'immagine pur avendo difficoltà a capire le relazioni tra questi aspetti.
Ad esempio, se viene visualizzato il messaggio "cubo rosso sopra un cubo blu", DALL-E genererà un cubo blu e un cubo rosso in modo accurato ma non li posizionerà correttamente. È stato anche osservato che il modello ha difficoltà con i prompt che richiedono l'estrazione di un numero specifico di oggetti.
Bias nel set di dati
Se il prompt non contiene altri dettagli, è stato osservato che DALL-E raffigura persone e ambienti bianchi o occidentali. Questa distorsione rappresentativa si verifica a causa dell'abbondanza di immagini incentrate sull'Occidente nel set di dati.
È stato anche osservato che il modello segue gli stereotipi di genere. Ad esempio, digitando il prompt "assistente di volo" si generano principalmente immagini di assistenti di volo donne.
Che cos'è Google Imagen AI?
Google Immagine AI è un modello che mira a creare immagini fotorealistiche dal testo di input. Simile a DALL-E, il modello utilizza anche modelli di linguaggio del trasformatore per comprendere il testo e si basa sull'uso di modelli di diffusione per creare immagini di alta qualità.
Oltre a Imagen, Google ha anche rilasciato un benchmark per i modelli text-to-image chiamato DrawBench. Utilizzando DrawBench, sono stati in grado di osservare che i valutatori umani preferivano l'output di Imagen rispetto ad altri modelli, incluso DALL-E 2.
Come funziona?
Simile a DALL-E, Imagen converte prima il prompt dell'utente in un incorporamento di testo tramite un codificatore di testo bloccato.
Imagen utilizza un modello di diffusione che impara a convertire un modello di rumore in immagini. L'output iniziale di queste immagini è a bassa risoluzione e viene successivamente passato attraverso un altro modello noto come modello di diffusione a super risoluzione per aumentare la risoluzione dell'immagine finale. Il primo modello di diffusione emette un'immagine di 64 × 64 pixel e viene successivamente ingrandita fino a un'immagine ad alta risoluzione di 1024 × 1024.
Sulla base della ricerca del team di Imagen, i grandi modelli linguistici congelati addestrati solo su dati di testo sono ancora codificatori di testo altamente efficaci per la generazione da testo a immagine.
Lo studio introduce anche il concetto di soglia dinamica. Questo metodo consente alle immagini di apparire più fotorealistiche aumentando i pesi guida durante la generazione dell'immagine.
Prestazioni di DALLE 2 vs Imagen
I risultati preliminari del benchmark di Google mostrano che gli intervistati umani preferiscono le immagini generate da Imagen rispetto a DALL-E 2 e altri modelli text-to-image come Latent Diffusion e VQGAN+CLIP.
L'output proveniente dal team di Imagen ha anche dimostrato che il loro modello ha prestazioni migliori nell'ortografia del testo, una nota debolezza del modello DALL-E 2.
Tuttavia, poiché Google non ha ancora rilasciato il modello al pubblico, resta ancora da vedere quanto siano accurati i benchmark di Google.
Conclusione
L'ascesa di modelli da testo a immagine fotorealistici è controversa perché questi modelli sono maturi per un uso non etico.
La tecnologia può portare alla creazione di contenuti espliciti o come strumento di disinformazione. I ricercatori di Google e OpenAI ne sono consapevoli, motivo per cui queste tecnologie non sono ancora accessibili a tutti.
I modelli da testo a immagine hanno anche implicazioni economiche significative. Professioni come modelle, fotografi e artisti saranno interessate se modelli come DALL-E diventeranno mainstream?
Al momento, questi modelli hanno ancora dei limiti. Tenere sotto controllo qualsiasi immagine generata dall'IA ne rivelerà le imperfezioni. Con OpenAI e Google in competizione per i modelli più efficaci, potrebbe essere questione di tempo prima che venga generato un output davvero perfetto: un'immagine che è indistinguibile dalla realtà.
Cosa pensi accadrà quando la tecnologia andrà così lontano?
Lascia un Commento