I modelli di diffusione hanno travolto il mondo con il rilascio di Dall-Mi 2, Immagine di Google, Diffusione stabilee Metà viaggio, stimolando l'innovazione e ampliando i limiti dell'apprendimento automatico.
Questi modelli possono produrre un numero quasi illimitato di immagini da suggerimenti di parole, comprese immagini fotorealistiche, magiche, futuristiche e, naturalmente, carine.
Queste capacità reinventano cosa significa per gli esseri umani interfacciarsi con il silicio, dandoci la possibilità di creare praticamente qualsiasi immagine che possiamo immaginare.
Man mano che questi modelli si sviluppano o il prossimo paradigma generativo prende il sopravvento, gli esseri umani saranno in grado di produrre immagini, film e altre esperienze immersive solo con un pensiero.
In questo post, discuteremo del modello di diffusione, diffusione stabile, come funziona e un tutorial sulla pittura del modello di diffusione, tra le altre cose.
Cos'è il modello Diffusione?
I modelli di apprendimento automatico in grado di creare nuovi dati dai dati di addestramento sono indicati come modelli generativi. Altri modelli generativi includono modelli basati sul flusso, autoencoder variazionali e reti generative contraddittorio (GAN).
Ciascuno può generare immagini di ottima qualità. I modelli di diffusione imparano a recuperare i dati invertendo questo processo di aggiunta del rumore dopo aver danneggiato i dati di addestramento aggiungendo rumore. Per dirla in altro modo, i modelli di diffusione sono in grado di creare immagini coerenti dal rumore.
I modelli di diffusione apprendono introducendo il rumore nelle immagini, di cui il modello in seguito padroneggia la rimozione. Per produrre immagini realistiche, il modello applica quindi questa tecnica di denoising a semi casuali.
Condizionando il processo di produzione delle immagini, questi modelli possono essere utilizzati insieme alla guida da testo a immagine per generare un numero quasi illimitato di immagini dal solo testo. I semi possono essere diretti da input provenienti da incorporamenti come CLIP per fornire forti capacità di conversione da testo a immagine.
I modelli di diffusione possono eseguire una varietà di attività, tra cui la creazione di immagini, l'eliminazione del rumore delle immagini, la pittura, la pittura esterna e la diffusione dei bit.
Ora, cos'è la diffusione stabile?
Stable Diffusion è un modello di apprendimento automatico per la creazione di immagini basate su testo fornito da Stabilità.AI. È in grado di generare immagini dal testo.
Componenti di diffusione stabile
Diffusione stabile è un sistema composto da diversi componenti e concetti. Non è un unico modello. Quando controlliamo dietro il cofano, la prima cosa che vediamo è che c'è un componente di comprensione del testo che converte le informazioni del testo in una rappresentazione numerica che cattura i concetti del testo.
Possiamo chiamare questo codificatore di testo un Transformer modello linguistico (tecnicamente: il codificatore di testo di un modello CLIP). Prende il testo di input e genera un elenco di numeri interi (un vettore) per ogni parola/token nel testo. Tali dati vengono quindi forniti al Generatore di immagini, che è composto da diversi componenti.
Ci sono due passaggi nel generatore di immagini:
1. Creatore di informazioni sull'immagine
Il componente principale in Stable Diffusion è questo elemento. È qui che viene apportata la maggior parte del miglioramento delle prestazioni rispetto alle versioni precedenti.
Questo componente passa attraverso diverse fasi per fornire i dati dell'immagine. Il creatore di informazioni sull'immagine opera solo all'interno dello spazio delle informazioni sull'immagine (o spazio latente).
È più veloce dei precedenti modelli di diffusione che operavano nello spazio dei pixel a causa di questa caratteristica. Tecnicamente parlando, questo componente è composto da un algoritmo di scheduling e da un UNet rete neurale.
Il processo che ha luogo in questa componente è denominato “diffusione”. Alla fine viene prodotta un'immagine di alta qualità come risultato dell'elaborazione delle informazioni in fasi (dal componente successivo, il decodificatore di immagini).
2. Decodificatore di immagini
Utilizzando i dati ricevuti dal produttore di informazioni, il decodificatore di immagini crea un'immagine. Viene eseguito solo una volta per creare l'immagine pixel finita al termine dell'operazione.
Esercitazione sull'imprinting della diffusione stabile
Stable Diffusion picture inpainting è la tecnica per riempire le aree mancanti o danneggiate di un'immagine. Lo scopo della pittura di immagini è nascondere il fatto che l'immagine è stata restaurata.
Questa tecnica viene spesso utilizzata per eliminare cose indesiderate da un'immagine o per ripristinare aree danneggiate di fotografie storiche. Stable Diffusion Inpainting è un modo relativamente recente di inpainting che sta producendo effetti promettenti.
Seguendo le istruzioni seguenti, inizierai a esplorare l'inpainting e la modifica di foto esistenti se desideri provare a inpainting con una diffusione stabile:
- Vai a Huggingface Impatto di diffusione stabile
- Carica la tua immagine
- Cancella la parte dell'immagine che deve essere sostituita.
- Inserisci qui la tua richiesta (cosa vuoi aggiungere al posto di ciò che stai rimuovendo)
- Seleziona "corri"
Nel video in alto, carichiamo una foto con tre limoni e li scambiamo con delle mele. Personalmente consiglio di provarlo con le tue fotografie e i tuoi suggerimenti.
Conclusione
In generale, la pittura a diffusione costante è un metodo eccellente per produrre immagini o video falsi che sembrano estremamente reali. Man mano che ci muoviamo verso il nuovo progresso tecnologico, diventerà sempre più difficile distinguere tra autentico e fraudolento man mano che la tecnologia avanza.
Swahir
La prima metà è completamente estranea alla seconda metà. Sarebbe stato davvero bello se l'autore avesse spiegato come funziona inpaint nel quadro del modello che ha spiegato in precedenza, avrebbe potuto fornire spunti. Ma no! Ciò avrebbe richiesto una vera comprensione, piuttosto che raccogliere ed elaborare un testo casuale.