Tutorial di pittura a diffusione stabile

Sommario[Nascondere][Spettacolo]

Cos'è il modello Diffusione?
Ora, cos'è la diffusione stabile?
Componenti di diffusione stabile+-
- 1. Creatore di informazioni sull'immagine
- 2. Decodificatore di immagini
Esercitazione sull'imprinting della diffusione stabile
Conclusione

I modelli di diffusione hanno travolto il mondo con il rilascio di Dall-Mi 2, Immagine di Google, Diffusione stabilee Metà viaggio, stimolando l'innovazione e ampliando i limiti dell'apprendimento automatico.

Questi modelli possono produrre un numero quasi illimitato di immagini da suggerimenti di parole, comprese immagini fotorealistiche, magiche, futuristiche e, naturalmente, carine.

Queste capacità reinventano cosa significa per gli esseri umani interfacciarsi con il silicio, dandoci la possibilità di creare praticamente qualsiasi immagine che possiamo immaginare.

Man mano che questi modelli si sviluppano o il prossimo paradigma generativo prende il sopravvento, gli esseri umani saranno in grado di produrre immagini, film e altre esperienze immersive solo con un pensiero.

In questo post, discuteremo del modello di diffusione, diffusione stabile, come funziona e un tutorial sulla pittura del modello di diffusione, tra le altre cose.

Cos'è il modello Diffusione?

I modelli di apprendimento automatico in grado di creare nuovi dati dai dati di addestramento sono indicati come modelli generativi. Altri modelli generativi includono modelli basati sul flusso, autoencoder variazionali e reti generative contraddittorio (GAN).

Ciascuno può generare immagini di ottima qualità. I modelli di diffusione imparano a recuperare i dati invertendo questo processo di aggiunta del rumore dopo aver danneggiato i dati di addestramento aggiungendo rumore. Per dirla in altro modo, i modelli di diffusione sono in grado di creare immagini coerenti dal rumore.

I modelli di diffusione apprendono introducendo il rumore nelle immagini, di cui il modello in seguito padroneggia la rimozione. Per produrre immagini realistiche, il modello applica quindi questa tecnica di denoising a semi casuali.

Condizionando il processo di produzione delle immagini, questi modelli possono essere utilizzati insieme alla guida da testo a immagine per generare un numero quasi illimitato di immagini dal solo testo. I semi possono essere diretti da input provenienti da incorporamenti come CLIP per fornire forti capacità di conversione da testo a immagine.

I modelli di diffusione possono eseguire una varietà di attività, tra cui la creazione di immagini, l'eliminazione del rumore delle immagini, la pittura, la pittura esterna e la diffusione dei bit.

Ora, cos'è la diffusione stabile?

Stable Diffusion è un modello di apprendimento automatico per la creazione di immagini basate su testo fornito da Stabilità.AI. È in grado di generare immagini dal testo.

Componenti di diffusione stabile

Diffusione stabile è un sistema composto da diversi componenti e concetti. Non è un unico modello. Quando controlliamo dietro il cofano, la prima cosa che vediamo è che c'è un componente di comprensione del testo che converte le informazioni del testo in una rappresentazione numerica che cattura i concetti del testo.

Panoramica sulla diffusione stabile

Possiamo chiamare questo codificatore di testo un Transformer modello linguistico (tecnicamente: il codificatore di testo di un modello CLIP). Prende il testo di input e genera un elenco di numeri interi (un vettore) per ogni parola/token nel testo. Tali dati vengono quindi forniti al Generatore di immagini, che è composto da diversi componenti.

Ci sono due passaggi nel generatore di immagini:

1. Creatore di informazioni sull'immagine

Il componente principale in Stable Diffusion è questo elemento. È qui che viene apportata la maggior parte del miglioramento delle prestazioni rispetto alle versioni precedenti.

Questo componente passa attraverso diverse fasi per fornire i dati dell'immagine. Il creatore di informazioni sull'immagine opera solo all'interno dello spazio delle informazioni sull'immagine (o spazio latente).

È più veloce dei precedenti modelli di diffusione che operavano nello spazio dei pixel a causa di questa caratteristica. Tecnicamente parlando, questo componente è composto da un algoritmo di scheduling e da un UNet rete neurale.

Il processo che ha luogo in questa componente è denominato “diffusione”. Alla fine viene prodotta un'immagine di alta qualità come risultato dell'elaborazione delle informazioni in fasi (dal componente successivo, il decodificatore di immagini).

Creatore di informazioni sull'immagine a diffusione stabile

2. Decodificatore di immagini

Utilizzando i dati ricevuti dal produttore di informazioni, il decodificatore di immagini crea un'immagine. Viene eseguito solo una volta per creare l'immagine pixel finita al termine dell'operazione.

Decodificatore di immagini

Esercitazione sull'imprinting della diffusione stabile

Stable Diffusion picture inpainting è la tecnica per riempire le aree mancanti o danneggiate di un'immagine. Lo scopo della pittura di immagini è nascondere il fatto che l'immagine è stata restaurata.

Questa tecnica viene spesso utilizzata per eliminare cose indesiderate da un'immagine o per ripristinare aree danneggiate di fotografie storiche. Stable Diffusion Inpainting è un modo relativamente recente di inpainting che sta producendo effetti promettenti.

Seguendo le istruzioni seguenti, inizierai a esplorare l'inpainting e la modifica di foto esistenti se desideri provare a inpainting con una diffusione stabile:

Vai a Huggingface Impatto di diffusione stabile
Carica la tua immagine
Cancella la parte dell'immagine che deve essere sostituita.
Inserisci qui la tua richiesta (cosa vuoi aggiungere al posto di ciò che stai rimuovendo)
Seleziona "corri"

Nel video in alto, carichiamo una foto con tre limoni e li scambiamo con delle mele. Personalmente consiglio di provarlo con le tue fotografie e i tuoi suggerimenti.

Conclusione

In generale, la pittura a diffusione costante è un metodo eccellente per produrre immagini o video falsi che sembrano estremamente reali. Man mano che ci muoviamo verso il nuovo progresso tecnologico, diventerà sempre più difficile distinguere tra autentico e fraudolento man mano che la tecnologia avanza.

Esercitazione sulla pittura a diffusione stabile

Commenti

Swahir

Maggio 14, 2023 a 1: 35 am

La prima metà è completamente estranea alla seconda metà. Sarebbe stato davvero bello se l'autore avesse spiegato come funziona inpaint nel quadro del modello che ha spiegato in precedenza, avrebbe potuto fornire spunti. Ma no! Ciò avrebbe richiesto una vera comprensione, piuttosto che raccogliere ed elaborare un testo casuale.

Rispondi

Esercitazione sulla pittura a diffusione stabile

Cos'è il modello Diffusione?

Ora, cos'è la diffusione stabile?

Componenti di diffusione stabile

1. Creatore di informazioni sull'immagine

2. Decodificatore di immagini

Esercitazione sull'imprinting della diffusione stabile

Conclusione

WRI Jay

Altri articoli su HashDork:

20 migliori carriere a prova di intelligenza artificiale

Come ridurre le allucinazioni nella tua intelligenza artificiale

Colossiano contro Heygen

Questa newsletter Future Tech non fa schifo

Esercitazione sulla pittura a diffusione stabile

Cos'è il modello Diffusione?

Ora, cos'è la diffusione stabile?

Componenti di diffusione stabile

1. Creatore di informazioni sull'immagine

2. Decodificatore di immagini

Esercitazione sull'imprinting della diffusione stabile

Conclusione

WRI Jay

Altri articoli su HashDork:

20 migliori carriere a prova di intelligenza artificiale

Come ridurre le allucinazioni nella tua intelligenza artificiale

10 migliori strumenti di intelligenza artificiale per i social media

Colossiano contro Heygen

Interazioni Reader

Commenti

Lascia un Commento cancella risposta

Questa newsletter Future Tech non fa schifo