Open AI Glide (diffusione) - Generazione di l'Image cù solu un input di testu

Table di cuntinutu[Piattà][Mostra]

Cosa hè Open AI Glide?
GLIDE Architettura
Mudellu di diffusione
Capacità di glide+-
- 1. Generazione di Image
- 2. Glide inpainting
cunchiusioni

Probabilmente sapete chì un computer pò discrive una stampa.

Per esempiu, una stampa di un cane chì ghjucanu cù i vostri figlioli pò esse traduttu cum'è "cane è zitelli in u giardinu". Ma sapete chì u modu oppostu hè avà fattibile ancu? Scrivite qualchi parolle, è a macchina genera una nova stampa.

A cuntrariu di una ricerca di Google, chì cerca e fotografie esistenti, questu hè tuttu frescu. In l'ultimi anni, OpenAI hè stata una di l'urganisazioni principali, chì hà riportatu risultati stupenti.

Formanu i so algoritmi nantu à basa di dati massivi di testu è stampa. Anu publicatu un documentu nantu à u so mudellu d'imaghjini GLIDE, chì hè statu furmatu nantu à centinaie di milioni di ritratti. In quantu à u fotorealismu, supera u so mudellu precedente "DALL-E".

In questu post, guardemu OpenAI's GLIDE, una di parechje iniziative affascinanti destinate à pruduce è mudificà l'imaghjini fotorealistiche cù mudelli di diffusione guidata da testu. Cuminciamu.

Chì ghjè Aprite AI Glide?

Mentre a maiò parte di l'imaghjini ponu esse descritte in parolle, a creazione d'imaghjini da input di testu necessita una cunniscenza specializata è una quantità significativa di tempu.

Permettenu à un agente AI di pruduce stampi fotorealistiche da richieste di lingua naturale ùn solu permette à e persone di creà materiale visuale riccu è diversu cun facilità senza precedente, ma permette ancu un raffinamentu iterativu più simplice è un cuntrollu fine di l'imaghjini creati.

GLIDE pò esse aduprata per edità e foto esistenti utilizendu suggerimenti di testu in lingua naturale per inserisce novi oggetti, creà ombre è riflessioni, eseguisce pittura d'imagine, eccetera.

Puderà ancu trasfurmà i disegni di linea di basa in fotografie fotorealistiche, è hà capacità eccezziunale di fabricazione di campioni zero è di riparazione per situazioni cumplessi.

Ricerche recenti hà dimustratu chì i mudelli di diffusione basati in probabilità ponu ancu pruduce stampi sintetici d'alta qualità, in particulare quandu cumminati cù un accostu di guida chì equilibra varietà è fideltà.

Aprite AI Glide

OpenAI hà publicatu a mudellu di diffusione guidata in May, chì permette mudelli di diffusion à esse cundizzioni di l 'etichette di un classifier. GLIDE migliurà nantu à stu successu purtendu diffusion guidata à u prublema di creazione di l'imagine testu-cundizionale.

Dopu à furmà un mudellu di diffusione GLIDE paràmetru 3.5 billion usendu un codificatore di testu à cundizzioni di descrizzioni di lingua naturale, i circadori testatu dui strategie di guida alternativa: guida CLIP è guida senza classifier.

CLIP hè una tecnica scalabile per l'apprendimentu di rapprisintazioni cumuni di testu è stampe chì furnisce un puntuatu basatu annantu à quantu hè vicinu una maghjina à una didascalia.

A squadra hà utilizatu sta strategia in i so mudelli di diffusione sustituendu u classificatore cù un mudellu CLIP chì "guida" i mudelli. Intantu, a guida senza classificatore hè una strategia per dirigerà mudelli di diffusione chì ùn implicanu micca a furmazione di un classificatore separatu.

GLIDE Architettura

L'architettura GLIDE hè custituita da trè cumpunenti: un mudellu di diffusione ablata (ADM) furmatu per generà una maghjina 64 × 64, un mudellu di testu (trasformatore) chì influenza a generazione di l'imaghjini via un prompt di testu, è un mudellu di upsampling chì converte u nostru picculu 64 × 64. l'imaghjini à più interpretabili 256 x 256 pixel.

I primi dui cumpunenti travaglianu inseme per cuntrullà u prucessu di generazione di l'imaghjini in modu chì riflette in modu adattatu u prompt di testu, mentre chì l'ultimu hè necessariu per fà l'imaghjini chì creamu più faciule da capisce. U prughjettu GLIDE hè statu inspiratu da a rapportu publicatu in 2021 chì hà dimustratu chì i tecnichi ADM anu superatu i mudelli generativi populari, di punta in termini di qualità di mostra di stampa.

Per l'ADM, l'autori GLIDE anu impiegatu u stessu mudellu ImageNet 64 x 64 cum'è Dhariwal è Nichol, ma cù 512 canali invece di 64. U mudellu ImageNet hà apprussimatamente 2.3 billion parameters com'è u risultatu di questu.

A squadra GLIDE, à u cuntrariu di Dhariwal è Nichol, vulia avè un cuntrollu direttu più grande nantu à u prucessu di generazione di l'imaghjini, cusì cumminanu u mudellu visuale cù un trasformatore attivatu per l'attenzione. GLIDE vi dà un pocu di cuntrollu nantu à l'output di u prucessu di generazione di l'imaghjini processendu e richieste di input di testu.

Comparazione di glide cù altri mudelli

Questu hè realizatu da a furmazione di u mudellu di trasformatore nantu à un inseme di dati adattatu grande di foto è didascalie (simile à quellu impiegatu in u prughjettu DALL-E).

U testu hè inizialmente codificatu in una seria di K tokens per cundizzioni. Dopu quì, i tokens sò carricati in un mudellu di trasformatore. L'output di u transformatore pò esse usatu in dui maneri. Per u mudellu ADM, l'incrustazione finale di u token hè utilizatu invece di l'incrustazione di classi.

Siconda, a capa finale di i token embeddings - una seria di vettori di caratteristiche - hè prughjettata indipindente à e dimensioni per ogni strata d'attenzione in u mudellu ADM è cuncatenata à ogni cuntestu d'attenzione.

In a realità, questu permette à u mudellu ADM di pruduce una stampa da novi cumminazzioni di testi simili di testi in una manera unica è fotorealistica, basatu annantu à a so capiscitura amparata di e parolle inputs è e so imagine relative. Stu trasformatore di codificazione di testu cuntene 1.2 miliardi di parametri è impiega 24 blocchi rimanenti cù una larghezza di 2048.

Infine, u mudellu di diffusione upsampler include attornu 1.5 miliardi paràmetri è varieghja da u mudellu di basi in chì u so codificatore testu hè più chjuca, cù una larghezza di 1024 è 384 canali basi, paragunatu à u mudellu di basa. Stu mudellu, cum'è u nome indica, aiuta à l'aghjurnamentu di a mostra per migliurà l'interpretabilità sia per e macchine sia per l'omu.

Glide Filtered Small Images

Mudellu di diffusione

GLIDE genera imagine utilizendu a so propria versione di l'ADM (ADM-G per "guided"). U mudellu ADM-G hè una mudificazione di u mudellu di diffusione U-net. Un mudellu di diffusione U-net difiere dramaticamente da e tecniche di sintesi di l'imaghjini più cumune cum'è VAE, GAN è trasformatori.

Mudellu di diffusione

Iddi custruì una catena Markov di passi diffusion à pocu à pocu inject rumore aleatoriu in i dati, e poi amparà à riversà u prucessu di diffusione è ricustruisce i campioni dati nicissarii da u rumore solu. Funziona in dui fasi: diffusione avanti è inversa.

U metudu di diffusione in avanti, datu un puntu di dati da a distribuzione vera di a mostra, aghjunghje una piccula quantità di rumore à a mostra nantu à una serie predeterminata di passi. À mesure que les étapes augmentent en taille et s'approchent de l'infini, l'échantillon perd toutes les caractéristiques reconnaissables et la séquence commence à ressembler à une courbe gaussienne isotrope.

L'imaghjini di glide senza rumore

Durante a diffusione in daretu fase, u mudellu diffusion ampara à riversà l'influenza di u rumore aghjuntu nantu à l'imaghjini è guidà l'imaghjina prodotta torna à a so forma originale, pruvendu à s'assumiglia à a distribuzione originale di mostra di input.

Un mudellu cumpletu puderia fà cusì cun un veru input di rumore gaussianu è un prompt. U metudu ADM-G varieghja da u precedente in chì un mudellu, o CLIP o un trasformatore persunalizatu, impacta a fase di diffusione in daretu utilizendu i tokens prompt di testu chì sò inseriti.

Capacità di glide

1. Generazione di Image

L'usu più populari è largamente utilizatu di GLIDE serà probabilmente a sintesi di l'imaghjini. Ancu s'è l'imaghjini sò modesti è GLIDE hà difficultà cù e forme animali / umane, u potenziale per a produzzione di l'imaghjini in un colpu hè quasi infinitu.

Generazione di l'Image cù GLIDE

Pò creà ritratti d'animali, celebrità, paisaghji, edifici, è assai di più, è pò fà in una varietà di stili d'arti è ancu foto-realistici. L'autori di i circadori affirmanu chì GLIDE hè capace di interpretà è adattà una larga varietà di inputs testuali in un formatu visuale, cum'è vistu in i campioni sottu.

2. Glide inpainting

A pittura automatica di foto di GLIDE hè senza dubbitu l'usu più affascinante. GLIDE pò piglià una foto esistente cum'è input, processà cù u prompt di testu in mente per i lochi chì devenu esse mudificate, è poi fà mudificazioni attive à quelle parti cun facilità.

Si deve esse usatu in cunjunzione cù un mudellu di edizione, cum'è SDEdit, per pruduce risultati ancu megliu. In u futuru, l'applicazioni chì prufittanu di capacità cum'è queste puderanu esse cruciali in u sviluppu di approcci di alterazione di stampa senza codice.

cunchiusioni

Avà chì avemu passatu u prucessu, duvete capisce i fundamenti di u funziunamentu di GLIDE, è ancu l'ampiezza di e so capacità in a creazione di l'imaghjini è a mudificazione in l'imaghjini.

Apertura AI Glide (Diffusione) - Generazione di l'Image cù solu un input di testu

Chì ghjè Aprite AI Glide?

GLIDE Architettura

Mudellu di diffusione

Capacità di glide

1. Generazione di Image

2. Glide inpainting

cunchiusioni

prupòsitu di lu Jay

Più Articuli nantu à HashDork:

Cumu riduce l'allucinazioni in a vostra IA

Colossyan vs Heygen

Stu Future Tech Newsletter ùn Suck

Apertura AI Glide (Diffusione) - Generazione di l'Image cù solu un input di testu

Chì ghjè Aprite AI Glide?

GLIDE Architettura

Mudellu di diffusione

Capacità di glide

1. Generazione di Image

2. Glide inpainting

cunchiusioni

prupòsitu di lu Jay

Più Articuli nantu à HashDork:

Cumu riduce l'allucinazioni in a vostra IA

I 10 migliori strumenti AI per i Social Media

Colossyan vs Heygen

10 migliori strumenti di creazione di video animati AI

Lettore interacziunale

Lascia un Audiolibro Annulla madricale

Stu Future Tech Newsletter ùn Suck