Table di cuntinutu[Piattà][Mostra]
Probabilmente sapete chì un computer pò discrive una stampa.
Per esempiu, una stampa di un cane chì ghjucanu cù i vostri figlioli pò esse traduttu cum'è "cane è zitelli in u giardinu". Ma sapete chì u modu oppostu hè avà fattibile ancu? Scrivite qualchi parolle, è a macchina genera una nova stampa.
A cuntrariu di una ricerca di Google, chì cerca e fotografie esistenti, questu hè tuttu frescu. In l'ultimi anni, OpenAI hè stata una di l'urganisazioni principali, chì hà riportatu risultati stupenti.
Formanu i so algoritmi nantu à basa di dati massivi di testu è stampa. Anu publicatu un documentu nantu à u so mudellu d'imaghjini GLIDE, chì hè statu furmatu nantu à centinaie di milioni di ritratti. In quantu à u fotorealismu, supera u so mudellu precedente "DALL-E".
In questu post, guardemu OpenAI's GLIDE, una di parechje iniziative affascinanti destinate à pruduce è mudificà l'imaghjini fotorealistiche cù mudelli di diffusione guidata da testu. Cuminciamu.
Chì ghjè Aprite AI Glide?
Mentre a maiò parte di l'imaghjini ponu esse descritte in parolle, a creazione d'imaghjini da input di testu necessita una cunniscenza specializata è una quantità significativa di tempu.
Permettenu à un agente AI di pruduce stampi fotorealistiche da richieste di lingua naturale ùn solu permette à e persone di creà materiale visuale riccu è diversu cun facilità senza precedente, ma permette ancu un raffinamentu iterativu più simplice è un cuntrollu fine di l'imaghjini creati.
GLIDE pò esse aduprata per edità e foto esistenti utilizendu suggerimenti di testu in lingua naturale per inserisce novi oggetti, creà ombre è riflessioni, eseguisce pittura d'imagine, eccetera.
Puderà ancu trasfurmà i disegni di linea di basa in fotografie fotorealistiche, è hà capacità eccezziunale di fabricazione di campioni zero è di riparazione per situazioni cumplessi.
Ricerche recenti hà dimustratu chì i mudelli di diffusione basati in probabilità ponu ancu pruduce stampi sintetici d'alta qualità, in particulare quandu cumminati cù un accostu di guida chì equilibra varietà è fideltà.
OpenAI hà publicatu a mudellu di diffusione guidata in May, chì permette mudelli di diffusion à esse cundizzioni di l 'etichette di un classifier. GLIDE migliurà nantu à stu successu purtendu diffusion guidata à u prublema di creazione di l'imagine testu-cundizionale.
Dopu à furmà un mudellu di diffusione GLIDE paràmetru 3.5 billion usendu un codificatore di testu à cundizzioni di descrizzioni di lingua naturale, i circadori testatu dui strategie di guida alternativa: guida CLIP è guida senza classifier.
CLIP hè una tecnica scalabile per l'apprendimentu di rapprisintazioni cumuni di testu è stampe chì furnisce un puntuatu basatu annantu à quantu hè vicinu una maghjina à una didascalia.
A squadra hà utilizatu sta strategia in i so mudelli di diffusione sustituendu u classificatore cù un mudellu CLIP chì "guida" i mudelli. Intantu, a guida senza classificatore hè una strategia per dirigerà mudelli di diffusione chì ùn implicanu micca a furmazione di un classificatore separatu.
GLIDE Architettura
L'architettura GLIDE hè custituita da trè cumpunenti: un mudellu di diffusione ablata (ADM) furmatu per generà una maghjina 64 × 64, un mudellu di testu (trasformatore) chì influenza a generazione di l'imaghjini via un prompt di testu, è un mudellu di upsampling chì converte u nostru picculu 64 × 64. l'imaghjini à più interpretabili 256 x 256 pixel.
I primi dui cumpunenti travaglianu inseme per cuntrullà u prucessu di generazione di l'imaghjini in modu chì riflette in modu adattatu u prompt di testu, mentre chì l'ultimu hè necessariu per fà l'imaghjini chì creamu più faciule da capisce. U prughjettu GLIDE hè statu inspiratu da a rapportu publicatu in 2021 chì hà dimustratu chì i tecnichi ADM anu superatu i mudelli generativi populari, di punta in termini di qualità di mostra di stampa.
Per l'ADM, l'autori GLIDE anu impiegatu u stessu mudellu ImageNet 64 x 64 cum'è Dhariwal è Nichol, ma cù 512 canali invece di 64. U mudellu ImageNet hà apprussimatamente 2.3 billion parameters com'è u risultatu di questu.
A squadra GLIDE, à u cuntrariu di Dhariwal è Nichol, vulia avè un cuntrollu direttu più grande nantu à u prucessu di generazione di l'imaghjini, cusì cumminanu u mudellu visuale cù un trasformatore attivatu per l'attenzione. GLIDE vi dà un pocu di cuntrollu nantu à l'output di u prucessu di generazione di l'imaghjini processendu e richieste di input di testu.
Questu hè realizatu da a furmazione di u mudellu di trasformatore nantu à un inseme di dati adattatu grande di foto è didascalie (simile à quellu impiegatu in u prughjettu DALL-E).
U testu hè inizialmente codificatu in una seria di K tokens per cundizzioni. Dopu quì, i tokens sò carricati in un mudellu di trasformatore. L'output di u transformatore pò esse usatu in dui maneri. Per u mudellu ADM, l'incrustazione finale di u token hè utilizatu invece di l'incrustazione di classi.
Siconda, a capa finale di i token embeddings - una seria di vettori di caratteristiche - hè prughjettata indipindente à e dimensioni per ogni strata d'attenzione in u mudellu ADM è cuncatenata à ogni cuntestu d'attenzione.
In a realità, questu permette à u mudellu ADM di pruduce una stampa da novi cumminazzioni di testi simili di testi in una manera unica è fotorealistica, basatu annantu à a so capiscitura amparata di e parolle inputs è e so imagine relative. Stu trasformatore di codificazione di testu cuntene 1.2 miliardi di parametri è impiega 24 blocchi rimanenti cù una larghezza di 2048.
Infine, u mudellu di diffusione upsampler include attornu 1.5 miliardi paràmetri è varieghja da u mudellu di basi in chì u so codificatore testu hè più chjuca, cù una larghezza di 1024 è 384 canali basi, paragunatu à u mudellu di basa. Stu mudellu, cum'è u nome indica, aiuta à l'aghjurnamentu di a mostra per migliurà l'interpretabilità sia per e macchine sia per l'omu.
Mudellu di diffusione
GLIDE genera imagine utilizendu a so propria versione di l'ADM (ADM-G per "guided"). U mudellu ADM-G hè una mudificazione di u mudellu di diffusione U-net. Un mudellu di diffusione U-net difiere dramaticamente da e tecniche di sintesi di l'imaghjini più cumune cum'è VAE, GAN è trasformatori.
Iddi custruì una catena Markov di passi diffusion à pocu à pocu inject rumore aleatoriu in i dati, e poi amparà à riversà u prucessu di diffusione è ricustruisce i campioni dati nicissarii da u rumore solu. Funziona in dui fasi: diffusione avanti è inversa.
U metudu di diffusione in avanti, datu un puntu di dati da a distribuzione vera di a mostra, aghjunghje una piccula quantità di rumore à a mostra nantu à una serie predeterminata di passi. À mesure que les étapes augmentent en taille et s'approchent de l'infini, l'échantillon perd toutes les caractéristiques reconnaissables et la séquence commence à ressembler à une courbe gaussienne isotrope.
Durante a diffusione in daretu fase, u mudellu diffusion ampara à riversà l'influenza di u rumore aghjuntu nantu à l'imaghjini è guidà l'imaghjina prodotta torna à a so forma originale, pruvendu à s'assumiglia à a distribuzione originale di mostra di input.
Un mudellu cumpletu puderia fà cusì cun un veru input di rumore gaussianu è un prompt. U metudu ADM-G varieghja da u precedente in chì un mudellu, o CLIP o un trasformatore persunalizatu, impacta a fase di diffusione in daretu utilizendu i tokens prompt di testu chì sò inseriti.
Capacità di glide
1. Generazione di Image
L'usu più populari è largamente utilizatu di GLIDE serà probabilmente a sintesi di l'imaghjini. Ancu s'è l'imaghjini sò modesti è GLIDE hà difficultà cù e forme animali / umane, u potenziale per a produzzione di l'imaghjini in un colpu hè quasi infinitu.
Pò creà ritratti d'animali, celebrità, paisaghji, edifici, è assai di più, è pò fà in una varietà di stili d'arti è ancu foto-realistici. L'autori di i circadori affirmanu chì GLIDE hè capace di interpretà è adattà una larga varietà di inputs testuali in un formatu visuale, cum'è vistu in i campioni sottu.
2. Glide inpainting
A pittura automatica di foto di GLIDE hè senza dubbitu l'usu più affascinante. GLIDE pò piglià una foto esistente cum'è input, processà cù u prompt di testu in mente per i lochi chì devenu esse mudificate, è poi fà mudificazioni attive à quelle parti cun facilità.
Si deve esse usatu in cunjunzione cù un mudellu di edizione, cum'è SDEdit, per pruduce risultati ancu megliu. In u futuru, l'applicazioni chì prufittanu di capacità cum'è queste puderanu esse cruciali in u sviluppu di approcci di alterazione di stampa senza codice.
cunchiusioni
Avà chì avemu passatu u prucessu, duvete capisce i fundamenti di u funziunamentu di GLIDE, è ancu l'ampiezza di e so capacità in a creazione di l'imaghjini è a mudificazione in l'imaghjini.
Lascia un Audiolibro