Najvjerovatnije ste svjesni da kompjuter može opisati sliku.
Na primjer, slika psa koji se igra s vašom djecom može se prevesti kao 'pas i djeca u vrtu'. Ali jeste li znali da je sada izvodljiv i suprotan način? Ukucate nekoliko riječi i mašina generiše novu sliku.
Za razliku od Google pretrage, koja pretražuje postojeće fotografije, ovo je sve svježe. Posljednjih godina, OpenAI je bila jedna od vodećih organizacija koja je izvještavala o zapanjujućim rezultatima.
Oni treniraju svoje algoritme na ogromnim bazama podataka sa tekstom i slikama. Objavili su rad o svom modelu slike GLIDE, koji je obučen na stotinama miliona fotografija. Što se tiče fotorealizma, nadmašuje njihov prethodni 'DALL-E' model.
U ovom postu ćemo se osvrnuti na OpenAI-jev GLIDE, jednu od nekoliko fascinantnih inicijativa usmjerenih na proizvodnju i izmjenu fotorealističnih slika pomoću tekstualnih modela difuzije. Počnimo.
Šta je Otvorite AI Glide?
Dok se većina slika može opisati riječima, stvaranje slika iz unosa teksta zahtijeva specijalizirano znanje i značajnu količinu vremena.
Omogućavanje AI agentu da proizvodi fotorealistične slike iz upita prirodnog jezika ne samo da omogućava ljudima da kreiraju bogat i raznolik vizuelni materijal sa neviđenom lakoćom, već takođe omogućava jednostavnije iterativno prečišćavanje i finu kontrolu kreiranih slika.
GLIDE se može koristiti za uređivanje postojećih fotografija korištenjem tekstualnih upita na prirodnom jeziku za umetanje novih objekata, kreiranje sjenki i refleksija, izvođenje slikanje slika, i tako dalje.
Takođe može pretvoriti osnovne crteže u fotorealistične fotografije i ima izuzetne mogućnosti proizvodnje i popravke bez uzorka za složene situacije.
Nedavna istraživanja su pokazala da modeli difuzije zasnovani na vjerovatnoći također mogu proizvesti visokokvalitetne sintetičke slike, posebno u kombinaciji s vodećim pristupom koji uravnotežuje raznolikost i vjernost.
OpenAI je objavio a model vođene difuzije maja, što omogućava da modeli difuzije budu uslovljeni oznakama klasifikatora. GLIDE poboljšava ovaj uspjeh unoseći vođenu difuziju u problem kreiranja tekstualne uslovne slike.
Nakon obučavanja modela GLIDE difuzije sa 3.5 milijardi parametara pomoću enkodera teksta za uslovljavanje opisa prirodnog jezika, istraživači su testirali dvije alternativne strategije vođenja: CLIP navođenje i vođenje bez klasifikatora.
CLIP je skalabilna tehnika za učenje zajedničkih reprezentacija teksta i slika koja daje rezultat na osnovu toga koliko je slika blizu naslova.
Tim je koristio ovu strategiju u svojim modelima difuzije tako što je klasifikator zamijenio CLIP modelom koji "vodi" modele. U međuvremenu, vođenje bez klasifikatora je strategija za usmjeravanje modela difuzije koji ne uključuju obuku posebnog klasifikatora.
GLIDE Architecture
GLIDE arhitektura se sastoji od tri komponente: Ablated Diffusion Model (ADM) obučenog za generiranje slike veličine 64 × 64, tekstualnog modela (transformatora) koji utječe na generiranje slike putem tekstualne prompta i modela za povećanje uzorkovanja koji pretvara naš mali 64 × 64 slike na razumljivije 256 x 256 piksela.
Prve dvije komponente rade zajedno kako bi kontrolirale proces generiranja slike tako da na odgovarajući način odražava tekstualni upit, dok je potonja potrebna kako bi slike koje kreiramo bile lakše razumljive. Projekat GLIDE je inspirisan a izvještaj objavljen 2021 koji je pokazao da su ADM tehnike nadmašile trenutno popularne, najsavremenije generativne modele u pogledu kvaliteta uzorka slike.
Za ADM, GLIDE autori su koristili isti model ImageNet 64 x 64 kao Dhariwal i Nichol, ali sa 512 kanala umjesto 64. ImageNet model ima otprilike 2.3 milijarde parametara kao rezultat toga.
Tim GLIDE-a, za razliku od Dhariwala i Nichola, želio je da ima veću direktnu kontrolu nad procesom generiranja slike, pa su kombinirali vizualni model sa transformatorom za pažnju. GLIDE vam daje određenu kontrolu nad izlazom procesa generisanja slike obradom upita za unos teksta.
Ovo se postiže obučavanjem modela transformatora na odgovarajuće velikom skupu fotografija i natpisa (slično onom korištenom u projektu DALL-E).
Tekst je inicijalno kodiran u niz od K tokena kako bi se uvjetovao. Nakon toga, tokeni se učitavaju u model transformatora. Izlaz transformatora se tada može koristiti na dva načina. Za ADM model, konačno ugrađivanje tokena se koristi umjesto ugrađivanja klase.
Drugo, završni sloj ugradnje tokena – niz vektora karakteristika – projektuje se nezavisno na dimenzije za svaki sloj pažnje u ADM modelu i povezuje se sa svakim kontekstom pažnje.
U stvarnosti, ovo omogućava ADM modelu da proizvede sliku iz novih kombinacija sličnih tekstualnih tokena na jedinstven i fotorealističan način, zasnovan na njegovom naučenom razumijevanju ulaznih riječi i njihovih povezanih slika. Ovaj transformator za kodiranje teksta sadrži 1.2 milijarde parametara i koristi 24 preostala bloka širine 2048.
Konačno, model difuzije za upsampler uključuje oko 1.5 milijardi parametara i razlikuje se od osnovnog modela po tome što je njegov tekstualni koder manji, sa širinom od 1024 i 384 bazna kanala, u odnosu na osnovni model. Ovaj model, kao što naziv govori, pomaže u nadogradnji uzorka kako bi se poboljšala interpretabilnost i za mašine i za ljude.
Model difuzije
GLIDE generiše slike koristeći sopstvenu verziju ADM-a (ADM-G za „vođeni“). ADM-G model je modifikacija difuzionog U-net modela. Difuzijski U-net model se dramatično razlikuje od uobičajenih tehnika sinteze slike kao što su VAE, GAN i transformatori.
Oni grade Markovljev lanac koraka difuzije kako bi postepeno ubrizgali nasumični šum u podatke, a zatim naučili da preokrenu proces difuzije i ponovo izgrade potrebne uzorke podataka samo iz buke. Radi u dvije faze: naprijed i nazad difuzija.
Metoda napredne difuzije, s obzirom na tačku podataka iz prave distribucije uzorka, dodaje sićušnu količinu šuma uzorku tokom unaprijed postavljenog niza koraka. Kako se koraci povećavaju u veličini i približavaju se beskonačnosti, uzorak gubi sve prepoznatljive karakteristike i sekvenca počinje da liči na izotropnu Gausovu krivu.
Tokom povratne difuzije faza, model difuzije uči da preokrene uticaj dodanog šuma na slike i vrati proizvedenu sliku u prvobitni oblik pokušavajući da liči na originalnu distribuciju ulaznog uzorka.
Završeni model bi to mogao učiniti sa pravim Gausovim unosom šuma i promptom. Metoda ADM-G razlikuje se od prethodne po tome što model, bilo CLIP ili prilagođeni transformator, utiče na fazu difuzije unatrag upotrebom tokena tekstualnih promptova koji se unose.
Mogućnosti klizanja
1. Generisanje slike
Najpopularnija i najraširenija upotreba GLIDE-a vjerovatno će biti sinteza slike. Iako su slike skromne i GLIDE ima poteškoća sa životinjskim/ljudskim oblicima, potencijal za proizvodnju jednokratne slike je gotovo beskrajan.
Može kreirati fotografije životinja, poznatih ličnosti, pejzaža, zgrada i još mnogo toga, i to u različitim umjetničkim stilovima, kao i fotorealistično. Autori istraživača tvrde da je GLIDE sposoban da interpretira i prilagodi široku lepezu tekstualnih unosa u vizuelni format, kao što se vidi u dole navedenim uzorcima.
2. Glide inpainting
GLIDE-ovo automatsko slikanje fotografija je vjerovatno najfascinantnija upotreba. GLIDE može uzeti postojeću sliku kao ulaz, obraditi je sa tekstualnim upitom na umu za lokacije koje treba izmijeniti, a zatim s lakoćom izvršiti aktivne modifikacije tih dijelova.
Mora se koristiti u kombinaciji sa modelom za uređivanje, kao što je SDEdit, da bi se proizveli još bolji rezultati. U budućnosti, aplikacije koje iskorištavaju prednosti poput ovih mogle bi biti ključne u razvoju pristupa mijenjanju slike bez koda.
zaključak
Sada kada smo prošli kroz proces, trebali biste shvatiti osnove kako GLIDE funkcionira, kao i širinu njegovih mogućnosti u kreiranju slika i modificiranju slike.
Ostavite odgovor