Pregled sadržaja[Sakriti][Pokazati]
Najvjerojatnije ste svjesni da računalo može opisati sliku.
Na primjer, slika psa koji se igra s vašom djecom može se prevesti kao 'pas i djeca u vrtu'. Ali jeste li znali da je sada izvediv i suprotan način? Upišete nekoliko riječi, a stroj generira novu sliku.
Za razliku od Google pretraživanja, koje pretražuje postojeće fotografije, ovo je sve svježe. Posljednjih godina OpenAI je bila jedna od vodećih organizacija koja je izvještavala o zapanjujućim rezultatima.
Oni treniraju svoje algoritme na ogromnim bazama podataka s tekstom i slikama. Objavili su rad o svom modelu slike GLIDE, koji je obučen na stotinama milijuna fotografija. Što se tiče fotorealizma, nadmašuje njihov prethodni 'DALL-E' model.
U ovom ćemo postu pogledati OpenAI-jev GLIDE, jednu od nekoliko fascinantnih inicijativa usmjerenih na proizvodnju i izmjenu fotorealističnih slika s tekstualno vođenim modelima difuzije. Započnimo.
Što je Otvorite AI Glide?
Dok se većina slika može opisati riječima, stvaranje slika iz unosa teksta zahtijeva specijalizirano znanje i značajnu količinu vremena.
Dopuštanje AI agentu da proizvodi fotorealistične slike iz upita prirodnog jezika ne samo da omogućuje ljudima stvaranje bogatog i raznolikog vizualnog materijala s neviđenom lakoćom, već također omogućuje jednostavnije iterativno usavršavanje i fino zrnatu kontrolu stvorenih slika.
GLIDE se može koristiti za uređivanje postojećih fotografija korištenjem tekstualnih upita prirodnog jezika za umetanje novih objekata, stvaranje sjena i odraza, izvođenje slika u slikarstvu, I tako dalje.
Također može pretvoriti osnovne crteže u fotorealistične fotografije, a ima izuzetne mogućnosti proizvodnje i popravka bez uzorka za složene situacije.
Nedavna istraživanja su pokazala da modeli difuzije temeljeni na vjerojatnosti također mogu proizvesti visokokvalitetne sintetičke slike, osobito u kombinaciji s vodećim pristupom koji uravnotežuje raznolikost i vjernost.
OpenAI je objavio a model vođene difuzije u svibnju, što omogućuje da modeli difuzije budu uvjetovani oznakama klasifikatora. GLIDE poboljšava ovaj uspjeh dovodeći vođenu difuziju u problem stvaranja slike uvjetovane tekstom.
Nakon uvježbavanja 3.5 milijardi parametarskog modela GLIDE difuzije pomoću enkodera teksta za uvjetovanje opisa prirodnog jezika, istraživači su testirali dvije alternativne strategije vođenja: CLIP navođenje i navođenje bez klasifikatora.
CLIP je skalabilna tehnika za učenje zajedničkih prikaza teksta i slika koja daje rezultat na temelju toga koliko je slika blizu naslova.
Tim je koristio ovu strategiju u svojim modelima difuzije tako što je klasifikator zamijenio CLIP modelom koji "vodi" modele. U međuvremenu, vođenje bez klasifikatora strategija je za usmjeravanje modela difuzije koji ne uključuju obuku zasebnog klasifikatora.
GLIDE arhitektura
Arhitektura GLIDE sastoji se od tri komponente: Ablated Diffusion Model (ADM) obučenog za generiranje slike veličine 64 × 64, tekstualnog modela (transformatora) koji utječe na generiranje slike putem tekstualnog prompta i modela za povećanje uzorkovanja koji pretvara naš mali 64 × 64 slike na razumljivije 256 x 256 piksela.
Prve dvije komponente rade zajedno kako bi kontrolirale proces generiranja slike tako da na odgovarajući način odražava tekstualni upit, dok je potonja potrebna kako bi slike koje stvaramo bile lakše razumljive. Projekt GLIDE inspiriran je a izvješće objavljeno 2021 koji je pokazao da su ADM tehnike nadmašile trenutno popularne, najsuvremenije generativne modele u pogledu kvalitete uzorka slike.
Za ADM, GLIDE autori su koristili isti model ImageNet 64 x 64 kao Dhariwal i Nichol, ali s 512 kanala umjesto 64. ImageNet model ima otprilike 2.3 milijarde parametara kao rezultat toga.
Tim GLIDE-a, za razliku od Dhariwala i Nichola, želio je imati veću izravnu kontrolu nad procesom generiranja slike, pa su kombinirali vizualni model s transformatorom za pozornost. GLIDE vam daje određenu kontrolu nad izlazom procesa generiranja slike obradom upita za unos teksta.
To se postiže obučavanjem modela transformatora na primjereno velikom skupu fotografija i natpisa (slično onom korištenom u projektu DALL-E).
Tekst je u početku kodiran u niz od K tokena kako bi se uvjetovao. Nakon toga, tokeni se učitavaju u model transformatora. Izlaz transformatora se tada može koristiti na dva načina. Za ADM model koristi se konačno ugrađivanje tokena umjesto ugradnje klase.
Drugo, završni sloj ugradnje tokena – niz vektora značajki – projicira se neovisno na dimenzije za svaki sloj pozornosti u ADM modelu i povezuje se sa svakim kontekstom pažnje.
U stvarnosti, to omogućuje ADM modelu da proizvede sliku iz novih kombinacija sličnih tekstualnih tokena na jedinstven i fotorealističan način, na temelju naučenog razumijevanja ulaznih riječi i njihovih povezanih slika. Ovaj transformator za kodiranje teksta sadrži 1.2 milijarde parametara i koristi 24 preostala bloka širine 2048.
Konačno, model difuzije za upsampler uključuje oko 1.5 milijardi parametara i razlikuje se od osnovnog modela po tome što je njegov tekstualni koder manji, sa širinom od 1024 i 384 osnovna kanala, u usporedbi s osnovnim modelom. Ovaj model, kao što naziv govori, pomaže u nadogradnji uzorka kako bi se poboljšala interpretabilnost i za strojeve i za ljude.
Difuzijski model
GLIDE generira slike koristeći vlastitu verziju ADM-a (ADM-G za "vođeni"). ADM-G model je modifikacija modela difuzijske U-mreže. Model difuzijske U-mreže dramatično se razlikuje od uobičajenih tehnika sinteze slike kao što su VAE, GAN i transformatori.
Oni grade Markovljev lanac koraka difuzije kako bi postupno ubrizgali nasumični šum u podatke, a zatim naučili obrnuti proces difuzije i ponovno izgraditi potrebne uzorke podataka samo iz buke. Djeluje u dvije faze: naprijed i natrag.
Metoda difuzije prema naprijed, s obzirom na točku podataka iz prave distribucije uzorka, dodaje malu količinu šuma uzorku tijekom unaprijed postavljenog niza koraka. Kako se koraci povećavaju u veličini i približavaju se beskonačnosti, uzorak gubi sve prepoznatljive karakteristike i slijed počinje nalikovati izotropnoj Gaussovoj krivulji.
Tijekom povratne difuzije faza, model difuzije uči preokrenuti utjecaj dodanog šuma na slike i vratiti proizvedenu sliku u izvorni oblik pokušavajući nalikovati izvornoj distribuciji ulaznog uzorka.
Dovršeni model bi to mogao učiniti s pravim Gaussovim unosom šuma i promptom. Metoda ADM-G razlikuje se od prethodne po tome što model, bilo CLIP ili prilagođeni transformator, utječe na fazu difuzije unatrag korištenjem unesenih tokena tekstualnih prompta.
Mogućnosti klizanja
1. Generiranje slike
Najpopularnija i najraširenija upotreba GLIDE-a vjerojatno će biti sinteza slike. Iako su slike skromne i GLIDE ima poteškoća sa životinjskim/ljudskim oblicima, potencijal za proizvodnju jednokratne slike je gotovo beskrajan.
Može stvarati fotografije životinja, slavnih osoba, krajolika, zgrada i još mnogo toga, i to u raznim umjetničkim stilovima, kao i fotorealistično. Autori istraživača tvrde da je GLIDE sposoban interpretirati i prilagoditi široku paletu tekstualnih unosa u vizualni format, kao što se vidi u uzorcima u nastavku.
2. Slikanje klizačem
GLIDE-ovo automatsko slikanje fotografija je vjerojatno najfascinantnija upotreba. GLIDE može uzeti postojeću sliku kao ulaz, obraditi je s tekstualnim upitom na umu za lokacije koje je potrebno promijeniti, a zatim s lakoćom izvršiti aktivne izmjene tih dijelova.
Mora se koristiti zajedno s modelom za uređivanje, kao što je SDEdit, kako bi se dobili još bolji rezultati. U budućnosti, aplikacije koje iskorištavaju prednosti poput ovih mogle bi biti ključne u razvoju pristupa mijenjanju slike bez koda.
Zaključak
Sada kada smo prošli kroz proces, trebali biste shvatiti osnove rada GLIDE-a, kao i širinu njegovih mogućnosti u stvaranju slika i modificiranju slike.
Ostavi odgovor