Najverjetneje se zavedate, da lahko računalnik opiše sliko.
Na primer, sliko psa, ki se igra z vašimi otroki, lahko prevedete kot 'pes in otroci na vrtu.' Toda ali ste vedeli, da je zdaj izvedljivo tudi obratno? Vtipkate nekaj besed in naprava ustvari novo sliko.
Za razliko od Googlovega iskanja, ki išče obstoječe fotografije, je to vse sveže. V zadnjih letih je bil OpenAI ena vodilnih organizacij, ki poroča o osupljivih rezultatih.
Svoje algoritme trenirajo na ogromnih besedilnih in slikovnih bazah podatkov. Objavili so članek o svojem modelu slike GLIDE, ki je bil usposobljen na stotine milijonov fotografij. Kar zadeva fotorealizem, prekaša njihov prejšnji model 'DALL-E'.
V tej objavi si bomo ogledali OpenAI-jev GLIDE, eno od številnih fascinantnih pobud, katerih cilj je izdelava in spreminjanje fotorealističnih slik z besedilno vodenimi difuzijskimi modeli. Začnimo.
Kaj je Odprite AI Glide?
Medtem ko je večino slik mogoče opisati z besedami, ustvarjanje slik iz vnosa besedila zahteva specializirano znanje in veliko časa.
Omogočanje AI agentu, da ustvari fotorealistične slike iz pozivov naravnega jezika, ljudem ne omogoča le ustvarjanja bogatega in raznolikega vizualnega materiala z izjemno lahkoto, temveč omogoča preprostejše iterativno izpopolnjevanje in drobnozrnat nadzor ustvarjenih slik.
GLIDE lahko uporabite za urejanje obstoječih fotografij z uporabo besedilnih pozivov v naravnem jeziku za vstavljanje novih predmetov, ustvarjanje senc in odsevov, izvajanje podoba v slikanju, in tako naprej.
Prav tako lahko osnovne črtne risbe spremeni v fotorealistične fotografije in ima izjemne zmogljivosti za izdelavo in popravilo brez vzorca za zapletene situacije.
Nedavne raziskave so pokazale, da lahko modeli difuzije, ki temeljijo na verjetnosti, ustvarijo tudi visokokakovostne sintetične slike, zlasti v kombinaciji z vodilnim pristopom, ki uravnoveša raznolikost in zvestobo.
OpenAI je objavil a model vodene difuzije maja, kar omogoča, da so difuzijski modeli pogojeni z oznakami klasifikatorja. GLIDE izboljšuje ta uspeh tako, da prinaša vodeno razširjanje k problemu ustvarjanja besedilno pogojne slike.
Po usposabljanju 3.5 milijarde parametrov GLIDE difuzijskega modela z uporabo kodirnika besedila za pogojevanje opisov naravnega jezika, so raziskovalci preizkusili dve alternativni strategiji vodenja: vodenje CLIP in vodenje brez klasifikatorja.
CLIP je razširljiva tehnika za učenje skupnih predstavitev besedila in slik, ki daje oceno glede na to, kako blizu je slika napisu.
Ekipa je to strategijo uporabila v svojih difuzijskih modelih tako, da je klasifikator nadomestila z modelom CLIP, ki "vodi" modele. Medtem pa je vodenje brez klasifikatorja strategija za usmerjanje difuzijskih modelov, ki ne vključujejo usposabljanja ločenega klasifikatorja.
GLIDE arhitektura
Arhitektura GLIDE je sestavljena iz treh komponent: Ablated Diffusion Model (ADM), usposobljenega za ustvarjanje slike velikosti 64 × 64, besedilnega modela (transformatorja), ki vpliva na generiranje slike prek besedilnega poziva, in modela povečanja vzorčenja, ki pretvori našo majhno 64 × 64. slike na bolj razumljivo 256 x 256 slikovnih pik.
Prvi dve komponenti skupaj nadzorujeta proces ustvarjanja slike, tako da ustrezno odraža besedilni poziv, medtem ko je slednja potrebna za lažje razumevanje slik, ki jih ustvarimo. Projekt GLIDE je navdihnil a poročilo, objavljeno leta 2021 ki je pokazala, da so tehnike ADM v smislu kakovosti vzorca slike presegle trenutno priljubljene, najsodobnejše generativne modele.
Za ADM so avtorji GLIDE uporabili isti model ImageNet 64 x 64 kot Dhariwal in Nichol, vendar s 512 kanali namesto 64. Model ImageNet ima zaradi tega približno 2.3 milijarde parametrov.
Ekipa GLIDE je za razliko od Dhariwala in Nichola želela imeti večji neposredni nadzor nad procesom ustvarjanja slike, zato je vizualni model združila s transformatorjem, ki je omogočen pozornosti. GLIDE vam omogoča nekaj nadzora nad izhodom procesa ustvarjanja slike z obdelavo pozivov za vnos besedila.
To dosežemo z usposabljanjem modela transformatorja na primerno velikem podatkovnem nizu fotografij in napisov (podobno kot pri projektu DALL-E).
Besedilo je sprva kodirano v niz K žetonov, da bi ga pogojevali. Po tem se žetoni naložijo v model transformatorja. Izhod transformatorja se lahko nato uporabi na dva načina. Za model ADM se namesto vdelave razreda uporablja končna vdelava žetona.
Drugič, končni sloj vdelave žetonov – niz vektorjev značilnosti – se neodvisno projicira na dimenzije za vsako plast pozornosti v modelu ADM in poveže z vsakim kontekstom pozornosti.
V resnici to omogoča modelu ADM, da ustvari sliko iz novih kombinacij podobnih besedilnih žetonov na edinstven in fotorealističen način, ki temelji na njegovem naučenem razumevanju vhodnih besed in z njimi povezanih podob. Ta transformator za kodiranje besedila vsebuje 1.2 milijarde parametrov in uporablja 24 preostalih blokov s širino 2048.
Nazadnje, difuzijski model za povečavo vzorčenja vključuje okoli 1.5 milijarde parametrov in se razlikuje od osnovnega modela po tem, da je njegov kodirnik besedila manjši, s širino 1024 in 384 osnovnih kanalov, v primerjavi z osnovnim modelom. Ta model, kot že ime pove, pomaga pri nadgradnji vzorca, da bi izboljšali interpretabilnost tako za stroje kot za ljudi.
Difuzijski model
GLIDE ustvarja slike z uporabo lastne različice ADM (ADM-G za "vodeni"). Model ADM-G je modifikacija difuzijskega modela U-net. Model difuzijske U-mreže se močno razlikuje od bolj običajnih tehnik sinteze slike, kot so VAE, GAN in transformatorji.
Zgradijo Markovo verigo difuzijskih korakov, da postopoma vnesejo naključni šum v podatke, nato pa se naučijo obrniti proces difuzije in obnoviti zahtevane vzorce podatkov samo iz hrupa. Deluje v dveh stopnjah: naprej in povratna difuzija.
Metoda razpršitve naprej, glede na podatkovno točko iz resnične porazdelitve vzorca, doda vzorcu majhno količino hrupa v prednastavljenem nizu korakov. Ko se koraki povečujejo in se približujejo neskončnosti, vzorec izgubi vse prepoznavne lastnosti in zaporedje začne spominjati na izotropno Gaussovo krivuljo.
Med povratno difuzijo faza, model difuzije se nauči obrniti vpliv dodanega šuma na slike in popeljati proizvedeno sliko nazaj v prvotno obliko tako, da poskuša biti podobna prvotni porazdelitvi vhodnega vzorca.
Dokončan model bi to lahko storil z resničnim vnosom Gaussovega šuma in pozivom. Metoda ADM-G se od prejšnje razlikuje po tem, da model, bodisi CLIP ali prilagojen transformator, vpliva na fazo povratne difuzije z uporabo žetonov besedilnih pozivov, ki so vneseni.
Zmogljivosti drsenja
1. Ustvarjanje slike
Najbolj priljubljena in najpogosteje uporabljena uporaba GLIDE bo verjetno sinteza slik. Čeprav so slike skromne in ima GLIDE težave z živalskimi/človeškimi oblikami, je potencial za izdelavo slik v enem posnetku skoraj neskončen.
Ustvari lahko fotografije živali, slavnih oseb, pokrajin, zgradb in še veliko več, in to lahko naredi v različnih umetniških stilih in tudi fotorealistično. Avtorji raziskovalcev trdijo, da je GLIDE sposoben razlagati in prilagajati široko paleto besedilnih vnosov v vizualni format, kot je razvidno iz spodnjih vzorcev.
2. Drsno slikanje
Samodejno slikanje fotografij GLIDE je verjetno najbolj fascinantna uporaba. GLIDE lahko vzame obstoječo sliko kot vhod, jo obdela z upoštevanjem besedilnega poziva za lokacije, ki jih je treba spremeniti, in nato z lahkoto aktivno spremeni te dele.
Za še boljše rezultate ga je treba uporabiti v povezavi z modelom za urejanje, kot je SDEdit. V prihodnosti bodo aplikacije, ki izkoriščajo takšne zmogljivosti, lahko ključnega pomena pri razvoju pristopov za spreminjanje slike brez kode.
zaključek
Zdaj, ko smo šli skozi postopek, bi morali razumeti osnove delovanja GLIDE, pa tudi širino njegovih zmogljivosti pri ustvarjanju slik in spreminjanju slike.
Pustite Odgovori