Poslednjih godina, modeli dubokog učenja postali su efikasniji u razumevanju ljudskog jezika.
Razmislite o projektima kao što su GPT-3, koji sada može kreirati čitave članke i web stranice. GitHub je nedavno predstavljen GitHub Copilot, usluga koja pruža cijele isječke koda jednostavnim opisom tipa koda koji vam je potreban.
Istraživači u OpenAI-u, Facebooku i Google-u rade na načinima korištenja dubokog učenja za rješavanje još jednog zadatka: potpisivanja slika. Koristeći veliki skup podataka sa milionima unosa, došli su do nekih iznenađujuće rezultati.
U posljednje vrijeme, ovi istraživači su pokušali izvršiti suprotan zadatak: kreirati slike iz natpisa. Da li je sada moguće kreirati potpuno novu sliku iz opisa?
Ovaj vodič će istražiti dva najnaprednija modela teksta u sliku: OpenAI-jev DALL-E 2 i Google-ov Imagen AI. Svaki od ovih projekata uveo je revolucionarne metode koje mogu promijeniti društvo kakvo poznajemo.
Ali prvo, hajde da razumemo šta podrazumevamo pod generisanjem teksta u sliku.
Šta je generisanje teksta u sliku?
Modeli od teksta u sliku omogućavaju računarima da kreiraju nove i jedinstvene slike na osnovu upita. Ljudi sada mogu dati tekstualni opis slike koju žele da proizvedu, a model će pokušati stvoriti vizual koji odgovara tom opisu što je više moguće.
Modeli mašinskog učenja su iskoristili upotrebu velikih skupova podataka koji sadrže parove slika-naslov za dalje poboljšanje performansi.
Većina teksta u sliku modeli koriste model jezika transformatora za tumačenje upita. Ovaj tip modela je a neuronska mreža koji pokušava da nauči kontekst i semantičko značenje prirodnog jezika.
Zatim, generativni modeli kao npr difuzioni modeli a generativne suparničke mreže se koriste za sintezu slike.
Šta je DALLE 2?
DALL-E2 je kompjuterski model od strane OpenAI-a koji je objavljen u aprilu 2022. Model je obučen na bazi podataka sa milionima označenih slika za povezivanje riječi i fraza sa slikama.
Korisnici mogu ukucati jednostavnu frazu, kao što je "mačka jede lazanje", a DALL-E 2 će generirati vlastitu interpretaciju onoga što fraza pokušava opisati.
Osim kreiranja slika od nule, DALL-E 2 također može uređivati postojeće slike. U donjem primjeru, DALL-E je uspio generirati modificiranu sliku sobe s dodatnim kaučem.
DALL-E 2 je samo jedan od mnogih sličnih projekata koje je OpenAI objavio u posljednjih nekoliko godina. OpenAI-jev GPT-3 postao je vredan vesti kada se činilo da generiše tekst različitih stilova.
Trenutno je DALL-E 2 još uvijek u beta testiranju. Zainteresovani korisnici se mogu prijaviti za svoje lista čekanja i sačekajte pristup.
Kako to radi?
Iako su rezultati DALL-E 2 impresivni, možda se pitate kako sve to funkcionira.
DALL-E 2 je primjer multimodalne implementacije OpenAI GPT-3 projekta.
Prvo, korisnikov tekstualni prompt se stavlja u tekstualni koder koji mapira prompt u prostor za predstavljanje. DALL-E 2 koristi drugi OpenAI model koji se zove CLIP (Contrastive Language-Image Pre-Training) za dobijanje semantičkih informacija iz prirodnog jezika.
Zatim, model poznat kao prije preslikava kodiranje teksta u kodiranje slike. Ovo kodiranje slike treba da obuhvati semantičke informacije koje se nalaze u koraku kodiranja teksta.
Za kreiranje stvarne slike, DALL-E 2 koristi dekoder slike za generiranje vizuala koristeći semantičke informacije i detalje kodiranja slike. OpenAI koristi modificiranu verziju Klizati se model za generiranje slike. GLIDE se oslanja na a difuzioni model za kreiranje slika.
Dodavanje GLIDE modela DALL-E 2 omogućilo je fotorealističniji izlaz. Pošto je model GLIDE stohastički ili nasumično određen, DALL-E 2 model može lako kreirati varijacije tako što će model iznova i iznova izvoditi.
ograničenja
Uprkos impresivnim rezultatima modela DALL-E 2, on se i dalje suočava sa nekim ograničenjima.
Spelling Text
Uvjeti koji pokušavaju natjerati DALL-E 2 da generiše tekst otkrivaju da ima poteškoća u pisanju riječi. Stručnjaci pretpostavljaju da je to možda zato što informacije o pravopisu nisu dio skup podataka za obuku.
Compositional Reasoning
Istraživači primjećuju da DALL-E 2 još uvijek ima poteškoća s kompozicionim zaključivanjem. Jednostavno rečeno, model može razumjeti pojedinačne aspekte slike, a da i dalje ima problema u otkrivanju odnosa između ovih aspekata.
Na primjer, ako se dobije prompt „crvena kocka na vrhu plave kocke“, DALL-E će generirati plavu kocku i crvenu kocku tačno, ali neće ih pravilno postaviti. Također je uočeno da model ima poteškoća s upitima koji zahtijevaju određeni broj objekata za izvlačenje.
Pristrasnost u skupu podataka
Ako prompt ne sadrži druge detalje, uočeno je da DALL-E prikazuje bele ili zapadnjačke ljude i okruženje. Ova reprezentativna pristranost nastaje zbog obilja zapadno-centričnih slika u skupu podataka.
Također je uočeno da model slijedi rodne stereotipe. Na primjer, kucanje "stjuardesa" uglavnom stvara slike žena stjuardesa.
Šta je Google Imagen AI?
Google Imagen AI je model koji ima za cilj stvaranje fotorealističnih slika od unesenog teksta. Slično DALL-E, model također koristi modele jezika transformatora za razumijevanje teksta i oslanja se na upotrebu modela difuzije za kreiranje visokokvalitetnih slika.
Pored Imagen-a, Google je također objavio benčmark za modele text-to-image pod nazivom DrawBench. Koristeći DrawBench, uspjeli su uočiti da ljudi ocjenjivači preferiraju Imagen izlaz u odnosu na druge modele uključujući DALL-E 2.
Kako to radi?
Slično DALL-E, Imagen prvo konvertuje korisnički prompt u tekst koji se ugrađuje preko zamrznutog kodera teksta.
Imagen koristi model difuzije koji uči kako pretvoriti uzorak šuma u slike. Početni izlaz ovih slika je niske rezolucije i kasnije se propuštaju kroz drugi model poznat kao model difuzije super rezolucije kako bi se povećala rezolucija konačne slike. Prvi model difuzije daje sliku od 64×64 piksela, a kasnije se uvećava na sliku visoke rezolucije 1024×1024.
Na osnovu istraživanja Imagen tima, veliki zamrznuti jezički modeli obučeni samo na tekstualnim podacima su i dalje veoma efikasni koderi teksta za generisanje teksta u sliku.
Studija također uvodi koncept dinamičkog praga. Ova metoda omogućava da slike izgledaju fotorealističnije povećanjem težine navođenja prilikom generiranja slike.
Performanse DALLE 2 vs Imagen
Preliminarni rezultati Google-ovog benchmark-a pokazuju da ispitanici ljudi preferiraju slike koje generiše Imagen u odnosu na DALL-E 2 i druge modele teksta u sliku kao što su Latentna difuzija i VQGAN+CLIP.
Rezultati koji dolaze od Imagen tima su takođe pokazali da njihov model ima bolje rezultate u pisanju teksta, što je poznata slabost modela DALL-E 2.
Međutim, budući da Google još uvijek nije objavio model javnosti, ostaje da se vidi koliko su Google-ovi benčmarkovi tačni.
zaključak
Porast fotorealističnih modela teksta u sliku je kontroverzan jer su ovi modeli zreli za neetičku upotrebu.
Tehnologija može dovesti do stvaranja eksplicitnog sadržaja ili kao alat za dezinformacije. Istraživači iz Google-a i OpenAI-a su svjesni toga, što je dijelom razlog zašto ove tehnologije još uvijek nisu dostupne svima.
Modeli teksta u sliku takođe imaju značajne ekonomske implikacije. Hoće li profesije kao što su modeli, fotografi i umjetnici biti pogođeni ako modeli poput DALL-E postanu mainstream?
U ovom trenutku, ovi modeli i dalje imaju ograničenja. Držanje bilo koje slike generisane umjetnom inteligencijom za pregled otkrit će njene nesavršenosti. S obzirom da se i OpenAI i Google takmiče za najefikasnije modele, može biti pitanje vremena kada će se stvoriti zaista savršen rezultat: slika koja se ne razlikuje od stvarne stvari.
Šta mislite da će se dogoditi kada tehnologija ode tako daleko?
Ostavite odgovor