DALL-E 2 vs Imagen - AI generirane slike i umjetnost

Sadržaj[Sakrij][Prikaži]

Šta je generisanje teksta u sliku?
Šta je DALLE 2?+-
- Kako to radi?
- ograničenja
Šta je Google Imagen AI?+-
- Kako to radi?
Performanse DALLE 2 vs Imagen
zaključak

Poslednjih godina, modeli dubokog učenja postali su efikasniji u razumevanju ljudskog jezika.

Razmislite o projektima kao što su GPT-3, koji sada može kreirati čitave članke i web stranice. GitHub je nedavno predstavljen GitHub Copilot, usluga koja pruža cijele isječke koda jednostavnim opisom tipa koda koji vam je potreban.

Istraživači u OpenAI-u, Facebooku i Google-u rade na načinima korištenja dubokog učenja za rješavanje još jednog zadatka: potpisivanja slika. Koristeći veliki skup podataka sa milionima unosa, došli su do nekih iznenađujuće rezultati.

U posljednje vrijeme, ovi istraživači su pokušali izvršiti suprotan zadatak: kreirati slike iz natpisa. Da li je sada moguće kreirati potpuno novu sliku iz opisa?

Ovaj vodič će istražiti dva najnaprednija modela teksta u sliku: OpenAI-jev DALL-E 2 i Google-ov Imagen AI. Svaki od ovih projekata uveo je revolucionarne metode koje mogu promijeniti društvo kakvo poznajemo.

Ali prvo, hajde da razumemo šta podrazumevamo pod generisanjem teksta u sliku.

Šta je generisanje teksta u sliku?

Modeli od teksta u sliku omogućavaju računarima da kreiraju nove i jedinstvene slike na osnovu upita. Ljudi sada mogu dati tekstualni opis slike koju žele da proizvedu, a model će pokušati stvoriti vizual koji odgovara tom opisu što je više moguće.

Modeli mašinskog učenja su iskoristili upotrebu velikih skupova podataka koji sadrže parove slika-naslov za dalje poboljšanje performansi.

Većina teksta u sliku modeli koriste model jezika transformatora za tumačenje upita. Ovaj tip modela je a neuronska mreža koji pokušava da nauči kontekst i semantičko značenje prirodnog jezika.

Zatim, generativni modeli kao npr difuzioni modeli a generativne suparničke mreže se koriste za sintezu slike.

Šta je DALLE 2?

DALL-E 2 stvara realistične slike i umjetnost

DALL-E2 je kompjuterski model od strane OpenAI-a koji je objavljen u aprilu 2022. Model je obučen na bazi podataka sa milionima označenih slika za povezivanje riječi i fraza sa slikama.

Korisnici mogu ukucati jednostavnu frazu, kao što je "mačka jede lazanje", a DALL-E 2 će generirati vlastitu interpretaciju onoga što fraza pokušava opisati.

Osim kreiranja slika od nule, DALL-E 2 također može uređivati postojeće slike. U donjem primjeru, DALL-E je uspio generirati modificiranu sliku sobe s dodatnim kaučem.

DALL-E 2 može uređivati postojeće slike

DALL-E 2 je samo jedan od mnogih sličnih projekata koje je OpenAI objavio u posljednjih nekoliko godina. OpenAI-jev GPT-3 postao je vredan vesti kada se činilo da generiše tekst različitih stilova.

Trenutno je DALL-E 2 još uvijek u beta testiranju. Zainteresovani korisnici se mogu prijaviti za svoje lista čekanja i sačekajte pristup.

Kako to radi?

Iako su rezultati DALL-E 2 impresivni, možda se pitate kako sve to funkcionira.

DALL-E 2 je primjer multimodalne implementacije OpenAI GPT-3 projekta.

pregled DALL-E 2 arhitekture

Prvo, korisnikov tekstualni prompt se stavlja u tekstualni koder koji mapira prompt u prostor za predstavljanje. DALL-E 2 koristi drugi OpenAI model koji se zove CLIP (Contrastive Language-Image Pre-Training) za dobijanje semantičkih informacija iz prirodnog jezika.

Zatim, model poznat kao prije preslikava kodiranje teksta u kodiranje slike. Ovo kodiranje slike treba da obuhvati semantičke informacije koje se nalaze u koraku kodiranja teksta.

Za kreiranje stvarne slike, DALL-E 2 koristi dekoder slike za generiranje vizuala koristeći semantičke informacije i detalje kodiranja slike. OpenAI koristi modificiranu verziju Klizati se model za generiranje slike. GLIDE se oslanja na a difuzioni model za kreiranje slika.

Dodavanje GLIDE modela DALL-E 2 omogućilo je fotorealističniji izlaz. Pošto je model GLIDE stohastički ili nasumično određen, DALL-E 2 model može lako kreirati varijacije tako što će model iznova i iznova izvoditi.

ograničenja

Uprkos impresivnim rezultatima modela DALL-E 2, on se i dalje suočava sa nekim ograničenjima.

Spelling Text

model kvari pravopis riječi u oznakama

Uvjeti koji pokušavaju natjerati DALL-E 2 da generiše tekst otkrivaju da ima poteškoća u pisanju riječi. Stručnjaci pretpostavljaju da je to možda zato što informacije o pravopisu nisu dio skup podataka za obuku.

Compositional Reasoning

model se bori sa postavljanjem objekata u prostor

Istraživači primjećuju da DALL-E 2 još uvijek ima poteškoća s kompozicionim zaključivanjem. Jednostavno rečeno, model može razumjeti pojedinačne aspekte slike, a da i dalje ima problema u otkrivanju odnosa između ovih aspekata.

Na primjer, ako se dobije prompt „crvena kocka na vrhu plave kocke“, DALL-E će generirati plavu kocku i crvenu kocku tačno, ali neće ih pravilno postaviti. Također je uočeno da model ima poteškoća s upitima koji zahtijevaju određeni broj objekata za izvlačenje.

Pristrasnost u skupu podataka

Ako prompt ne sadrži druge detalje, uočeno je da DALL-E prikazuje bele ili zapadnjačke ljude i okruženje. Ova reprezentativna pristranost nastaje zbog obilja zapadno-centričnih slika u skupu podataka.

DALL-E 2 ima rodne predrasude

Također je uočeno da model slijedi rodne stereotipe. Na primjer, kucanje "stjuardesa" uglavnom stvara slike žena stjuardesa.

Šta je Google Imagen AI?

DALL-E 2 vs Imagen - Imagen je bolji u pravopisu i kompoziciji

Google Imagen AI je model koji ima za cilj stvaranje fotorealističnih slika od unesenog teksta. Slično DALL-E, model također koristi modele jezika transformatora za razumijevanje teksta i oslanja se na upotrebu modela difuzije za kreiranje visokokvalitetnih slika.

Pored Imagen-a, Google je također objavio benčmark za modele text-to-image pod nazivom DrawBench. Koristeći DrawBench, uspjeli su uočiti da ljudi ocjenjivači preferiraju Imagen izlaz u odnosu na druge modele uključujući DALL-E 2.

Kako to radi?

imagen koristi model difuzije za proizvodnju rada visoke rezolucije

Slično DALL-E, Imagen prvo konvertuje korisnički prompt u tekst koji se ugrađuje preko zamrznutog kodera teksta.

Imagen koristi model difuzije koji uči kako pretvoriti uzorak šuma u slike. Početni izlaz ovih slika je niske rezolucije i kasnije se propuštaju kroz drugi model poznat kao model difuzije super rezolucije kako bi se povećala rezolucija konačne slike. Prvi model difuzije daje sliku od 64×64 piksela, a kasnije se uvećava na sliku visoke rezolucije 1024×1024.

Na osnovu istraživanja Imagen tima, veliki zamrznuti jezički modeli obučeni samo na tekstualnim podacima su i dalje veoma efikasni koderi teksta za generisanje teksta u sliku.

Studija također uvodi koncept dinamičkog praga. Ova metoda omogućava da slike izgledaju fotorealističnije povećanjem težine navođenja prilikom generiranja slike.

Performanse DALLE 2 vs Imagen

Preliminarni rezultati Google-ovog benchmark-a pokazuju da ispitanici ljudi preferiraju slike koje generiše Imagen u odnosu na DALL-E 2 i druge modele teksta u sliku kao što su Latentna difuzija i VQGAN+CLIP.

DALL-E 2 vs Imagen rezultati pomoću Google-ovog DrawBench-a

Rezultati koji dolaze od Imagen tima su takođe pokazali da njihov model ima bolje rezultate u pisanju teksta, što je poznata slabost modela DALL-E 2.

Međutim, budući da Google još uvijek nije objavio model javnosti, ostaje da se vidi koliko su Google-ovi benčmarkovi tačni.

zaključak

Porast fotorealističnih modela teksta u sliku je kontroverzan jer su ovi modeli zreli za neetičku upotrebu.

Tehnologija može dovesti do stvaranja eksplicitnog sadržaja ili kao alat za dezinformacije. Istraživači iz Google-a i OpenAI-a su svjesni toga, što je dijelom razlog zašto ove tehnologije još uvijek nisu dostupne svima.

Modeli teksta u sliku takođe imaju značajne ekonomske implikacije. Hoće li profesije kao što su modeli, fotografi i umjetnici biti pogođeni ako modeli poput DALL-E postanu mainstream?

U ovom trenutku, ovi modeli i dalje imaju ograničenja. Držanje bilo koje slike generisane umjetnom inteligencijom za pregled otkrit će njene nesavršenosti. S obzirom da se i OpenAI i Google takmiče za najefikasnije modele, može biti pitanje vremena kada će se stvoriti zaista savršen rezultat: slika koja se ne razlikuje od stvarne stvari.

Šta mislite da će se dogoditi kada tehnologija ode tako daleko?

DALL-E 2 vs Imagen – slike i umjetnost generirane umjetnom inteligencijom

Šta je generisanje teksta u sliku?

Šta je DALLE 2?

Kako to radi?

ograničenja

Šta je Google Imagen AI?

Kako to radi?

Performanse DALLE 2 vs Imagen

zaključak

Oko Deion Menor

Više članaka na HashDork-u:

Kako smanjiti halucinacije u svojoj AI

Colossyan vs Heygen

Ovaj bilten o tehnologiji budućnosti nije loš

DALL-E 2 vs Imagen – slike i umjetnost generirane umjetnom inteligencijom

Šta je generisanje teksta u sliku?

Šta je DALLE 2?

Kako to radi?

ograničenja

Šta je Google Imagen AI?

Kako to radi?

Performanse DALLE 2 vs Imagen

zaključak

Oko Deion Menor

Više članaka na HashDork-u:

Kako smanjiti halucinacije u svojoj AI

10 najboljih AI alata za društvene mreže

Colossyan vs Heygen

10 najboljih AI alata za izradu animiranih video zapisa

Reader Interakcije

Ostavite odgovor Odustani od odgovora

Ovaj bilten o tehnologiji budućnosti nije loš