DALL-E 2 vs Imagen - Slike i umjetnost generirane umjetnom inteligencijom

Pregled sadržaja[Sakriti][Pokazati]

Što je generiranje teksta u sliku?
Što je DALLE 2?+-
- Kako radi?
- Ograničenja
Što je Google Imagen AI?+-
- Kako radi?
Izvedba DALLE 2 protiv Imagena
Zaključak

Posljednjih godina modeli dubinskog učenja postali su učinkovitiji u razumijevanju ljudskog jezika.

Razmislite o projektima poput GPT-3, koji sada može stvarati cijele članke i web stranice. GitHub je nedavno predstavio GitHub kopilot, usluga koja pruža cijele isječke koda jednostavnim opisom vrste koda koji vam je potreban.

Istraživači na OpenAI-u, Facebooku i Googleu radili su na načinima korištenja dubokog učenja za rješavanje još jednog zadatka: opisivanja slika. Koristeći veliki skup podataka s milijunima unosa, došli su do nekih iznenađujuće rezultati.

Nedavno su ovi istraživači pokušali izvršiti suprotan zadatak: stvoriti slike iz naslova. Je li sada moguće stvoriti potpuno novu sliku iz opisa?

Ovaj vodič će istražiti dva najnaprednija modela teksta u sliku: OpenAI-jev DALL-E 2 i Googleov Imagen AI. Svaki od ovih projekata uveo je revolucionarne metode koje mogu promijeniti društvo kakvo poznajemo.

Ali prvo, shvatimo što mislimo pod generiranjem teksta u sliku.

Što je generiranje teksta u sliku?

Modeli pretvaranja teksta u sliku omogućuju računalima stvaranje novih i jedinstvenih slika na temelju upita. Ljudi sada mogu dati tekstualni opis slike koju žele proizvesti, a model će pokušati stvoriti vizual koji odgovara tom opisu što je moguće bliže.

Modeli strojnog učenja iskoristili su upotrebu velikih skupova podataka koji sadrže parove slika-naslov za daljnje poboljšanje performansi.

Većina teksta u sliku modeli koriste model transformatora jezika za tumačenje upita. Ova vrsta modela je a neuronska mreža koji pokušava naučiti kontekst i semantičko značenje prirodnog jezika.

Zatim, generativni modeli kao što su difuzijski modeli a generativne kontradiktorne mreže koriste se za sintezu slike.

Što je DALLE 2?

DALL-E 2 stvara realistične slike i umjetnost

DALL-E2 je računalni model tvrtke OpenAI koji je objavljen u travnju 2022. Model je uvježban na bazi podataka od milijuna označenih slika za povezivanje riječi i fraza sa slikama.

Korisnici mogu upisati jednostavnu frazu, poput "mačka jede lazanje", a DALL-E 2 će generirati vlastitu interpretaciju onoga što fraza pokušava opisati.

Osim stvaranja slika od nule, DALL-E 2 također može uređivati postojeće slike. U donjem primjeru, DALL-E je uspio generirati modificiranu sliku sobe s dodanim kaučem.

DALL-E 2 može uređivati postojeće slike

DALL-E 2 samo je jedan od mnogih sličnih projekata koje je OpenAI objavio u proteklih nekoliko godina. OpenAI-jev GPT-3 postao je vrijedan vijesti kada se činilo da generira tekst različitih stilova.

Trenutno je DALL-E 2 još uvijek u beta testiranju. Zainteresirani korisnici mogu se prijaviti za svoje lista čekanja i čekati pristup.

Kako radi?

Iako su rezultati DALL-E 2 impresivni, možda se pitate kako sve to funkcionira.

DALL-E 2 je primjer multimodalne implementacije OpenAI GPT-3 projekta.

pregled DALL-E 2 arhitekture

Prvo, korisnikov tekstualni upit postavlja se u tekstualni koder koji preslikava upit u prostor reprezentacije. DALL-E 2 koristi drugi OpenAI model pod nazivom CLIP (Contrastive Language-Image Pre-Training) za dobivanje semantičkih informacija iz prirodnog jezika.

Zatim, model poznat kao prije preslikava kodiranje teksta u kodiranje slike. Ovo kodiranje slike treba obuhvatiti semantičke informacije koje se nalaze u koraku kodiranja teksta.

Za stvaranje stvarne slike, DALL-E 2 koristi dekoder slike za generiranje vizuala koristeći semantičke informacije i detalje kodiranja slike. OpenAI koristi modificiranu verziju KLIZITI model za izvođenje generiranja slike. GLIDE se oslanja na a difuzijski model za stvaranje slika.

Dodavanje GLIDE-a modelu DALL-E 2 omogućilo je fotorealističniji ispis. Budući da je model GLIDE stohastički ili nasumično određen, model DALL-E 2 može lako stvoriti varijacije pokretanjem modela iznova i iznova.

Ograničenja

Unatoč impresivnim rezultatima modela DALL-E 2, on se još uvijek suočava s nekim ograničenjima.

Pravopis teksta

model kvari pravopis riječi na natpisima

Upiti koji pokušavaju natjerati DALL-E 2 da generira tekst otkrivaju da ima poteškoća s pravopisom riječi. Stručnjaci pretpostavljaju da je to možda zato što informacije o pravopisu nisu dio baza podataka treninga.

Kompozicijsko obrazloženje

model se bori s postavljanjem predmeta u prostor

Istraživači primjećuju da DALL-E 2 još uvijek ima poteškoća s rezoniranjem kompozicije. Jednostavno rečeno, model može razumjeti pojedinačne aspekte slike dok još uvijek ima problema s utvrđivanjem odnosa između tih aspekata.

Na primjer, ako dobijete upit "crvena kocka na vrhu plave kocke", DALL-E će točno generirati plavu kocku i crvenu kocku, ali ih neće pravilno postaviti. Također je uočeno da model ima poteškoća s uputama koje zahtijevaju izvlačenje određenog broja objekata.

Pristranost u skupu podataka

Ako upit ne sadrži druge detalje, primijećeno je da DALL-E prikazuje bijelce ili zapadnjačke ljude i okruženja. Ova reprezentativna pristranost javlja se zbog obilja zapadnjačkih slika u skupu podataka.

DALL-E 2 ima rodne predrasude

Također je uočeno da model slijedi rodne stereotipe. Na primjer, upisivanjem prompt "stjuardesa" uglavnom se generiraju slike žena stjuardesa.

Što je Google Imagen AI?

DALL-E 2 u odnosu na Imagen - Imagen je bolji u pravopisu i kompoziciji

Googleova Slika AI je model koji ima za cilj stvoriti fotorealistične slike iz ulaznog teksta. Slično DALL-E-u, model također koristi transformatorske jezične modele za razumijevanje teksta i oslanja se na upotrebu difuzijskih modela za stvaranje visokokvalitetnih slika.

Uz Imagen, Google je također izdao mjerilo za modele pretvaranja teksta u sliku pod nazivom DrawBench. Koristeći DrawBench, mogli su primijetiti da ljudski ocjenjivači preferiraju Imagen izlaz u odnosu na druge modele, uključujući DALL-E 2.

Kako radi?

imagen koristi model difuzije za izradu rada visoke rezolucije

Slično DALL-E-u, Imagen prvo pretvara korisnički upit u ugrađivanje teksta putem kodera zamrznutog teksta.

Imagen koristi model difuzije koji uči kako pretvoriti uzorak šuma u slike. Početni izlaz ovih slika je niske razlučivosti, a kasnije se prolaze kroz drugi model poznat kao difuzijski model super-razlučivosti kako bi se povećala razlučivost konačne slike. Prvi difuzijski model daje sliku od 64 × 64 piksela, a kasnije se povećava na sliku visoke rezolucije od 1024 × 1024.

Na temelju istraživanja Imagen tima, veliki zamrznuti jezični modeli obučeni samo na tekstualnim podacima i dalje su vrlo učinkoviti koderi teksta za generiranje teksta u sliku.

Studija također uvodi koncept dinamičkog određivanja praga. Ova metoda omogućuje slikama da izgledaju fotorealističnije povećanjem težine navođenja prilikom generiranja slike.

Izvedba DALLE 2 protiv Imagena

Preliminarni rezultati Googleovog mjerila pokazuju da ljudski ispitanici preferiraju slike koje je generirao Imagen u odnosu na DALL-E 2 i druge modele pretvaranja teksta u sliku kao što su Latent Diffusion i VQGAN+CLIP.

DALL-E 2 vs Imagen rezultati pomoću DrawBench iz Googlea

Rezultati dobiveni od Imagen tima također su pokazali da njihov model ima bolje rezultate u sricanju teksta, što je poznata slabost modela DALL-E 2.

Međutim, budući da Google još nije objavio model u javnosti, tek treba vidjeti koliko su točna Googleova mjerila.

Zaključak

Uspon fotorealističnih modela teksta u sliku je kontroverzan jer su ti modeli zreli za neetičku upotrebu.

Tehnologija može dovesti do stvaranja eksplicitnog sadržaja ili kao alat za dezinformiranje. Istraživači iz Googlea i OpenAI-ja toga su svjesni, što je djelomično razlog zašto ove tehnologije još uvijek nisu dostupne svima.

Modeli pretvaranja teksta u sliku također imaju značajne ekonomske implikacije. Hoće li profesije kao što su modeli, fotografi i umjetnici biti pogođene ako modeli poput DALL-E postanu mainstream?

U ovom trenutku ovi modeli još uvijek imaju ograničenja. Držanje bilo koje slike generirane umjetnom inteligencijom na pomno ispitivanje otkrit će njezine nesavršenosti. Budući da se i OpenAI i Google natječu za najučinkovitije modele, može biti pitanje vremena prije nego što se generira doista savršen rezultat: slika koja se ne može razlikovati od prave stvari.

Što mislite da će se dogoditi kada tehnologija ode tako daleko?

DALL-E 2 vs Imagen – slike i umjetnost generirane umjetnom inteligencijom

Što je generiranje teksta u sliku?

Što je DALLE 2?

Kako radi?

Ograničenja

Što je Google Imagen AI?

Kako radi?

Izvedba DALLE 2 protiv Imagena

Zaključak

O nama Deion Menor

Više članaka na HashDork-u:

Kako smanjiti halucinacije u svojoj umjetnoj inteligenciji

Colossyan protiv Heygena

Ovaj bilten o tehnologiji budućnosti nije loš

DALL-E 2 vs Imagen – slike i umjetnost generirane umjetnom inteligencijom

Što je generiranje teksta u sliku?

Što je DALLE 2?

Kako radi?

Ograničenja

Što je Google Imagen AI?

Kako radi?

Izvedba DALLE 2 protiv Imagena

Zaključak

O nama Deion Menor

Više članaka na HashDork-u:

Kako smanjiti halucinacije u svojoj umjetnoj inteligenciji

10 najboljih AI alata za društvene medije

Colossyan protiv Heygena

10 najboljih AI alata za izradu animiranog videa

Reader Interakcije

Ostavi odgovor Odustani od odgovora

Ovaj bilten o tehnologiji budućnosti nije loš