Pregled sadržaja[Sakriti][Pokazati]
Posljednjih godina modeli dubinskog učenja postali su učinkovitiji u razumijevanju ljudskog jezika.
Razmislite o projektima poput GPT-3, koji sada može stvarati cijele članke i web stranice. GitHub je nedavno predstavio GitHub kopilot, usluga koja pruža cijele isječke koda jednostavnim opisom vrste koda koji vam je potreban.
Istraživači na OpenAI-u, Facebooku i Googleu radili su na načinima korištenja dubokog učenja za rješavanje još jednog zadatka: opisivanja slika. Koristeći veliki skup podataka s milijunima unosa, došli su do nekih iznenađujuće rezultati.
Nedavno su ovi istraživači pokušali izvršiti suprotan zadatak: stvoriti slike iz naslova. Je li sada moguće stvoriti potpuno novu sliku iz opisa?
Ovaj vodič će istražiti dva najnaprednija modela teksta u sliku: OpenAI-jev DALL-E 2 i Googleov Imagen AI. Svaki od ovih projekata uveo je revolucionarne metode koje mogu promijeniti društvo kakvo poznajemo.
Ali prvo, shvatimo što mislimo pod generiranjem teksta u sliku.
Što je generiranje teksta u sliku?
Modeli pretvaranja teksta u sliku omogućuju računalima stvaranje novih i jedinstvenih slika na temelju upita. Ljudi sada mogu dati tekstualni opis slike koju žele proizvesti, a model će pokušati stvoriti vizual koji odgovara tom opisu što je moguće bliže.
Modeli strojnog učenja iskoristili su upotrebu velikih skupova podataka koji sadrže parove slika-naslov za daljnje poboljšanje performansi.
Većina teksta u sliku modeli koriste model transformatora jezika za tumačenje upita. Ova vrsta modela je a neuronska mreža koji pokušava naučiti kontekst i semantičko značenje prirodnog jezika.
Zatim, generativni modeli kao što su difuzijski modeli a generativne kontradiktorne mreže koriste se za sintezu slike.
Što je DALLE 2?
DALL-E2 je računalni model tvrtke OpenAI koji je objavljen u travnju 2022. Model je uvježban na bazi podataka od milijuna označenih slika za povezivanje riječi i fraza sa slikama.
Korisnici mogu upisati jednostavnu frazu, poput "mačka jede lazanje", a DALL-E 2 će generirati vlastitu interpretaciju onoga što fraza pokušava opisati.
Osim stvaranja slika od nule, DALL-E 2 također može uređivati postojeće slike. U donjem primjeru, DALL-E je uspio generirati modificiranu sliku sobe s dodanim kaučem.
DALL-E 2 samo je jedan od mnogih sličnih projekata koje je OpenAI objavio u proteklih nekoliko godina. OpenAI-jev GPT-3 postao je vrijedan vijesti kada se činilo da generira tekst različitih stilova.
Trenutno je DALL-E 2 još uvijek u beta testiranju. Zainteresirani korisnici mogu se prijaviti za svoje lista čekanja i čekati pristup.
Kako radi?
Iako su rezultati DALL-E 2 impresivni, možda se pitate kako sve to funkcionira.
DALL-E 2 je primjer multimodalne implementacije OpenAI GPT-3 projekta.
Prvo, korisnikov tekstualni upit postavlja se u tekstualni koder koji preslikava upit u prostor reprezentacije. DALL-E 2 koristi drugi OpenAI model pod nazivom CLIP (Contrastive Language-Image Pre-Training) za dobivanje semantičkih informacija iz prirodnog jezika.
Zatim, model poznat kao prije preslikava kodiranje teksta u kodiranje slike. Ovo kodiranje slike treba obuhvatiti semantičke informacije koje se nalaze u koraku kodiranja teksta.
Za stvaranje stvarne slike, DALL-E 2 koristi dekoder slike za generiranje vizuala koristeći semantičke informacije i detalje kodiranja slike. OpenAI koristi modificiranu verziju KLIZITI model za izvođenje generiranja slike. GLIDE se oslanja na a difuzijski model za stvaranje slika.
Dodavanje GLIDE-a modelu DALL-E 2 omogućilo je fotorealističniji ispis. Budući da je model GLIDE stohastički ili nasumično određen, model DALL-E 2 može lako stvoriti varijacije pokretanjem modela iznova i iznova.
Ograničenja
Unatoč impresivnim rezultatima modela DALL-E 2, on se još uvijek suočava s nekim ograničenjima.
Pravopis teksta
Upiti koji pokušavaju natjerati DALL-E 2 da generira tekst otkrivaju da ima poteškoća s pravopisom riječi. Stručnjaci pretpostavljaju da je to možda zato što informacije o pravopisu nisu dio baza podataka treninga.
Kompozicijsko obrazloženje
Istraživači primjećuju da DALL-E 2 još uvijek ima poteškoća s rezoniranjem kompozicije. Jednostavno rečeno, model može razumjeti pojedinačne aspekte slike dok još uvijek ima problema s utvrđivanjem odnosa između tih aspekata.
Na primjer, ako dobijete upit "crvena kocka na vrhu plave kocke", DALL-E će točno generirati plavu kocku i crvenu kocku, ali ih neće pravilno postaviti. Također je uočeno da model ima poteškoća s uputama koje zahtijevaju izvlačenje određenog broja objekata.
Pristranost u skupu podataka
Ako upit ne sadrži druge detalje, primijećeno je da DALL-E prikazuje bijelce ili zapadnjačke ljude i okruženja. Ova reprezentativna pristranost javlja se zbog obilja zapadnjačkih slika u skupu podataka.
Također je uočeno da model slijedi rodne stereotipe. Na primjer, upisivanjem prompt "stjuardesa" uglavnom se generiraju slike žena stjuardesa.
Što je Google Imagen AI?
Googleova Slika AI je model koji ima za cilj stvoriti fotorealistične slike iz ulaznog teksta. Slično DALL-E-u, model također koristi transformatorske jezične modele za razumijevanje teksta i oslanja se na upotrebu difuzijskih modela za stvaranje visokokvalitetnih slika.
Uz Imagen, Google je također izdao mjerilo za modele pretvaranja teksta u sliku pod nazivom DrawBench. Koristeći DrawBench, mogli su primijetiti da ljudski ocjenjivači preferiraju Imagen izlaz u odnosu na druge modele, uključujući DALL-E 2.
Kako radi?
Slično DALL-E-u, Imagen prvo pretvara korisnički upit u ugrađivanje teksta putem kodera zamrznutog teksta.
Imagen koristi model difuzije koji uči kako pretvoriti uzorak šuma u slike. Početni izlaz ovih slika je niske razlučivosti, a kasnije se prolaze kroz drugi model poznat kao difuzijski model super-razlučivosti kako bi se povećala razlučivost konačne slike. Prvi difuzijski model daje sliku od 64 × 64 piksela, a kasnije se povećava na sliku visoke rezolucije od 1024 × 1024.
Na temelju istraživanja Imagen tima, veliki zamrznuti jezični modeli obučeni samo na tekstualnim podacima i dalje su vrlo učinkoviti koderi teksta za generiranje teksta u sliku.
Studija također uvodi koncept dinamičkog određivanja praga. Ova metoda omogućuje slikama da izgledaju fotorealističnije povećanjem težine navođenja prilikom generiranja slike.
Izvedba DALLE 2 protiv Imagena
Preliminarni rezultati Googleovog mjerila pokazuju da ljudski ispitanici preferiraju slike koje je generirao Imagen u odnosu na DALL-E 2 i druge modele pretvaranja teksta u sliku kao što su Latent Diffusion i VQGAN+CLIP.
Rezultati dobiveni od Imagen tima također su pokazali da njihov model ima bolje rezultate u sricanju teksta, što je poznata slabost modela DALL-E 2.
Međutim, budući da Google još nije objavio model u javnosti, tek treba vidjeti koliko su točna Googleova mjerila.
Zaključak
Uspon fotorealističnih modela teksta u sliku je kontroverzan jer su ti modeli zreli za neetičku upotrebu.
Tehnologija može dovesti do stvaranja eksplicitnog sadržaja ili kao alat za dezinformiranje. Istraživači iz Googlea i OpenAI-ja toga su svjesni, što je djelomično razlog zašto ove tehnologije još uvijek nisu dostupne svima.
Modeli pretvaranja teksta u sliku također imaju značajne ekonomske implikacije. Hoće li profesije kao što su modeli, fotografi i umjetnici biti pogođene ako modeli poput DALL-E postanu mainstream?
U ovom trenutku ovi modeli još uvijek imaju ograničenja. Držanje bilo koje slike generirane umjetnom inteligencijom na pomno ispitivanje otkrit će njezine nesavršenosti. Budući da se i OpenAI i Google natječu za najučinkovitije modele, može biti pitanje vremena prije nego što se generira doista savršen rezultat: slika koja se ne može razlikovati od prave stvari.
Što mislite da će se dogoditi kada tehnologija ode tako daleko?
Ostavi odgovor