DALL-E 2 proti Imagen - Slike in umetnost, ustvarjene z umetno inteligenco

Kazalo[Skrij][Pokaži]

Kaj je ustvarjanje besedila v sliko?
Kaj je DALLE 2?+-
- Kako deluje?
- Omejitve
Kaj je Google Imagen AI?+-
- Kako deluje?
Zmogljivost DALLE 2 proti Imagenu
zaključek

V zadnjih letih so modeli globokega učenja postali učinkovitejši pri razumevanju človeškega jezika.

Pomislite na projekte, kot so GPT-3, ki je zdaj sposoben ustvarjati celotne članke in spletne strani. GitHub je pred kratkim predstavil Kopilot GitHub, storitev, ki ponuja celotne izrezke kode s preprostim opisom vrste kode, ki jo potrebujete.

Raziskovalci pri OpenAI, Facebooku in Googlu se ukvarjajo z načini, kako uporabiti globoko učenje za obvladovanje druge naloge: dodajanje napisov slikam. Z uporabo velikega nabora podatkov z milijoni vnosov so prišli do nekaterih presenetljivo Rezultati.

V zadnjem času so ti raziskovalci poskušali opraviti nasprotno nalogo: ustvariti slike iz napisa. Ali je zdaj mogoče iz opisa ustvariti popolnoma novo sliko?

Ta vodnik bo raziskal dva najnaprednejša modela besedila v sliko: DALL-E 2 OpenAI in Googlov Imagen AI. Vsak od teh projektov je uvedel prelomne metode, ki lahko spremenijo družbo, kot jo poznamo.

Najprej pa poglejmo, kaj mislimo z ustvarjanjem besedila v sliko.

Kaj je ustvarjanje besedila v sliko?

Modeli besedila v sliko omogočajo računalnikom ustvarjanje novih in edinstvenih slik na podlagi pozivov. Ljudje lahko zdaj zagotovijo besedilni opis slike, ki jo želijo izdelati, model pa bo poskušal ustvariti vizualno sliko, ki se čim bolj ujema s tem opisom.

Modeli strojnega učenja so izkoristili uporabo velikih naborov podatkov, ki vsebujejo pare slika-napis, za nadaljnje izboljšanje zmogljivosti.

Večina besedila v sliko modeli uporabljajo transformatorski jezikovni model za razlago pozivov. Ta vrsta modela je a nevronska mreža ki se poskuša naučiti konteksta in pomenskega pomena naravnega jezika.

Dalje, generativni modeli, kot je npr difuzijski modeli in generativna kontradiktorna omrežja se uporabljajo za sintezo slike.

Kaj je DALLE 2?

DALL-E 2 ustvarja realistične slike in umetnost

DALL-E2 je računalniški model podjetja OpenAI, ki je bil izdan aprila 2022. Model je bil usposobljen na bazi podatkov z milijoni označenih slik za povezovanje besed in besednih zvez s slikami.

Uporabniki lahko vnesejo preprosto besedno zvezo, kot je »mačka, ki jedo lazanjo«, in DALL-E 2 bo ustvaril lastno interpretacijo tega, kar fraza poskuša opisati.

Poleg ustvarjanja slik iz nič lahko DALL-E 2 ureja tudi obstoječe slike. V spodnjem primeru je DALL-E uspel ustvariti spremenjeno sliko sobe z dodanim kavčem.

DALL-E 2 lahko ureja obstoječe slike

DALL-E 2 je le eden izmed mnogih podobnih projektov, ki jih je OpenAI izdal v zadnjih nekaj letih. GPT-3 OpenAI je postal časopis vreden, ko se je zdelo, da ustvarja besedilo različnih slogov.

Trenutno je DALL-E 2 še vedno v beta testiranju. Zainteresirani uporabniki se lahko prijavijo za svoje čakalna lista in počakajte na dostop.

Kako deluje?

Čeprav so rezultati DALL-E 2 impresivni, se morda sprašujete, kako vse skupaj deluje.

DALL-E 2 je primer multimodalne izvedbe OpenAI-jevega projekta GPT-3.

pregled arhitekture DALL-E 2

Najprej se besedilni poziv uporabnika postavi v kodirnik besedila, ki poziv preslika v prostor za predstavitev. DALL-E 2 uporablja drug model OpenAI, imenovan CLIP (Contrastive Language-Image Pre-Training), za pridobivanje semantičnih informacij iz naravnega jezika.

Sledi model, znan kot pred preslika kodiranje besedila v kodiranje slike. To kodiranje slike bi moralo zajemati semantične informacije, ki jih najdete v koraku kodiranja besedila.

Za ustvarjanje dejanske slike DALL-E 2 uporablja slikovni dekoder za ustvarjanje vizualne slike z uporabo semantičnih informacij in podrobnosti kodiranja slike. OpenAI uporablja spremenjeno različico GLEDE model za ustvarjanje slike. GLIDE se opira na a difuzijski model za ustvarjanje slik.

Dodatek GLIDE k modelu DALL-E 2 je omogočil bolj fotorealističen izpis. Ker je model GLIDE stohastičen ali naključno določen, lahko model DALL-E 2 zlahka ustvari variacije z vnovičnim zagonom modela.

Omejitve

Kljub impresivnim rezultatom modela DALL-E 2 se še vedno sooča z nekaterimi omejitvami.

Črkovanje besedila

model pokvari črkovanje besed v znakih

Pozivi, ki poskušajo DALL-E 2 ustvariti besedilo, razkrijejo, da ima težave pri črkovanju besed. Strokovnjaki domnevajo, da je to morda zato, ker informacije o črkovanju niso del nabor podatkov za usposabljanje.

Kompozicijsko sklepanje

model se bori z umeščanjem predmetov v prostor

Raziskovalci opažajo, da ima DALL-E 2 še vedno nekaj težav s sklepanjem o kompoziciji. Preprosto povedano, model lahko razume posamezne vidike slike, medtem ko ima še vedno težave pri ugotavljanju odnosov med temi vidiki.

Na primer, če prejmete poziv »rdeča kocka na vrhu modre kocke«, bo DALL-E natančno ustvaril modro in rdečo kocko, vendar ju ne bo pravilno postavil. Opazili so tudi, da ima model težave s pozivi, ki zahtevajo, da je treba izvleči določeno število predmetov.

Pristranskost v naboru podatkov

Če poziv ne vsebuje drugih podrobnosti, so opazili, da DALL-E prikazuje bele ali zahodne ljudi in okolja. Ta reprezentativna pristranskost se pojavi zaradi obilice zahodno osredotočenih slik v naboru podatkov.

DALL-E 2 ima pristranskost glede spola

Opazili so tudi, da model sledi spolnim stereotipom. Če na primer vnesete poziv »stevardesa«, se večinoma ustvarijo slike stevardes.

Kaj je Google Imagen AI?

DALL-E 2 proti Imagen – Imagen je boljši pri črkovanju in sestavi

Googlova Slika AI je model, katerega namen je ustvariti fotorealistične slike iz vnesenega besedila. Podobno kot DALL-E tudi model uporablja transformatorske jezikovne modele za razumevanje besedila in se opira na uporabo difuzijskih modelov za ustvarjanje visokokakovostnih slik.

Poleg Imagena je Google izdal tudi merilo uspešnosti za modele besedila v sliko, imenovano DrawBench. Z uporabo DrawBench so lahko opazili, da so človeški ocenjevalci dali prednost izhodu Imagen pred drugimi modeli, vključno z DALL-E 2.

Kako deluje?

imagen uporablja difuzijski model za izdelavo dela z visoko ločljivostjo

Podobno kot DALL-E Imagen najprej pretvori uporabniški poziv v vdelano besedilo prek kodirnika zamrznjenega besedila.

Imagen uporablja difuzijski model, ki se nauči pretvoriti vzorec šuma v slike. Začetni izhod teh slik je nizke ločljivosti in se kasneje prenesejo skozi drug model, znan kot difuzijski model super ločljivosti, da se poveča ločljivost končne slike. Prvi difuzijski model ustvari sliko 64 × 64 slikovnih pik, kasneje pa se poveča na sliko visoke ločljivosti 1024 × 1024.

Na podlagi raziskave skupine Imagen so veliki zamrznjeni jezikovni modeli, usposobljeni samo na besedilnih podatkih, še vedno zelo učinkoviti kodirniki besedila za ustvarjanje besedila v sliko.

Študija uvaja tudi koncept dinamičnega določanja praga. Ta metoda omogoča, da so slike videti bolj fotorealistične s povečanjem uteži vodenja pri ustvarjanju slike.

Zmogljivost DALLE 2 proti Imagenu

Predhodni rezultati Googlovega merila uspešnosti kažejo, da imajo človeški anketiranci raje slike, ki jih ustvari Imagen, kot DALL-E 2 in druge modele besedila v sliko, kot sta Latent Diffusion in VQGAN+CLIP.

Rezultati DALL-E 2 proti Imagenu z Googlovim orodjem DrawBench

Rezultat ekipe Imagen je tudi pokazal, da je njihov model boljši pri črkovanju besedila, kar je znana slabost modela DALL-E 2.

Ker pa Google modela še ni objavil javnosti, je treba še videti, kako natančna so Googlova merila.

zaključek

Vzpon fotorealističnih modelov besedila v sliko je sporen, ker so ti modeli zreli za neetično uporabo.

Tehnologija lahko vodi do ustvarjanja eksplicitne vsebine ali kot orodje za dezinformacije. Tega se zavedajo raziskovalci tako Googla kot OpenAI, delno tudi zato te tehnologije še vedno niso dostopne vsem.

Modeli besedila v sliko imajo tudi pomembne gospodarske posledice. Ali bodo poklici, kot so modeli, fotografi in umetniki, prizadeti, če modeli, kot je DALL-E, postanejo mainstream?

Trenutno imajo ti modeli še vedno omejitve. Če katero koli sliko, ustvarjeno z umetno inteligenco, natančno preučite, boste razkrili njene nepopolnosti. Ker tako OpenAI kot Google tekmujeta za najučinkovitejše modele, je morda vprašanje časa, kdaj bo ustvarjen resnično popoln rezultat: slika, ki je ni mogoče ločiti od prave stvari.

Kaj misliš, da se bo zgodilo, ko bo tehnologija šla tako daleč?

DALL-E 2 vs Imagen – slike in umetnost, ki jih ustvari AI

Kaj je ustvarjanje besedila v sliko?

Kaj je DALLE 2?

Kako deluje?

Omejitve

Kaj je Google Imagen AI?

Kako deluje?

Zmogljivost DALLE 2 proti Imagenu

zaključek

O meni Deion Menor

Več člankov na HashDork:

Kako zmanjšati halucinacije v vaši AI

Colossyan proti Heygenu

To glasilo o tehnologiji prihodnosti ni zanič

DALL-E 2 vs Imagen – slike in umetnost, ki jih ustvari AI

Kaj je ustvarjanje besedila v sliko?

Kaj je DALLE 2?

Kako deluje?

Omejitve

Kaj je Google Imagen AI?

Kako deluje?

Zmogljivost DALLE 2 proti Imagenu

zaključek

O meni Deion Menor

Več člankov na HashDork:

Kako zmanjšati halucinacije v vaši AI

10 najboljših orodij AI za družbena omrežja

Colossyan proti Heygenu

10 najboljših orodij za ustvarjanje animiranih videoposnetkov z umetno inteligenco

Spletna Interakcije

Pustite Odgovori preklicati odgovor

To glasilo o tehnologiji prihodnosti ni zanič