DALL-E 2 vs Imagen – AI által generált képek és művészet

Tartalomjegyzék[Elrejt][Előadás]

Mi az a szöveg-kép generálás?
Mi az a DALLE 2?+-
- Hogyan működik?
- korlátozások
Mi az a Google Imagen AI?+-
- Hogyan működik?
A DALLE 2 vs Imagen teljesítménye
Következtetés

Az elmúlt években a mélytanulási modellek hatékonyabbá váltak az emberi nyelv megértésében.

Gondolj olyan projektekre, mint pl GPT-3, amely immár teljes cikkek és webhelyek létrehozására is képes. A GitHub nemrégiben mutatkozott be GitHub másodpilóta, egy olyan szolgáltatás, amely teljes kódrészleteket biztosít azáltal, hogy egyszerűen leírja a szükséges kódtípust.

Az OpenAI, a Facebook és a Google kutatói azon dolgoznak, hogy miként lehetne a mély tanulást felhasználni egy másik feladat, a képek feliratozására. Több millió bejegyzést tartalmazó nagy adatkészletet használva találtak néhányat meglepő eredmények.

Az utóbbi időben ezek a kutatók az ellenkező feladatot próbálták végrehajtani: képeket készíteni egy feliratból. Lehet most egy leírásból teljesen új képet alkotni?

Ez az útmutató a két legfejlettebb szöveg-képes modellt vizsgálja meg: az OpenAI DALL-E 2 és a Google Imagen AI modelljét. Ezen projektek mindegyike olyan úttörő módszereket vezetett be, amelyek megváltoztathatják az általunk ismert társadalmat.

Először azonban értsük meg, mit értünk szövegből képbe generálás alatt.

Mi az a szöveg-kép generálás?

Szöveg-kép modellek lehetővé teszi a számítógépek számára, hogy kérések alapján új és egyedi képeket hozzanak létre. Az emberek mostantól szöveges leírást adhatnak az előállítani kívánt képről, és a modell megpróbál olyan látványt készíteni, amely a lehető legpontosabban illeszkedik a leíráshoz.

A gépi tanulási modellek kihasználták a kép-felirat párokat tartalmazó nagy adatkészletek használatát a teljesítmény további javítása érdekében.

A legtöbb szöveg-kép modellek transzformátor nyelvi modellt használnak felszólításokat értelmezni. Ez a fajta modell a neurális hálózat amely megpróbálja megismerni a természetes nyelv kontextusát és szemantikai jelentését.

Ezután a generatív modellek, mint pl diffúziós modellek képszintézishez pedig generatív ellenséges hálózatokat használnak.

Mi az a DALLE 2?

A DALL-E 2 valósághű képeket és művészetet hoz létre

DALL-E2 az OpenAI számítógépes modellje, amelyet 2022 áprilisában adtak ki. A modellt több millió címkézett képből álló adatbázisra képezték ki, hogy szavakat és kifejezéseket társítsanak a képekhez.

A felhasználók beírhatnak egy egyszerű kifejezést, például „a macska lasagne-t eszik”, és a DALL-E 2 létrehozza a saját értelmezését arról, amit a kifejezés leírni próbál.

Amellett, hogy a semmiből készít képeket, a DALL-E 2 meglévő képeket is szerkeszthet. Az alábbi példában a DALL-E egy kanapéval kiegészített szoba módosított képét tudta generálni.

A DALL-E 2 képes szerkeszteni a meglévő képeket

A DALL-E 2 csak egy a sok hasonló projekt közül, amelyet az OpenAI az elmúlt néhány évben kiadott. Az OpenAI GPT-3 akkor vált hírértékűvé, amikor úgy tűnt, hogy különböző stílusú szövegeket generál.

Jelenleg a DALL-E 2 még béta tesztelés alatt áll. Az érdeklődő felhasználók feliratkozhatnak rájuk várólista és várja a hozzáférést.

Hogyan működik?

Bár a DALL-E 2 eredményei lenyűgözőek, felmerülhet benned, hogyan működik mindez.

A DALL-E 2 egy példa az OpenAI GPT-3 projektjének multimodális megvalósítására.

a DALL-E 2 architektúra áttekintése

Először a felhasználó szöveges promptja egy szövegkódolóba kerül, amely leképezi a promptot egy reprezentációs térre. A DALL-E 2 egy másik OpenAI-modellt, a CLIP-et (Contrastive Language-Image Pre-Training) használja, hogy szemantikai információkat nyerjen a természetes nyelvből.

Ezután egy modell, az úgynevezett előzetes leképezi a szövegkódolást egy képkódolásra. Ennek a képkódolásnak rögzítenie kell a szövegkódolási lépésben található szemantikai információkat.

A tényleges kép létrehozásához a DALL-E 2 képdekódolót használ, hogy szemantikai információk és képkódolási részletek felhasználásával vizuális képet hozzon létre. Az OpenAI a módosított változatát használja SIKLIK modell a képgenerálás végrehajtásához. A GLIDE a diffúziós modell képek létrehozásához.

A GLIDE hozzáadása a DALL-E 2 modellhez fotorealisztikusabb kimenetet tett lehetővé. Mivel a GLIDE modell sztochasztikus vagy véletlenszerűen meghatározott, a DALL-E 2 modell könnyen létrehozhat variációkat a modell újra és újra futtatásával.

korlátozások

A DALL-E 2 modell lenyűgöző eredményei ellenére még mindig szembe kell néznie bizonyos korlátokkal.

Szöveg helyesírása

modell elrontja a jelzőtáblákban szereplő szavak helyesírását

Azok a promptok, amelyek megpróbálják a DALL-E 2-t szöveget generálni, azt mutatják, hogy nehézségei vannak a szavak helyesírásával. A szakértők feltételezik, hogy ennek az az oka, hogy a helyesírási információk nem részei a képzési adatkészlet.

Kompozíciós érvelés

modell küszködik a tárgyak térbe helyezésével

A kutatók megfigyelik, hogy a DALL-E 2-nek még mindig nehézségei vannak a kompozíciós érveléssel. Egyszerűen fogalmazva, a modell képes megérteni a kép egyes aspektusait, miközben továbbra is gondot okoz ezen szempontok közötti kapcsolatok kitalálásával.

Például, ha megkapja a „piros kocka a kék kocka tetején” üzenetet, a DALL-E pontosan generál egy kék és egy piros kockát, de nem tudja megfelelően elhelyezni őket. Azt is megfigyelték, hogy a modellnek nehézségei vannak azokkal a promptokkal, amelyek meghatározott számú objektumot igényelnek.

Elfogultság az adatkészletben

Ha a prompt nem tartalmaz más részletet, a DALL-E fehér vagy nyugati embereket és környezetet ábrázol. Ez a reprezentációs torzítás az adatkészletben található rengeteg Nyugat-központú kép miatt következik be.

A DALL-E 2 nemi torzításokkal rendelkezik

Azt is megfigyelték, hogy a modell nemi sztereotípiákat követ. Például az „utaskísérő” szöveg beírása többnyire női légiutas-kísérők képeit generálja.

Mi az a Google Imagen AI?

DALL-E 2 vs Imagen – Az Imagen jobb a helyesírásban és a kompozícióban

Google Imagen AI egy olyan modell, amelynek célja fotorealisztikus képek létrehozása bemeneti szövegből. A DALL-E-hez hasonlóan a modell transzformátornyelvi modelleket is használ a szöveg megértéséhez, és diffúziós modellek használatára támaszkodik a kiváló minőségű képek létrehozásához.

Az Imagen mellett a Google egy benchmarkot is kiadott a szöveg-képes modellekhez DrawBench néven. A DrawBench segítségével megfigyelték, hogy az értékelők az Imagen kimenetet részesítették előnyben más modellekkel szemben, mint például a DALL-E 2.

Hogyan működik?

Az imagen diffúziós modellt használ a nagy felbontású munka előállításához

A DALL-E-hez hasonlóan az Imagen először szöveges beágyazással alakítja át a felhasználói promptot egy fagyasztott szövegkódolón keresztül.

Az Imagen egy diffúziós modellt használ, amely megtanulja, hogyan lehet a zaj mintázatát képekké alakítani. Ezeknek a képeknek a kezdeti kimenete alacsony felbontású, és később egy másik, szuperfelbontású diffúziós modellen áthaladva növeli a végső kép felbontását. Az első diffúziós modell 64×64 pixeles képet ad ki, majd később nagy felbontású, 1024×1024-es képpé fújják fel.

Az Imagen-csapat kutatása alapján a csak szöveges adatokra kiképzett nagyméretű, lefagyott nyelvi modellek még mindig rendkívül hatékony szövegkódolók a szövegből képpé generáláshoz.

A tanulmány bemutatja a dinamikus küszöbérték fogalmát is. Ez a módszer lehetővé teszi, hogy a képek még fotorealisztikusabbnak tűnjenek azáltal, hogy a kép generálásakor növeli a vezetősúlyokat.

A DALLE 2 vs Imagen teljesítménye

A Google benchmark előzetes eredményei azt mutatják, hogy az emberi válaszadók előnyben részesítik az Imagen által generált képeket a DALL-E 2-vel és más szöveg-képké modellekkel szemben, mint például a Latent Diffusion és a VQGAN+CLIP.

DALL-E 2 vs Imagen eredmények a Google DrawBench segítségével

Az Imagen csapatától származó eredmények azt is megmutatták, hogy modelljük jobban teljesít a szöveg helyesírásában, ami a DALL-E 2 modell ismert gyengesége.

Mivel azonban a Google még nem hozta nyilvánosságra a modellt, továbbra is látni kell, mennyire pontosak a Google referenciaértékei.

Következtetés

A fotorealisztikus szöveg-kép modellek térnyerése ellentmondásos, mert ezek a modellek megérettek az etikátlan használatra.

A technológia explicit tartalom létrehozásához vagy félretájékoztatási eszközként vezethet. A Google és az OpenAI kutatói is tisztában vannak ezzel, részben ezért is, ezek a technológiák még mindig nem mindenki számára elérhetőek.

A szöveg-kép modelleknek jelentős gazdasági vonatkozásai is vannak. Befolyásolhatja-e az olyan szakmákat, mint a modellek, fotósok és művészek, ha az olyan modellek, mint a DALL-E, általánossá válnak?

Jelenleg ezeknek a modelleknek vannak korlátai. Ha minden mesterséges intelligencia által generált képet megvizsgál, feltárja annak tökéletlenségeit. Mivel az OpenAI és a Google is verseng a leghatékonyabb modellekért, idő kérdése lehet, hogy valóban tökéletes eredményt hozzon létre: egy olyan képet, amely megkülönböztethetetlen a valóditól.

Mit gondol, mi fog történni, ha a technológia idáig eljut?

DALL-E 2 vs Imagen – AI által generált képek és műalkotások

Mi az a szöveg-kép generálás?

Mi az a DALLE 2?

Hogyan működik?

korlátozások

Mi az a Google Imagen AI?

Hogyan működik?

A DALLE 2 vs Imagen teljesítménye

Következtetés

Rólunk Deion Menor

További cikkek a HashDorkról:

Hogyan csökkentsük a hallucinációkat az AI-ban

Colossyan vs Heygen

Ez a Future Tech hírlevél nem szívás

DALL-E 2 vs Imagen – AI által generált képek és műalkotások

Mi az a szöveg-kép generálás?

Mi az a DALLE 2?

Hogyan működik?

korlátozások

Mi az a Google Imagen AI?

Hogyan működik?

A DALLE 2 vs Imagen teljesítménye

Következtetés

Rólunk Deion Menor

További cikkek a HashDorkról:

Hogyan csökkentsük a hallucinációkat az AI-ban

A 10 legjobb AI-eszköz a közösségi médiához

Colossyan vs Heygen

A 10 legjobb AI animációs videókészítő eszköz

Reader interakciók

Hagy egy Válaszol Mégsem válaszát

Ez a Future Tech hírlevél nem szívás