Az elmúlt években a mélytanulási modellek hatékonyabbá váltak az emberi nyelv megértésében.
Gondolj olyan projektekre, mint pl GPT-3, amely immár teljes cikkek és webhelyek létrehozására is képes. A GitHub nemrégiben mutatkozott be GitHub másodpilóta, egy olyan szolgáltatás, amely teljes kódrészleteket biztosít azáltal, hogy egyszerűen leírja a szükséges kódtípust.
Az OpenAI, a Facebook és a Google kutatói azon dolgoznak, hogy miként lehetne a mély tanulást felhasználni egy másik feladat, a képek feliratozására. Több millió bejegyzést tartalmazó nagy adatkészletet használva találtak néhányat meglepő eredmények.
Az utóbbi időben ezek a kutatók az ellenkező feladatot próbálták végrehajtani: képeket készíteni egy feliratból. Lehet most egy leírásból teljesen új képet alkotni?
Ez az útmutató a két legfejlettebb szöveg-képes modellt vizsgálja meg: az OpenAI DALL-E 2 és a Google Imagen AI modelljét. Ezen projektek mindegyike olyan úttörő módszereket vezetett be, amelyek megváltoztathatják az általunk ismert társadalmat.
Először azonban értsük meg, mit értünk szövegből képbe generálás alatt.
Mi az a szöveg-kép generálás?
Szöveg-kép modellek lehetővé teszi a számítógépek számára, hogy kérések alapján új és egyedi képeket hozzanak létre. Az emberek mostantól szöveges leírást adhatnak az előállítani kívánt képről, és a modell megpróbál olyan látványt készíteni, amely a lehető legpontosabban illeszkedik a leíráshoz.
A gépi tanulási modellek kihasználták a kép-felirat párokat tartalmazó nagy adatkészletek használatát a teljesítmény további javítása érdekében.
A legtöbb szöveg-kép modellek transzformátor nyelvi modellt használnak felszólításokat értelmezni. Ez a fajta modell a neurális hálózat amely megpróbálja megismerni a természetes nyelv kontextusát és szemantikai jelentését.
Ezután a generatív modellek, mint pl diffúziós modellek képszintézishez pedig generatív ellenséges hálózatokat használnak.
Mi az a DALLE 2?
DALL-E2 az OpenAI számítógépes modellje, amelyet 2022 áprilisában adtak ki. A modellt több millió címkézett képből álló adatbázisra képezték ki, hogy szavakat és kifejezéseket társítsanak a képekhez.
A felhasználók beírhatnak egy egyszerű kifejezést, például „a macska lasagne-t eszik”, és a DALL-E 2 létrehozza a saját értelmezését arról, amit a kifejezés leírni próbál.
Amellett, hogy a semmiből készít képeket, a DALL-E 2 meglévő képeket is szerkeszthet. Az alábbi példában a DALL-E egy kanapéval kiegészített szoba módosított képét tudta generálni.
A DALL-E 2 csak egy a sok hasonló projekt közül, amelyet az OpenAI az elmúlt néhány évben kiadott. Az OpenAI GPT-3 akkor vált hírértékűvé, amikor úgy tűnt, hogy különböző stílusú szövegeket generál.
Jelenleg a DALL-E 2 még béta tesztelés alatt áll. Az érdeklődő felhasználók feliratkozhatnak rájuk várólista és várja a hozzáférést.
Hogyan működik?
Bár a DALL-E 2 eredményei lenyűgözőek, felmerülhet benned, hogyan működik mindez.
A DALL-E 2 egy példa az OpenAI GPT-3 projektjének multimodális megvalósítására.
Először a felhasználó szöveges promptja egy szövegkódolóba kerül, amely leképezi a promptot egy reprezentációs térre. A DALL-E 2 egy másik OpenAI-modellt, a CLIP-et (Contrastive Language-Image Pre-Training) használja, hogy szemantikai információkat nyerjen a természetes nyelvből.
Ezután egy modell, az úgynevezett előzetes leképezi a szövegkódolást egy képkódolásra. Ennek a képkódolásnak rögzítenie kell a szövegkódolási lépésben található szemantikai információkat.
A tényleges kép létrehozásához a DALL-E 2 képdekódolót használ, hogy szemantikai információk és képkódolási részletek felhasználásával vizuális képet hozzon létre. Az OpenAI a módosított változatát használja SIKLIK modell a képgenerálás végrehajtásához. A GLIDE a diffúziós modell képek létrehozásához.
A GLIDE hozzáadása a DALL-E 2 modellhez fotorealisztikusabb kimenetet tett lehetővé. Mivel a GLIDE modell sztochasztikus vagy véletlenszerűen meghatározott, a DALL-E 2 modell könnyen létrehozhat variációkat a modell újra és újra futtatásával.
korlátozások
A DALL-E 2 modell lenyűgöző eredményei ellenére még mindig szembe kell néznie bizonyos korlátokkal.
Szöveg helyesírása
Azok a promptok, amelyek megpróbálják a DALL-E 2-t szöveget generálni, azt mutatják, hogy nehézségei vannak a szavak helyesírásával. A szakértők feltételezik, hogy ennek az az oka, hogy a helyesírási információk nem részei a képzési adatkészlet.
Kompozíciós érvelés
A kutatók megfigyelik, hogy a DALL-E 2-nek még mindig nehézségei vannak a kompozíciós érveléssel. Egyszerűen fogalmazva, a modell képes megérteni a kép egyes aspektusait, miközben továbbra is gondot okoz ezen szempontok közötti kapcsolatok kitalálásával.
Például, ha megkapja a „piros kocka a kék kocka tetején” üzenetet, a DALL-E pontosan generál egy kék és egy piros kockát, de nem tudja megfelelően elhelyezni őket. Azt is megfigyelték, hogy a modellnek nehézségei vannak azokkal a promptokkal, amelyek meghatározott számú objektumot igényelnek.
Elfogultság az adatkészletben
Ha a prompt nem tartalmaz más részletet, a DALL-E fehér vagy nyugati embereket és környezetet ábrázol. Ez a reprezentációs torzítás az adatkészletben található rengeteg Nyugat-központú kép miatt következik be.
Azt is megfigyelték, hogy a modell nemi sztereotípiákat követ. Például az „utaskísérő” szöveg beírása többnyire női légiutas-kísérők képeit generálja.
Mi az a Google Imagen AI?
Google Imagen AI egy olyan modell, amelynek célja fotorealisztikus képek létrehozása bemeneti szövegből. A DALL-E-hez hasonlóan a modell transzformátornyelvi modelleket is használ a szöveg megértéséhez, és diffúziós modellek használatára támaszkodik a kiváló minőségű képek létrehozásához.
Az Imagen mellett a Google egy benchmarkot is kiadott a szöveg-képes modellekhez DrawBench néven. A DrawBench segítségével megfigyelték, hogy az értékelők az Imagen kimenetet részesítették előnyben más modellekkel szemben, mint például a DALL-E 2.
Hogyan működik?
A DALL-E-hez hasonlóan az Imagen először szöveges beágyazással alakítja át a felhasználói promptot egy fagyasztott szövegkódolón keresztül.
Az Imagen egy diffúziós modellt használ, amely megtanulja, hogyan lehet a zaj mintázatát képekké alakítani. Ezeknek a képeknek a kezdeti kimenete alacsony felbontású, és később egy másik, szuperfelbontású diffúziós modellen áthaladva növeli a végső kép felbontását. Az első diffúziós modell 64×64 pixeles képet ad ki, majd később nagy felbontású, 1024×1024-es képpé fújják fel.
Az Imagen-csapat kutatása alapján a csak szöveges adatokra kiképzett nagyméretű, lefagyott nyelvi modellek még mindig rendkívül hatékony szövegkódolók a szövegből képpé generáláshoz.
A tanulmány bemutatja a dinamikus küszöbérték fogalmát is. Ez a módszer lehetővé teszi, hogy a képek még fotorealisztikusabbnak tűnjenek azáltal, hogy a kép generálásakor növeli a vezetősúlyokat.
A DALLE 2 vs Imagen teljesítménye
A Google benchmark előzetes eredményei azt mutatják, hogy az emberi válaszadók előnyben részesítik az Imagen által generált képeket a DALL-E 2-vel és más szöveg-képké modellekkel szemben, mint például a Latent Diffusion és a VQGAN+CLIP.
Az Imagen csapatától származó eredmények azt is megmutatták, hogy modelljük jobban teljesít a szöveg helyesírásában, ami a DALL-E 2 modell ismert gyengesége.
Mivel azonban a Google még nem hozta nyilvánosságra a modellt, továbbra is látni kell, mennyire pontosak a Google referenciaértékei.
Következtetés
A fotorealisztikus szöveg-kép modellek térnyerése ellentmondásos, mert ezek a modellek megérettek az etikátlan használatra.
A technológia explicit tartalom létrehozásához vagy félretájékoztatási eszközként vezethet. A Google és az OpenAI kutatói is tisztában vannak ezzel, részben ezért is, ezek a technológiák még mindig nem mindenki számára elérhetőek.
A szöveg-kép modelleknek jelentős gazdasági vonatkozásai is vannak. Befolyásolhatja-e az olyan szakmákat, mint a modellek, fotósok és művészek, ha az olyan modellek, mint a DALL-E, általánossá válnak?
Jelenleg ezeknek a modelleknek vannak korlátai. Ha minden mesterséges intelligencia által generált képet megvizsgál, feltárja annak tökéletlenségeit. Mivel az OpenAI és a Google is verseng a leghatékonyabb modellekért, idő kérdése lehet, hogy valóban tökéletes eredményt hozzon létre: egy olyan képet, amely megkülönböztethetetlen a valóditól.
Mit gondol, mi fog történni, ha a technológia idáig eljut?
Hagy egy Válaszol