Tartalomjegyzék[Elrejt][Előadás]
Valószínűleg tisztában van azzal, hogy a számítógép képes leírni egy képet.
Például a gyermekeivel játszó kutyát ábrázoló kép lefordítható így: „kutya és gyerekek a kertben”. De tudtad, hogy ennek az ellenkezője is megvalósítható most? Beír néhány szót, és a gép új képet generál.
A Google-kereséssel ellentétben, amely a meglévő fényképek között keres, ez mind friss. Az elmúlt években az OpenAI az egyik vezető szervezet volt, amely lenyűgöző eredményekről számolt be.
Hatalmas szöveges és képi adatbázisokon képezik algoritmusaikat. Közzétettek egy tanulmányt a GLIDE képmodelljükről, amelyet több száz millió fotóra képeztek ki. A fotorealizmus tekintetében felülmúlja korábbi „DALL-E” modelljüket.
Ebben a bejegyzésben az OpenAI GLIDE-ját fogjuk megvizsgálni, amely a számos lenyűgöző kezdeményezés egyike, amelyek célja fotorealisztikus képek létrehozása és módosítása szövegvezérelt diffúziós modellekkel. Kezdjük.
Mi Nyissa meg az AI Glide-ot?
Míg a legtöbb kép leírható szavakkal, a szövegbevitelből képalkotáshoz speciális ismeretekre és jelentős időre van szükség.
Ha lehetővé teszi egy mesterséges intelligencia ügynök számára, hogy fotorealisztikus képeket készítsen természetes nyelvi felszólítások alapján, az nemcsak gazdag és változatos vizuális anyagok létrehozását teszi lehetővé soha nem látott könnyedséggel, hanem lehetővé teszi a létrehozott képek egyszerűbb iteratív finomítását és finomszemcsés vezérlését is.
A GLIDE használható meglévő fényképek szerkesztéséhez természetes nyelvű szöveges promptok használatával új objektumok beszúrásához, árnyékok és tükröződések létrehozásához, képfestés, És így tovább.
Az alapvető vonalrajzokat is fotorealisztikus fényképekké tudja alakítani, és kivételes nulla minta nélküli gyártási és javítási képességekkel rendelkezik bonyolult helyzetekben.
A legújabb kutatások kimutatták, hogy a valószínűség-alapú diffúziós modellek kiváló minőségű szintetikus képeket is készíthetnek, különösen, ha olyan irányadó megközelítéssel kombinálják, amely egyensúlyban tartja a változatosságot és a hűséget.
Az OpenAI közzétette a irányított diffúziós modell májusban, ami lehetővé teszi, hogy a diffúziós modelleket egy osztályozó címkéihez tegyék függővé. A GLIDE javítja ezt a sikert azáltal, hogy irányított diffúziót hoz a szövegfeltételes képalkotás problémájába.
Miután egy 3.5 milliárd paraméterű GLIDE diffúziós modellt betanítottak egy szövegkódoló segítségével a természetes nyelvi leírások feltételére, a kutatók két alternatív irányítási stratégiát teszteltek: a CLIP irányítást és az osztályozó nélküli irányítást.
A CLIP egy méretezhető technika a szöveg és a képek együttes megjelenítésének elsajátítására, amely az alapján ad pontszámot, hogy milyen közel van egy kép a felirathoz.
A csapat ezt a stratégiát alkalmazta diffúziós modelljeikben, az osztályozót egy CLIP-modellel helyettesítve, amely „vezeti” a modelleket. Eközben az osztályozó nélküli útmutatás olyan diffúziós modellek irányítására szolgáló stratégia, amely nem jár külön osztályozó betanításával.
GLIDE építészet
A GLIDE architektúra három összetevőből áll: egy 64 × 64-es kép generálására kiképzett Ablated Diffusion Model (ADM), egy szövegmodell (transzformátor), amely szöveges prompton keresztül befolyásolja a képgenerálást, és egy felmintavételi modell, amely átalakítja a kis 64 × 64-es képünket. a képeket jobban értelmezhető 256 x 256 pixelre.
Az első két komponens együttesen szabályozza a képalkotási folyamatot, hogy az megfelelően tükrözze a szöveges promptot, míg az utóbbi azért szükséges, hogy könnyebben érthetővé tegyük az általunk készített képeket. A GLIDE projektet a 2021-ban közzétett jelentés Ez azt mutatta, hogy az ADM technikák felülmúlják a jelenleg népszerű, legkorszerűbb generatív modelleket a képminták minősége tekintetében.
Az ADM esetében a GLIDE szerzői ugyanazt az ImageNet 64 x 64-es modellt alkalmazták, mint Dhariwal és Nichol, de 512 helyett 64 csatornával. Ennek eredményeként az ImageNet modell nagyjából 2.3 milliárd paraméterrel rendelkezik.
A GLIDE csapata – Dhariwal és Nicholtól eltérően – nagyobb közvetlen irányítást akart gyakorolni a képalkotási folyamat felett, ezért a vizuális modellt egy figyelemfelkeltő transzformátorral kombinálták. A GLIDE a szövegbeviteli promptok feldolgozásával némi szabályozást biztosít a képgenerálási folyamat kimenete felett.
Ezt úgy érik el, hogy a transzformátormodellt egy megfelelően nagy fotók és feliratok adathalmazán tanítják (hasonlóan a DALL-E projektben használthoz).
A szöveget kezdetben K token sorozatba kódolják, hogy kondicionálják. Ezt követően a tokenek egy transzformátor modellbe kerülnek. A transzformátor kimenete ezután kétféleképpen használható fel. Az ADM-modell esetében az osztálybeágyazás helyett a végső token beágyazást használják.
Másodszor, a token beágyazások végső rétege – a jellemzővektorok sorozata – az ADM-modellben az egyes figyelemrétegek dimenzióira függetlenül vetítésre kerül, és az egyes figyelemkontextusokhoz fűződik.
A valóságban ez lehetővé teszi, hogy az ADM modell hasonló szövegjelek új kombinációiból egyedi és fotorealisztikus módon hozzon létre képet, a bemeneti szavak és a hozzájuk kapcsolódó képek tanult megértése alapján. Ez a szövegkódoló transzformátor 1.2 milliárd paramétert tartalmaz, és 24 maradék blokkot alkalmaz 2048 szélességben.
Végül, az upsampler diffúziós modell körülbelül 1.5 milliárd paramétert tartalmaz, és abban különbözik az alapmodelltől, hogy a szövegkódolója kisebb, 1024 és 384 alapcsatorna széles az alapmodellhez képest. Ez a modell, ahogy a neve is mutatja, segíti a minta frissítését, hogy javítsa az értelmezhetőséget mind a gépek, mind az emberek számára.
Diffúziós modell
A GLIDE képeket az ADM saját verziójával állít elő (ADM-G „irányított”). Az ADM-G modell a diffúziós U-háló modell egy módosítása. A diffúziós U-háló modell drámaian eltér a gyakoribb képszintézis technikáktól, mint például a VAE, GAN és transzformátorok.
Felépítik a diffúziós lépésekből álló Markov-láncot, hogy fokozatosan véletlenszerű zajt fecskendezzenek be az adatokba, majd megtanulják megfordítani a diffúziós folyamatot, és csak a zajból újraépíteni a szükséges adatmintákat. Két szakaszban működik: előre és hátra diffúzióban.
Az előremenő diffúziós módszer, amely a minta valódi eloszlásának adatpontját adja, egy kis mennyiségű zajt ad a mintához egy előre beállított lépéssorozaton keresztül. Ahogy a lépések mérete nő, és a végtelenhez közeledik, a minta elveszíti minden felismerhető jellemzőjét, és a sorozat kezd hasonlítani egy izotróp Gauss-görbére.
A visszafelé irányuló diffúzió során fázis, a diffúziós modell megtanulja megfordítani a hozzáadott zaj képre gyakorolt hatását, és az eredeti bemeneti mintaeloszlásra próbálva visszavezetni az előállított képet az eredeti formájába.
Egy kész modell megtehetné ezt valódi Gauss-zaj bemenettel és prompttal. Az ADM-G módszer abban különbözik az előzőtől, hogy egy modell, akár a CLIP, akár egy testreszabott transzformátor, a bevitt szöveges prompt tokenek használatával befolyásolja a visszafelé irányuló diffúziós fázist.
Glide képességek
1. Kép generálása
A GLIDE legnépszerűbb és legszélesebb körben használt alkalmazása valószínűleg a képszintézis lesz. Bár a képek szerények, és a GLIDE-nek nehézségei vannak az állati/emberi formákkal, az egyszeri képalkotás lehetősége szinte végtelen.
Létrehozhat fényképeket állatokról, hírességekről, tájakról, épületekről és még sok másról, és mindezt különféle művészeti stílusokban és fotórealisztikusan is megteheti. A kutatók szerzői azt állítják, hogy a GLIDE képes a szöveges bemenetek széles skáláját értelmezni és vizuális formátumba adaptálni, amint az az alábbi mintákon látható.
2. Siklófestés
A GLIDE automatikus fotófestése vitathatatlanul a leglenyűgözőbb használat. A GLIDE képes bemenetként egy meglévő képet készíteni, feldolgozni a szöveges prompt figyelembevételével a módosítandó helyekre, majd könnyedén végrehajtani az aktív módosításokat ezeken a részeken.
Egy szerkesztési modellel, például az SDEdittel együtt kell használni, hogy még jobb eredményeket érjünk el. A jövőben az ehhez hasonló képességeket kihasználó alkalmazások kulcsfontosságúak lehetnek a kód nélküli képmódosító megközelítések kifejlesztésében.
Következtetés
Most, hogy végigmentünk a folyamaton, meg kell értened a GLIDE működésének alapjait, valamint a képalkotásban és a képen belüli módosításban rejlő lehetőségeket.
Hagy egy Válaszol