A diffúziós modellek viharként söpörték végig a Földet a megjelenésével Dall-E 2, A Google képe, Stabil diffúzióés középút, innovációt vált ki, és kiterjeszti a gépi tanulás határait.
Ezek a modellek szinte korlátlan számú képet tudnak készíteni szópromptokból, beleértve a fotorealisztikus, varázslatos, futurisztikus és természetesen aranyos képeket is.
Ezek a képességek újragondolják, mit jelent az ember számára a szilíciummal való interfész, így gyakorlatilag bármilyen képet készíthetünk, amit csak el tudunk képzelni.
Amint ezek a modellek fejlődnek, vagy a következő generatív paradigma átveszi az uralmat, az emberek képesek lesznek képeket, filmeket és más magával ragadó élményeket készíteni csupán egy gondolattal.
Ebben a bejegyzésben a diffúziós modell, stabil diffúzió, hogyan működik, és egy diffúziós modell festési oktatóanyag, többek között.
Mi az a diffúziós modell?
A gépi tanulási modelleket, amelyek új adatokat hozhatnak létre a betanítási adatokból, generatív modelleknek nevezzük. Az egyéb generatív modellek közé tartoznak az áramlásalapú modellek, a variációs autokódolók és a generatív ellenséges hálózatok (GAN).
Mindegyik kiváló minőségű képeket hozhat létre. A diffúziós modellek megtanulják visszaállítani az adatokat úgy, hogy megfordítják ezt a zajhozzáadási folyamatot, miután a betanítási adatok zaj hozzáadásával károsodtak. Más szóval, a diffúziós modellek képesek koherens képeket létrehozni a zajból.
A diffúziós modellek úgy tanulnak, hogy zajt visznek be a képekbe, amelyeket a modell később elsajátít. A valósághű látvány létrehozása érdekében a modell ezt a zajcsökkentési technikát véletlenszerű magokra alkalmazza.
A képelőállítási folyamat kondicionálásával ezek a modellek a szöveg-kép irányítással együtt használhatók szinte korlátlan számú kép létrehozásához kizárólag szövegből. A magokat a beágyazásokból, például a CLIP-ből származó bemenetekkel lehet irányítani, hogy erős szöveg-képké alakítható legyen.
A diffúziós modellek különféle feladatokat hajthatnak végre, beleértve a képalkotást, a képzajtalanítást, a festést, a kifestést és a bit diffúziót.
Nos, mi a stabil diffúzió?
A Stable Diffusion egy gépi tanulási modell szöveges képalkotáshoz, amelyet a Stabilitás.AI. Képes szövegből képeket generálni.
A stabil diffúzió összetevői
Stabil diffúzió több összetevőből és fogalomból álló rendszer. Ez nem egyetlen modell. Amikor megnézzük a motorháztető mögött, először azt látjuk, hogy van egy szövegértési komponens, amely a szöveges információkat numerikus reprezentációvá alakítja, amely rögzíti a szöveg fogalmait.
Ezt a szövegkódolót nevezhetjük transzformátornak nyelvi modell (technikailag: egy CLIP modell szövegkódolója). Felveszi a bemeneti szöveget, és létrehoz egy egész számlistát (egy vektort) a szöveg minden egyes szavához/tokenjéhez. Ezek az adatok ezután az Image Generatorhoz kerülnek, amely több összetevőből áll.
A képgenerátor két lépésből áll:
1. Képinformáció-készítő
A stabil diffúzió fő összetevője ez az elem. Ez az a hely, ahol a legtöbb teljesítményjavulás a korábbi verziókhoz képest történik.
Ez az összetevő több szakaszon megy keresztül, hogy képadatokat biztosítson. A képinformáció létrehozója csak a képinformációs téren (vagy látens téren) belül működik.
Gyorsabb, mint a korábbi diffúziós modellek, amelyek pixeltérben működtek ezen jellemző miatt. Technikailag ez a komponens egy ütemező algoritmusból és egy UNetből áll neurális hálózat.
Az ebben a komponensben végbemenő folyamatot „diffúziónak” nevezik. Az információ lépésenkénti feldolgozása (a következő komponens, a képdekóder) eredményeként végül jó minőségű kép jön létre.
2. Képdekódoló
Az információ-előállítótól kapott adatok felhasználásával a képdekódoló képet készít. Csak egyszer hajtja végre a kész pixelképet a művelet végén.
Stable Diffusion Impainting bemutató
A stabil diffúziós képfestés a kép hiányzó vagy sérült területeinek kitöltésének technikája. A képfestés célja, hogy elrejtse a kép restaurálásának tényét.
Ezt a technikát gyakran használják a nem kívánt dolgok eltávolítására a képről, vagy a történelmi fényképek sérült területeinek helyreállítására. A stabil diffúziós festés egy viszonylag új festési mód, amely ígéretes hatásokat hoz.
Az alábbi utasítások követésével megkezdheti a festés felfedezését és a meglévő fényképek módosítását, ha ki szeretné próbálni a stabil diffúziós festést:
- Ugrás a Huggingface oldalra Stabil diffúziós impainting
- Töltsd fel saját képedet
- Törölje a képnek azt a részét, amelyet cserélni kell.
- Írja be ide a promptot (mit szeretne hozzáadni az eltávolítandó helyett)
- Válassza a „Futtatás” lehetőséget
A felső videóban feltöltünk egy képet három citrommal, és kicseréljük almára. Személy szerint javaslom, hogy próbálja ki saját fényképeivel és utasításaival.
Következtetés
Általánosságban elmondható, hogy a folyamatos diffúziós festés kiváló módszer a rendkívül valósnak tűnő hamis képek vagy videók előállítására. Ahogy haladunk az új technológiai fejlődés felé, a technológia fejlődésével egyre nehezebb lesz különbséget tenni a hiteles és a csaló között.
szuahir
Az első félidő teljesen független a második félidőtől. Nagyon klassz lett volna, ha a szerző az általa korábban kifejtett modell keretein belül elmagyarázta volna az inpaint működését, betekintést tudott volna adni. De nem! Ehhez valódi megértés kellett volna, nem pedig véletlenszerű szöveg összegyűjtése és feldolgozása.