Az elmúlt években a „diffúziós modelleknek” nevezett generatív modellek egyre népszerűbbé váltak, és ennek jó oka van.
A világ láthatta, mire képesek a diffúziós modellek, például a GAN-ok jobb teljesítményére a képszintézis terén, köszönhetően néhány, a 2020-as és 2021-es években megjelent mérföldkőnek számító kiadványnak.
A gyakorlati szakemberek legutóbb a diffúziós modellek alkalmazását látták DALL-E2, az OpenAI képalkotási modellje, amelyet a múlt hónapban tettek közzé.
Sok gépi tanulással foglalkozó szakember kétségtelenül kíváncsi a diffúziós modellek belső működésére, tekintettel a közelmúltban elért sikerekre.
Ebben a bejegyzésben megvizsgáljuk a diffúziós modellek elméleti alapjait, tervezésüket, előnyeiket és még sok mást. Menjünk.
Mi az a diffúziós modell?
Kezdjük azzal, hogy kitaláljuk, miért nevezik ezt a modellt diffúziós modellnek.
A fizikaórákon a termodinamikával kapcsolatos szót diffúziónak nevezik. Egy rendszer nincs egyensúlyban, ha egy helyen nagy koncentrációban van egy anyag, például egy illat.
A diffúziónak meg kell történnie ahhoz, hogy a rendszer egyensúlyba kerüljön. Az illat molekulái egy magasabb koncentrációjú régióból diffundálnak az egész rendszerben, így a rendszer végig egységessé válik.
A diffúzió következtében végül minden homogénné válik.
A diffúziós modelleket ez a termodinamikai nem egyensúlyi állapot motiválja. A diffúziós modellek Markov-láncot használnak, amely olyan változók sorozata, ahol minden változó értéke az előző esemény állapotától függ.
Egy képet készítve egymás után hozzáadunk egy bizonyos mennyiségű zajt az előrefelé irányuló diffúziós fázis során.
A zajosabb kép eltárolása után további zaj bevezetésével létrehozzuk a sorozat következő képét.
Ezt az eljárást többször meg kell tenni. A módszer néhányszori megismétlése tiszta zajos képet eredményez.
Hogyan készítsünk hát képet ebből a zsúfolt képből?
A diffúziós folyamat megfordítása a neurális hálózat. Ugyanazokat a hálózatokat és ugyanazokat a súlyokat használják a visszafelé irányuló diffúziós folyamatban a kép létrehozásához t-től t-1-ig.
Ahelyett, hogy hagynánk a hálózatot előre látni a képet, megkísérelhetjük minden lépésben megjósolni a zajt, amelyet el kell távolítani a képről a feladat további egyszerűsítése érdekében.
Bármilyen forgatókönyv esetén a neurális hálózat tervezése úgy kell kiválasztani, hogy az adatdimenziós legyen.
Merüljön el mélyen a diffúziós modellbe
A diffúziós modell összetevői egy előre irányuló folyamat (más néven diffúziós folyamat), amelyben egy dátum (gyakran egy kép) fokozatosan zajos, és egy fordított folyamat (más néven fordított diffúziós folyamat), amelyben zaj keletkezik. visszakonvertált mintává a céleloszlásból.
Ha a zajszint elég alacsony, akkor a feltételes Gauss-rendszerek használhatók a mintavételi lánc átmenetek meghatározására az előrehaladási folyamatban. Az előrehaladási folyamat egyszerű paraméterezése ennek a tudásnak a Markov-feltevéssel való összekapcsolásából adódik:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
Itt öt….T egy variancia ütemezés (akár tanult, akár rögzített), amely elegendően magas T esetén biztosítja, hogy xT gyakorlatilag egy izotróp Gauss-féle.
Az ellenkező folyamat az, ahol a diffúziós modell varázslat történik. A modell megtanulja megfordítani ezt a diffúziós folyamatot a képzés során, hogy friss adatokat állítson elő. A modell megtanulja a közös eloszlást mint (x0:T) a tiszta Gauss-zajegyenletből való kiindulás eredménye
(xT):=N(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))
ahol a Gauss-átmenetek időfüggő paramétereit fedezzük fel. Különösképpen vegye figyelembe, hogy a Markov-formula hogyan állítja, hogy egy adott fordított diffúziós átmenet eloszlása kizárólag az előző időlépéstől függ (vagy az azt követő időlépéstől, attól függően, hogyan nézzük):
pθ(xt-1|xt) := N (xt-1; µθ (xt, t), Σθ(xt, t))
Modellképzés
A diffúziós modell betanításához fordított Markov-modellt használnak, amely maximalizálja a betanítási adatok valószínűségét. Gyakorlatilag a képzés analóg a negatív log-valószínűség variációs felső határának csökkentésével.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
Modellek
Most el kell döntenünk, hogyan hajtjuk végre a diffúziós modellünket, miután megállapítottuk a célfüggvényünk matematikai alapjait. A forward folyamathoz egyetlen döntés szükséges a variancia ütemezés meghatározása, amelynek értékei jellemzően emelkednek az eljárás során.
Erősen mérlegeljük a Gauss-eloszlásparaméterezés és a modellarchitektúra használatát a fordított eljáráshoz.
Tervezésünk egyetlen feltétele, hogy mind a bemenet, mind a kimenet azonos méretű legyen. Ez alátámasztja a diffúziós modellek által biztosított hatalmas szabadságfokot.
Az alábbiakban részletesebben foglalkozunk ezekkel a lehetőségekkel.
Továbbítási folyamat
Meg kell adnunk a szórási ütemezést a továbbítási folyamathoz képest. Kifejezetten időfüggő állandóknak állítottuk be őket, és figyelmen kívül hagytuk azt a lehetőséget, hogy megtanulhatók. Időrendi ütemezés től
β1 = 10-4 - βT = 0.02.
Lt A fix variancia-ütemezés miatt a tanulható paraméterkészletünkhöz képest konstanssá válik, lehetővé téve, hogy a képzés során figyelmen kívül hagyjuk a kiválasztott konkrét értékektől függetlenül.
Fordított folyamat
Most áttekintjük a fordított folyamat meghatározásához szükséges döntéseket. Emlékezzen, hogyan írtuk le a fordított Markov-átmeneteket Gauss-féleként:
pθ(xt-1|xt) := N (xt-1; µθ (xt, t), Σθ(xt, t))
Most, hogy azonosítottuk a funkcionális típusokat. Annak ellenére, hogy vannak bonyolultabb paraméterezési technikák, mi csak beállítottuk
Σθ(xt, t) = σ 2 t I
σ 2 t = βt
Másképpen fogalmazva, a többváltozós Gauss-t úgy tekintjük, mint különálló, azonos varianciaértékkel rendelkező Gauss-féle eredményt, amely szórásérték idővel ingadozhat. Ezek az eltérések úgy vannak beállítva, hogy megfeleljenek a továbbítási folyamat eltéréseinek ütemezésének.
Ennek az új megfogalmazásnak az eredményeként, nekünk van:
pθ(xt-1|xt) := N (xt-1; µθ (xt, t), Σθ(xt, t)) :=N (xt-1; µθ (xt, t), σ2 t I)
Ez az alábbiakban bemutatott alternatív veszteségfüggvényt eredményezi, amely a szerzők szerint következetesebb képzést és kiváló eredményeket eredményez:
Legyszerű(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
A szerzők összefüggéseket is feltárnak a diffúziós modellek e megfogalmazása és a Langevin-alapú pontszámillesztő generatív modellek között. A hullámalapú kvantumfizika és a mátrix alapú kvantummechanika független és párhuzamos fejlődéséhez hasonlóan, amely ugyanazon jelenségek két összehasonlítható megfogalmazását tárta fel, úgy tűnik, hogy a diffúziós modellek és a pontszámon alapuló modellek ugyanannak az éremnek a két oldala lehet.
Hálózati architektúra
Annak ellenére, hogy a sűrített veszteségfüggvényünk célja egy modell betanítása Σθ, még mindig nem döntöttünk a modell architektúrájáról. Ne feledje, hogy a modellnek egyszerűen azonos bemeneti és kimeneti méretekkel kell rendelkeznie.
Tekintettel erre a megszorításra, valószínűleg nem váratlan, hogy U-Net-szerű architektúrákat gyakran használnak képdiffúziós modellek létrehozására.
A fordított folyamat során számos változtatást hajtanak végre a folyamatos feltételes Gauss-eloszlások használata közben. Ne feledje, hogy a fordított eljárás célja egy egész pixelértékekből álló kép létrehozása. Ezért meg kell határozni a diszkrét (log) valószínűségeket minden egyes potenciális pixelértékre az összes pixelre vonatkozóan.
Ez úgy érhető el, hogy a fordított diffúziós lánc utolsó átmenetéhez külön diszkrét dekódert rendelünk. egy bizonyos kép esélyének becslése x0 adott x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ ha x = 1 x + 1 255, ha x < 1 δ−(x) = −∞, ha x = −1 x − 1 255, ha x > −1
ahol az I felső index egy koordináta kinyerését, D pedig az adatok dimenzióinak számát jelöli.
A cél ezen a ponton az, hogy meghatározzuk az egyes egész értékek valószínűségét egy adott pixelhez, figyelembe véve az adott pixel potenciális értékeinek eloszlását az időben változó t=1.
Végső célkitűzés
A tudósok szerint a legnagyobb eredményeket a kép zajkomponensének előrejelzése eredményezte egy bizonyos időpontban. Végül a következő célt tűzték ki maguk elé:
Legyszerű(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
A következő képen tömören bemutatjuk a diffúziós modellünk betanítási és mintavételi eljárásait:
A diffúziós modell előnyei
Mint már jeleztük, a diffúziós modellekkel kapcsolatos kutatások száma az utóbbi időben megsokszorozódott. A diffúziós modellek most a legmodernebb képminőséget biztosítják, és a nem egyensúlyi termodinamika ihlette őket.
A diffúziós modellek a csúcsminőségű képminőség mellett számos egyéb előnnyel is járnak, például nem igényelnek ellenséges képzést.
A kontradiktórius képzés hátrányai széles körben ismertek, ezért gyakran előnyben részesítik az egyenértékű teljesítménnyel és kiképzési hatékonysággal rendelkező, nem ellenséges alternatívákat.
A diffúziós modellek a skálázhatóság és a párhuzamosíthatóság előnyeit is biztosítják a képzés hatékonysága szempontjából.
Bár úgy tűnik, hogy a diffúziós modellek látszólag légből kapott eredményeket hoznak létre, ezeknek az eredményeknek az alapját számos átgondolt és érdekes matematikai döntés és finomság teremti meg, és az iparág legjobb gyakorlatai még mindig fejlesztés alatt állnak.
Következtetés
Összefoglalva, a kutatók kiváló minőségű képszintézis-eredményeket mutatnak be diffúziós valószínűségi modellekkel, a látens változómodellek egy osztályával, amelyeket a nem egyensúlyi termodinamika ötletei motiválnak.
Óriási dolgokat értek el a legkorszerűbb eredményeiknek és a nem versengő képzésüknek köszönhetően, és csecsemőkorukra tekintettel további előrelépésekre lehet számítani az elkövetkező években.
Különösen azt fedezték fel, hogy a diffúziós modellek kulcsfontosságúak az olyan fejlett modellek működésében, mint a DALL-E 2.
Itt elérheti a teljes kutatást.
Hagy egy Válaszol