Destpêka Modela Diffusion

Table of Contents[Veşartin][Rêdan]

Modela Diffusion çi ye?
Deep Dive nav Modela Diffusion+- Ji
Armanca Dawî
Feydeyên Modela Diffusion
Xelasî

Di salên dawî de, modelên hilberîner ên bi navê "modelên belavbûnê" her ku diçe populer bûne, û bi sedemek baş.

Cîhanê dît ku modelên belavbûnê çi jêhatî ne, wek mînak bi performansa GAN-an li ser senteza wêneyê, bi saya çend weşanên bijarte yên bijartî yên ku tenê di salên 2020 û 2021-an de hatine weşandin.

Bijîjkan herî dawî di nav de karanîna modelên belavbûnê dîtin DALL-E2, modela afirandina wêneya OpenAI ku meha borî hate weşandin.

Pir bijîjkên Fêrbûna Makîneyê bê guman li ser karên hundurîn ên Modelên Diffusion-ê ji ber zêdebûna serfiraziya wan a dawî meraq dikin.

Di vê postê de, em ê li bingehên teorîkî yên Modelên Diffusion, sêwirana wan, avantajên wan û hêj bêtir binêrin. Ka em herin.

Modela Diffusion çi ye?

Ka em bi fêhm bikin ka çima ev model wekî modela belavbûnê tê binav kirin dest pê bikin.

Di dersên fizîkê de peyveke ku bi termodinamîkê ve girêdayî ye jê re belavbûn tê gotin. Pergalek ne di nav hevsengiyê de ye heke li cîhek deverek mezin a materyalek, mîna bîhnek, hebe.

Ji bo sîstem bikeve hevsengiyê divê belavbûn çêbibe. Molekulên bîhnê li seranserê pergalê ji deverek bi konsantreyek bilindtir belav dibin, û pergalê li seranserê pergalê yekreng dike.

Her tişt di dawiyê de ji ber belavbûnê homojen dibe.

Modelên belavbûnê ji hêla vê rewşa ne-hevsengiya termodnamîk ve têne motîv kirin. Modelên belavbûnê zincîrek Markov bikar tînin, ku rêzek guhêrbar e ku nirxa her guhêrbar xwe dispêre rewşa bûyera pêşîn.

Dema ku wêneyek dikişîne, em li seranserê qonaxa belavbûna pêş de li dû hev dengek taybetî lê zêde dikin.

Piştî hilanîna wêneyê dengdar, em bi danasîna dengek din ve dest bi çêkirina wêneya paşîn di rêzê de dikin.

Gelek caran, ev prosedur tê kirin. Wêneyek dengek paqij ji dubarekirina vê rêbazê çend caran encam dide.

Wê demê em çawa dikarin ji vê wêneya tevlihev wêneyek çêbikin?

Pêvajoya belavbûnê bi karanîna a torê neural. Di pêvajoya belavbûna paşverû de heman şebek û heman giranî têne bikar anîn da ku wêne ji t heta t-1 çêbikin.

Li şûna ku şebek pêşbîniya wêneyê bike, meriv dikare hewl bide ku di her gavê de dengê ku divê ji wêneyê were rakirin, pêşbîn bike da ku peywirê hêsantir bike.

Di her senaryoyê de, sêwirana tora neuralî Divê bi rengek ku pîvana daneyê biparêze were hilbijartin.

Deep Dive nav Modela Diffusion

Pêkhateyên modela belavbûnê pêvajoyek pêşerojê ye (ku wekî pêvajoyek belavbûnê jî tê zanîn), ku tê de datumek (pir caran wêneyek) hêdî hêdî deng vedide, û pêvajoyek berevajî (ku wekî pêvajoyek belavbûna berevajî jî tê zanîn), ku tê de dengek tê de ye. dîsa veguherandin nimûneyek ji belavkirina armancê.

Dema ku asta deng têra xwe kêm be, Gaussiyên şertî dikarin werin bikar anîn da ku di pêvajoya pêş de veguheztinên zincîra nimûneyê saz bikin. Parametrekirinek hêsan a pêvajoya pêş de ji berhevkirina vê zanînê bi texmîna Markov re encam dibe:

q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)

vir 1T bernameyek variansê ye (ya hînbûyî an sabît) ku piştrast dike, ji bo T-ya têra xwe bilind, ku xT bi rastî Gaussianek îzotropîk e.

T mezin

Pêvajoya berevajî ew e ku sêrbaziya modela belavbûnê çêdibe. Model fêr dibe ku di dema perwerdehiyê de vê pêvajoya belavbûnê berevajî bike da ku daneyên nû hilberîne. Model dabeşkirina hevbeş wekî fêr dibe (x0:T) encama destpêkirina bi hevkêşeya dengê Gaussian a paqij

(xT):=N(xT,0,I).

pθ(x0:T) := p(xT) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; μθ (xt, t), Σθ( xt, t))

li ku derê veguheztina Gaussian parametreyên girêdayî demê têne kifş kirin. Bi taybetî, bala xwe bidin ka ka formula Markov çawa diyar dike ku dabeşek veguheztina belavkirina berevajî ya berevajî bi taybetî bi gavavêtina pêşîn ve girêdayî ye (an jî dema paşîn, li gorî ka hûn çawa lê dinêrin):

pθ(xt−1|xt) := N (xt−1; μθ (xt, t), Σθ(xt, t))

Perwerdehiya Modelê

Modelek Markov a berevajî ku îhtîmala daneyên perwerdehiyê zêde dike ji bo perwerdekirina modelek belavbûnê tê bikar anîn. Di pratîkê de, perwerdehiyê bi kêmkirina sînorê jorîn a guheztinê ya li ser îhtîmala têketina neyînî re wekhev e.

E [− log pθ(x0)] ≤ Wekhev − log pθ(x0:T ) q(x1:T |x0) = Wekhev − log p(xT) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L

Models

Naha pêdivî ye ku em biryar bidin ka meriv çawa Modela Diffuzyona xwe bicîh tîne piştî ku bingehên matematîkî yên fonksiyona mebesta xwe saz bikin. Yekane biryara ku ji bo pêvajoya pêşeroj hewce ye, destnîşankirina nexşeya cûdabûnê ye, ku nirxên wê bi gelemperî di dema pêvajoyê de zêde dibin.

Em bi tundî difikirin ku ji bo prosedûra berevajî Parametrekirina dabeşkirina Gaussian û mîmariya modelê bikar bînin.

Yekane şerta sêwirana me ev e ku hem ketin û hem jî derketin yek pîvan bin. Ev yek asta azadiya mezin a ku Modelên Diffusion pêşkêş dikin destnîşan dike.

Li jêr, em ê di derheqê van vebijarkan de kûrtir biçin.

Pêvajoya Pêşveçûn

Divê em di derbarê pêvajoya pêş de nexşeya cûdabûnê peyda bikin. Me bi taybetî wan destnîşan kir ku domdar-girêdayî demê bin û îhtîmala ku ew bêne fêr kirin paşguh kirin. Bernameyek kronolojîk ji

β1 = 10−4 heta βT = 0.02.

Lt bi rêzgirtina rêza parametreyên me yên fêrbûyî re ji ber nexşeya cihêrengiya sabît, domdar dibe, û dihêle ku em di dema perwerdehiyê de guh nedin nirxên taybetî yên hilbijartî.

Pêvajoya Berevajî

Em niha li ser biryarên ku ji bo pênasekirina pêvajoya berevajî hewce ne derbas dibin. Bînin bîra xwe ku me çawa veguherînên Markov ên berevajî wekî Gaussian şirove kir:

pθ(xt−1|xt) := N (xt−1; μθ (xt, t), Σθ(xt, t))

Naha ku me celebên fonksiyonel nas kir. Tevî vê rastiyê ku teknîkên tevlihevtir ên ji bo parametrekirinê hene, em tenê destnîşan dikin

Σθ(xt, t) = σ 2 t I

σ 2 t = βt

Bi awayekî din, em Gaussian-a pirguhar wekî encama Gaussianên cihêreng ên bi heman veguheztinê, nirxek veguheztinê ya ku dikare bi demê re biguhere, dihesibînin. Van devjêberdan ji bo ku bi demjimêra veguheztinên pêvajoya şandinê re li hev bikin têne destnîşan kirin.

Di encama vê formulasyona nû de, me heye:

pθ(xt−1|xt) := N (xt−1; μθ (xt, t), Σθ(xt, t)) :=N (xt−1; μθ (xt, t), σ2 t I)

Ev dibe sedema fonksiyona windabûna alternatîf a ku li jêr tê xuyang kirin, ku nivîskaran dît ku perwerdehiya domdar û encamên bilindtir çêdike:

Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2

Nivîskar di heman demê de têkiliyan di navbera vê formulasyona modelên belavbûnê û modelên hilberîner ên lihevhatinê yên lihevhatinê yên Langevin de xêz dikin. Mîna pêşkeftina serbixwe û paralel a fîzîka quantum-based pêlan û mekanîka quantum-based matrixê, ku du formûlasyonên hevber ên heman diyardeyan eşkere kirin, xuya dike ku Modelên Diffuzyonê û modelên Bingeha Score dikarin du aliyên heman pereyê bin.

Saziya Çolê

Digel vê yekê ku fonksiyona meya windabûna kondenskirî armanc dike ku modelek perwerde bike Sth, me hîn li ser mîmariya vê modelê biryar nedaye. Bînin bîra xwe ku model tenê pêdivî ye ku heman pîvanên ketin û derketinê hebe.

Ji ber vê astengiyê, belkî ne nediyar e ku mîmariyên mîna U-Net bi gelemperî ji bo afirandina modelên belavkirina wêneyê têne bikar anîn.

Saziya Çolê

Dema ku dabeşên Gaussian-ê yên şertî yên domdar têne bikar anîn, li ser riya pêvajoya berevajî gelek guhertin têne çêkirin. Bînin bîra xwe ku armanca prosedûra berevajî ev e ku wêneyek ku ji nirxên pixel ên yekjimar pêk tê biafirîne. Ji ber vê yekê destnîşankirina îhtîmalên veqetandî (log) ji bo her nirxa pixel a potansiyel li ser hemî pîxelan pêdivî ye.

Ev bi veqetandina dekoderek veqetandî ya veqetandî ji bo derbasbûna paşîn a zincîra belavbûna berevajî pêk tê. texmînkirina şansê wêneyek diyarkirî x0 dayîn x1.

pθ(x0|x1) = YD i=1 Z δ+(xi 0) δ−(xi 0) N (x; μ i θ (x1, 1), σ2 1) dx

δ+(x) = ∞ eger x = 1 x + 1 255 eger x < 1 δ−(x) = −∞ eger x = −1 x − 1 255 eger x > −1

ku li ser tîpa I derxistina yek koordînatekê û D jî hejmara pîvanên di daneyê de destnîşan dike.

Di vê nuqteyê de armanc ev e ku meriv îhtîmala her nirxek bêkêmasî ji bo pixelek taybetî saz bike ku ji ber belavkirina nirxên potansiyel ên wê pixelê di dema-cuda de ye. t=1.

Armanca Dawî

Encamên herî mezin, li gorî zanyaran, ji pêşbînkirina pêkhateya deng a wêneyek di demek diyar de hatin. Di dawiyê de, ew armanca jêrîn bikar tînin:

Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2

Di wêneya jêrîn de, prosedurên perwerdehî û nimûneyê ji bo modela meya belavbûnê bi kurtî têne xuyang kirin:

Armanca Dawî

Feydeyên Modela Diffusion

Wekî ku berê jî hate destnîşan kirin, hêjmara lêkolînên li ser modelên belavbûnê di van demên dawî de pir zêde bûye. Modelên Difuzyonê naha qalîteya wêneyê ya herî-hunerê peyda dikin û ji termodînamîkên ne-hevseng têne îlhama kirin.

Modelên Difuzyonê ji bilî xwedan qalîteya wêneya pêşkeftî, wekî ne hewcedariya perwerdehiya dijber, cûrbecûr avantajên din peyda dikin.

Kêmasiyên perwerdehiya dijber bi berfirehî têne zanîn, ji ber vê yekê pir caran tê tercîh kirin ku alternatîfên ne-dijber bi performansa wekhev û bandorkeriya perwerdehiyê hilbijêrin.

Modelên belavbûnê di warê bandorkeriya perwerdehiyê de di heman demê de avantajên mezinbûn û paralelbûnê peyda dikin.

Her çend Modelên Difuzyonê xuya dikin ku encamên ku ji hewaya zirav xuya dikin çêdikin, bingeha van encaman ji hêla hejmarek biryar û hûrguliyên matematîkî yên ramanî û balkêş ve têne danîn, û pratîkên çêtirîn ên pîşesaziyê hîn jî têne pêşve xistin.

Xelasî

Di encamnameyê de, lêkolîner bi karanîna modelên îhtîmala belavbûnê, vedîtinên hevsengiya wêneya qalîteya bilind destnîşan dikin, çînek modelên guhêrbar ên dereng ên ku ji hêla ramanên ji termodinamîkên nehevseng ve têne motîv kirin.

Wan bi saya encamên xwe yên pêşkeftî û perwerdehiya ne-dijberî bi dest xistine û ji ber zarokatiya wan, dibe ku di salên pêş de pêşkeftinên zêdetir werin pêşbînîkirin.

Bi taybetî, hate kifş kirin ku modelên belavbûnê ji bo fonksiyona modelên pêşkeftî yên mîna DALL-E 2 pir girîng in.

vir hûn dikarin bigihîjin lêkolîna tevahî.

Destpêka Modela Diffusion

Modela Diffusion çi ye?