Nan dènye ane yo, modèl jeneratif yo rele "modèl difizyon" yo te vin de pli zan pli popilè, ak bon rezon.
Mond lan te wè ki sa modèl difizyon yo kapab, tankou depase GAN yo sou sentèz foto, gras a yon seleksyon kèk piblikasyon bòn tè ki te pibliye jis nan ane 2020 yo ak ane 2021 yo.
Pratikan yo pi resamman te wè itilizasyon modèl difizyon nan DALL-E2, Modèl kreyasyon imaj OpenAI ki te pibliye mwa pase a.
Anpil pratikan aprantisaj machin yo san dout kirye sou fonksyonman anndan Modèl Difizyon yo bay dènye vag siksè yo.
Nan pòs sa a, nou pral gade sou baz teyorik yo nan Modèl Difizyon, konsepsyon yo, avantaj yo, ak plis ankò. Ann ale.
Ki sa ki se modèl la Difizyon?
Ann kòmanse pa chèche konnen poukisa yo refere yo kòm yon modèl difizyon.
Yon mo ki gen rapò ak tèmodinamik nan klas fizik yo rele difizyon. Yon sistèm pa nan ekilib si gen yon gwo konsantrasyon nan yon materyèl, tankou yon odè, nan yon sèl kote.
Difizyon dwe fèt pou sistèm nan antre nan ekilib. Molekil odè a difize nan tout sistèm nan soti nan yon rejyon ki gen yon konsantrasyon ki pi wo, fè sistèm nan inifòm nan tout.
Tout bagay finalman vin omojèn akòz difizyon.
Modèl difizyon yo motive pa kondisyon tèrmodinamik ki pa ekilib sa a. Modèl difizyon yo itilize yon chèn Markov, ki se yon seri varyab kote valè chak varyab depann sou eta evènman anvan an.
Lè w pran yon foto, nou siksesif ajoute yon kantite bri patikilye nan li pandan tout faz difizyon pi devan an.
Apre estoke imaj la pi bwi, nou kontinye kreye imaj ki vin apre a nan seri a pa entwodwi plis bri.
Plizyè fwa, pwosedi sa a fèt. Yon foto bri pi bon kalite rezilta nan repete metòd sa a kèk fwa.
Lè sa a, ki jan nou ka kreye yon foto nan imaj sa a ankonbre?
Pwosesis difizyon an ranvèse lè l sèvi avèk yon nè rezo. Menm rezo ak menm pwa yo itilize nan pwosesis difizyon bak pou kreye foto ki soti nan t rive nan t-1.
Olye pou yo kite rezo a antisipe foto a, yon moun ka eseye predi bri a nan chak etap, ki gen yo dwe retire nan imaj la, yo nan lòd yo plis senplifye travay la.
Nan nenpòt senaryo, la konsepsyon rezo neral yo dwe chwazi nan yon fason ki kenbe dimansyon done yo.
Plonje byen fon nan modèl difizyon
Konpozan yo nan yon modèl difizyon se yon pwosesis pi devan (ke yo rele tou yon pwosesis difizyon), kote yon done (souvan yon imaj) piti piti fè bwi, ak yon pwosesis ranvèse (ke yo rele tou yon pwosesis difizyon ranvèse), nan ki bri se. konvèti tounen nan yon echantiyon soti nan distribisyon an sib.
Lè nivo bri a ba ase, Gaussians kondisyonèl ka itilize pou etabli tranzisyon chèn echantiyon nan pwosesis pi devan an. Yon paramètrizasyon fasil nan pwosesis pi devan an rezilta nan kouple konesans sa a ak sipozisyon Markov la:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 - βtxt−1, βtI)
isit la senk ....T se yon orè divèjans (swa aprann oswa fiks) ki asire, pou T ase wo, ke xT se nòmalman yon Gaussian izotwòp.
Pwosesis opoze a se kote majik modèl difizyon rive. Modèl la aprann ranvèse pwosesis difizyon sa a pandan fòmasyon yo nan lòd yo pwodwi done fre. Modèl la aprann distribisyon an jwenti kòm (x0:T) rezilta a nan kòmanse ak ekwasyon bri Gaussian pi
(xT):=N(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))
kote yo dekouvri paramèt ki depann de tan tranzisyon Gaussiyen yo. An patikilye, pran nòt sou fason fòmilasyon Markov di ke yon distribisyon ranvèse tranzisyon bay depann sèlman de etap anvan an (oswa etap ki vin apre a, tou depann de ki jan ou gade nan li):
pθ(xt−1|xt):= N (xt−1; µθ (xt, t), Σθ(xt, t))
Fòmasyon ki gen konpòtman egzanplè
Yo itilize yon modèl Markov ranvèse ki maksimize pwobabilite pou done fòmasyon yo pou fòme yon modèl difizyon. Pratikman pale, fòmasyon an se menm jan ak diminye limit siperyè varyasyon sou pwobabilite negatif la.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
Modèl
Kounye a nou bezwen deside kijan pou n egzekite Modèl Difizyon nou an apre nou fin etabli baz matematik fonksyon objektif nou an. Sèl desizyon ki nesesè pou pwosesis pi devan an se detèmine orè a divèjans, ki gen valè tipikman monte pandan pwosedi a.
Nou fòtman konsidere itilize paramètrizasyon distribisyon Gaussian ak achitekti modèl pou pwosedi ranvèse a.
Kondisyon an sèl nan konsepsyon nou an se ke tou de opinyon an ak pwodiksyon an gen menm dimansyon yo. Sa a souliye degre menmen nan libète ke Modèl Difizyon bay.
Anba a, nou pral antre nan pi gwo pwofondè sou opsyon sa yo.
Pwosesis Avant
Nou dwe bay orè a divèjans an relasyon ak pwosesis pou pi devan an. Nou espesyalman mete yo nan konstan tan-depandan ak neglije posiblite pou yo ka aprann. Yon orè kwonolojik soti nan
β1 = 10−4 pou βT = 0.02.
Lt vin yon konstan ki gen rapò ak seri paramèt nou yo aprann akòz orè a divèjans fiks, ki pèmèt nou neglije li pandan fòmasyon kèlkeswa valè espesifik yo chwazi.
Pwosesis ranvèse
Koulye a, nou ale sou desizyon ki nesesè yo defini pwosesis ranvèse a. Sonje kijan nou te dekri tranzisyon Markov ranvèse yo kòm Gaussien:
pθ(xt−1|xt):= N (xt−1; µθ (xt, t), Σθ(xt, t))
Kounye a ke nou te idantifye kalite fonksyonèl yo. Malgre lefèt ke gen plis teknik konplike parameterize, nou jis mete
Σθ (xt, t) = σ 2 t mwen
σ 2 t = βt
Pou mete l 'yon lòt fason, nou konsidere Gaussian miltivarye a se rezilta Gaussians separe ak menm divèjans la, yon valè divèjans ki ka fluktue sou tan. Devyasyon sa yo mete pou koresponn ak orè devyasyon pwosesis transfè.
Kòm rezilta nouvo fòmilasyon sa a, nou genyen:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)) :=N (xt−1; µθ (xt, t), σ2 t I)
Sa a rezilta nan fonksyon pèt altènatif yo montre anba a, ki otè yo te jwenn ki pwodui fòmasyon ki pi konsistan ak rezilta siperyè:
Lsenp(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Otè yo tou trase koneksyon ant fòmilasyon sa a nan modèl difizyon ak Langevin ki baze sou nòt-matche modèl jeneratif. Menm jan ak devlopman endepandan ak paralèl nan fizik pwopòsyon ki baze sou vag ak mekanik pwopòsyon ki baze sou matris, ki revele de fòmilasyon konparab nan menm fenomèn yo, li parèt ke Modèl difizyon ak modèl ki baze sou nòt yo ka de kote nan menm pyès monnen an.
Achitèk Rezo
Malgre lefèt ke fonksyon pèt kondanse nou an gen pou objaktif pou fòme yon modèl Σθ, nou toujou pa te deside sou achitekti modèl sa a. Kenbe nan tèt ou ke modèl la tou senpleman dwe gen menm dimansyon yo opinyon ak pwodiksyon.
Bay kontrent sa a, li se pwobableman pa inatandi ke achitekti U-Net ki tankou yo souvan itilize yo kreye modèl difizyon foto.
Gen anpil chanjman ki fèt sou wout pwosesis ranvèse a pandan w ap itilize distribisyon Gaussian kondisyonèl kontinyèl. Sonje ke objektif la nan pwosedi ranvèse a se kreye yon foto ki fèt ak valè pixel nonb antye relatif. Detèmine chans disrè (log) pou chak valè pixel potansyèl sou tout piksèl Se poutèt sa nesesè.
Sa a se akonpli lè w bay yon dekodeur disrè separe nan dènye tranzisyon chèn difizyon ranvèse a. estime chans pou yon imaj sèten x0 bay x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ mwen θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ si x = 1 x + 1 255 si x < 1 δ−(x) = −∞ si x = −1 x − 1 255 si x > −1
kote sipèskripsyon I a vle di ekstraksyon yon kowòdone epi D vle di kantite dimansyon nan done yo.
Objektif la nan pwen sa a se etabli chans pou chak valè nonb antye relatif pou yon pixel espesifik bay distribisyon an nan valè potansyèl pou pixel sa a nan tan ki varye. t = 1.
Objektif final la
Pi gwo rezilta yo, dapre syantis yo, te soti nan prevwa eleman bri nan yon foto nan yon sèten tan. Nan fen a, yo anplwaye objektif sa a:
Lsenp(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Nan imaj sa a, pwosedi fòmasyon ak echantiyon pou modèl difizyon nou an yo montre yon fason kout:
Benefis ki genyen nan Modèl Difizyon
Kòm te deja endike, kantite rechèch sou modèl difizyon te miltipliye dènyèman. Modèl difizyon kounye a bay bon jan kalite imaj dènye modèl epi yo enspire pa tèmodinamik ki pa ekilib.
Modèl difizyon bay yon varyete lòt avantaj anplis ke yo gen bon jan kalite foto dènye kri, tankou pa mande fòmasyon kontrè.
Dezavantaj yo nan fòmasyon advèsè yo lajman li te ye, kidonk li se souvan pi preferab yo chwazi altènativ ki pa advèsè ak pèfòmans ekivalan ak efikasite fòmasyon.
Modèl difizyon tou bay avantaj ki genyen nan évolutivité ak paralelizabilite an tèm de efikasite fòmasyon.
Malgre ke Modèl Difizyon sanble yo jenere rezilta yo sanble soti nan lè mens, baz la pou rezilta sa yo mete pa yon kantite desizyon ak sibtilite matematik reflechi e enteresan, ak pi bon pratik endistri yo toujou ap devlope.
konklizyon
An konklizyon, chèchè demontre rezilta sentèz foto kalite siperyè itilize modèl pwobabilite difizyon, yon klas modèl varyab inaktif ki motive pa lide ki soti nan tèmodinamik ki pa ekilib.
Yo te reyalize anpil bagay gras ak rezilta dènye modèl yo ak fòmasyon ki pa advèsè e yo ka prevwa plis pwogrè nan ane k ap vini yo.
An patikilye, li te dekouvri ke modèl difizyon yo enpòtan anpil pou fonksyonalite modèl avanse tankou DALL-E 2.
isit la ou ka jwenn aksè nan rechèch konplè a.
Kite yon Reply