Nyob rau hauv xyoo tas los no, cov qauv tsim qauv hu ua "diffusion qauv" tau dhau los ua neeg nyiam, thiab muaj qhov ua tau zoo.
Lub ntiaj teb tau pom cov qauv kev nthuav dav uas muaj peev xwm ua tau, xws li kev ua tau zoo ntawm GANs ntawm cov duab sib xyaw ua ke, ua tsaug rau ob peb qhov kev tshaj tawm uas tau tshaj tawm hauv xyoo 2020 & 2021s.
Cov kws kho mob feem ntau tsis ntev los no pom kev siv cov qauv diffusion hauv DALL-E2, OpenAI tus qauv tsim duab uas tau luam tawm lub hli tas los.
Ntau tus kws qhia txog Kev Kawm Tshuab yog qhov xav tsis thoob txog kev ua haujlwm sab hauv ntawm Diffusion Models muab lawv qhov kev vam meej tsis ntev los no.
Hauv cov ntawv tshaj tawm no, peb yuav saib qhov theoretical underpinnings ntawm Diffusion Models, lawv tsim, lawv qhov zoo, thiab ntau ntxiv. Wb mus.
Tus qauv Diffusion yog dab tsi?
Cia peb pib los ntawm kev txheeb xyuas seb vim li cas tus qauv no hu ua tus qauv diffusion.
Ib lo lus hais txog thermodynamics hauv chav kawm physics hu ua diffusion. Lub kaw lus tsis nyob hauv qhov sib npaug yog tias muaj qhov loj ntawm cov khoom siv, xws li ntxhiab tsw, hauv ib qho chaw.
Diffusion yuav tsum tshwm sim rau qhov system nkag mus rau qhov sib npaug. Cov molecules ntawm tus ntxhiab diffuse thoob plaws hauv lub cev los ntawm ib cheeb tsam ntawm ib tug ntau dua concentration, ua rau lub cev tsis sib xws thoob plaws hauv lub cev.
Txhua yam nws thiaj li ua homogeneous vim diffusion.
Cov qauv diffusion yog txhawb los ntawm qhov ntsuas kub tsis sib npaug. Diffusion qauv siv Markov saw, uas yog ib qho kev sib txawv uas txhua qhov sib txawv ntawm tus nqi nyob ntawm lub xeev ntawm qhov kev tshwm sim ua ntej.
Kev thaij duab, peb txuas ntxiv ib qho tshwj xeeb ntawm lub suab nrov rau nws thoob plaws hauv theem tom ntej diffusion.
Tom qab khaws cov duab noisier, peb tab tom tsim cov duab tom ntej hauv koob los ntawm kev qhia cov suab nrov ntxiv.
Ob peb zaug, qhov txheej txheem no ua tiav. Daim duab nrov nrov tau tshwm sim los ntawm kev rov ua cov txheej txheem no ob peb zaug.
Yuav ua li cas peb thiaj tsim tau ib daim duab ntawm daim duab cluttered no?
Cov txheej txheem diffusion yog thim rov qab siv a neural network. Tib cov tes hauj lwm thiab tib qhov hnyav yog siv nyob rau hauv cov txheej txheem rov qab diffusion los tsim cov duab ntawm t mus rau t-1.
Tsis txhob cia lub network xav txog daim duab, ib tus tuaj yeem sim twv lub suab nrov ntawm txhua kauj ruam, uas yuav tsum tau muab tshem tawm ntawm daim duab, txhawm rau ua kom yooj yim rau txoj haujlwm.
Nyob rau hauv txhua qhov scenario, lub neural network tsim yuav tsum tau xaiv nyob rau hauv ib txoj kev uas tswj cov ntaub ntawv dimensionality.
Deep Dive rau hauv Diffusion Model
Cov khoom ntawm tus qauv diffusion yog cov txheej txheem rau pem hauv ntej (tseem hu ua cov txheej txheem diffusion), nyob rau hauv uas lub datum (feem ntau cov duab) maj mam nrov, thiab cov txheej txheem rov qab (tseem hu ua cov txheej txheem rov qab diffusion), uas suab nrov yog hloov rov qab mus rau hauv ib qho piv txwv los ntawm lub hom phiaj faib.
Thaum lub suab nrov qis txaus, Gaussians muaj peev xwm siv tau los tsim cov qauv kev hloov pauv hauv cov txheej txheem rau pem hauv ntej. Ib qho yooj yim parameterization ntawm cov txheej txheem pem hauv ntej tau los ntawm kev sib txuas cov kev paub no nrog Markov kev xav:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N(xt; p 1 − βtxt−1, βtI)
Ntawm no tsib….T yog lub sij hawm sib txawv (txawm yog kawm los yog kho) uas paub tseeb tias, kom txaus siab T, tias xT yog ib qho isotropic Gaussian.
Cov txheej txheem rov qab yog qhov twg diffusion qauv khawv koob tshwm sim. Tus qauv kawm kom thim rov qab cov txheej txheem diffusion no thaum kev cob qhia txhawm rau tsim cov ntaub ntawv tshiab. Tus qauv kawm kev sib koom ua ke raws li (x0 :t. qhov tshwm sim ntawm pib nrog cov ntshiab Gaussian suab sib npaug
(xT):=N(xT, 0, II).
pθ(x0:T) := p(xT) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))
qhov twg Gaussian kev hloov pauv 'lub sij hawm nyob ntawm qhov ntsuas tau pom. Hauv tshwj xeeb, nco ntsoov yuav ua li cas Markov formulation hais tias qhov kev hloov pauv hloov pauv hloov pauv yog nyob ntawm lub sijhawm ua ntej (los yog lub sijhawm tom ntej, nyob ntawm seb koj saib nws):
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)))
Kev cob qhia qauv
Tus qauv rov qab Markov uas ua rau qhov ua tau zoo tshaj plaws ntawm cov ntaub ntawv kev cob qhia yog siv los cob qhia tus qauv diffusion. Kev xyaum hais lus, kev cob qhia yog qhov zoo sib xws los txo qhov kev sib txawv ntawm sab sauv ntawm qhov tsis zoo log qhov tshwm sim.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
qauv
Peb tam sim no yuav tsum tau txiav txim siab yuav ua li cas los ua peb Diffusion Model tom qab tsim cov lej hauv qab ntawm peb lub hom phiaj ua haujlwm. Qhov kev txiav txim siab ib leeg uas xav tau rau tus txheej txheem tom ntej yog txiav txim siab lub sijhawm sib txawv, uas nws cov txiaj ntsig feem ntau nce thaum lub sijhawm ua haujlwm.
Peb xav txog kev siv Gaussian tis parameterization thiab qauv architecture rau cov txheej txheem rov qab.
Ib qho xwm txheej ntawm peb tus qauv tsim yog tias ob qho tib si cov tswv yim thiab cov zis muaj tib qhov ntev. Qhov no qhia txog qib loj ntawm kev ywj pheej uas Diffusion Models muab.
Hauv qab no, peb yuav nkag mus rau qhov tob ntxiv txog cov kev xaiv no.
Cov txheej txheem xa mus
Peb yuav tsum muab lub sijhawm sib txawv ntawm qhov sib txawv ntawm cov txheej txheem tom ntej. Peb tshwj xeeb tau teeb tsa lawv ua lub sijhawm nyob ruaj khov thiab tsis lees paub qhov muaj peev xwm uas lawv tuaj yeem kawm tau. Lub sijhawm teem sijhawm los ntawm
β1 = 10−4 βT = 0.02.
Lt dhau los ua qhov tsis tu ncua ntawm peb cov txheej txheem ntawm kev kawm tsis tau vim yog lub sijhawm sib txawv ruaj khov, tso cai rau peb tsis quav ntsej nws thaum lub sijhawm kev cob qhia tsis hais txog qhov tshwj xeeb uas tau xaiv.
Rov qab txheej txheem
Tam sim no peb mus dhau qhov kev txiav txim siab xav tau los txhais cov txheej txheem rov qab. Nco ntsoov yuav ua li cas peb tau piav qhia txog qhov kev hloov pauv Markov rov qab ua Gaussian:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)))
Tam sim no peb tau txheeb xyuas cov hom kev ua haujlwm. Txawm tias muaj tseeb hais tias muaj ntau intricate cov txheej txheem rau parameterize, peb cia li teem
Σθ(xt,t) = σ 2 t I
σ 2 t = b t
Txhawm rau muab tso rau lwm txoj hauv kev, peb xav txog qhov sib txawv ntawm Gaussian yog qhov tshwm sim ntawm Gaussians cais nrog tib qhov sib txawv, tus nqi sib txawv uas tuaj yeem hloov pauv lub sijhawm. Cov deviations no yog teem kom phim lub sij hawm ntawm forwarding txheej txheem deviations.
Raws li qhov tshwm sim ntawm qhov kev tsim tshiab no, peb muaj:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)) := N (xt−1; µθ (xt, t), σ2 t I)
Qhov no ua rau muaj kev hloov pauv kev ua haujlwm hauv qab no, uas cov kws sau ntawv pom tias tsim kom muaj kev cob qhia zoo dua thiab cov txiaj ntsig zoo dua:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Cov kws sau ntawv kuj kos cov kev sib txuas ntawm qhov kev tsim qauv ntawm cov qauv sib txawv thiab Langevin-raws li cov qhab nia sib piv cov qauv tsim. Raws li nrog kev ywj pheej thiab sib npaug ntawm yoj-raws li quantum physics thiab matrix-raws li quantum mechanics, uas tau nthuav tawm ob qho kev sib piv ntawm tib lub phenomena, nws zoo nkaus li tias Diffusion Models thiab Score-Based qauv tuaj yeem yog ob sab ntawm tib lub npib.
Network Architecture
Txawm tias muaj tseeb hais tias peb condensed poob muaj nuj nqi aims mus cob qhia ib tug qauv Σθ, peb tseem tsis tau txiav txim siab ntawm tus qauv no lub architecture. Nco ntsoov tias tus qauv tsuas yog yuav tsum muaj tib lub tswv yim thiab cov zis qhov ntev.
Muab qhov kev txwv no, tej zaum nws yuav tsis xav tias U-Net-zoo li architectures nquag siv los tsim cov duab diffusion qauv.
Ntau qhov kev hloov pauv tau ua raws li txoj hauv kev ntawm cov txheej txheem thim rov qab thaum siv cov kev faib tawm Gaussian tsis tu ncua. Nco ntsoov tias lub hom phiaj ntawm cov txheej txheem thim rov qab yog los tsim cov duab ua los ntawm cov lej pixel qhov tseem ceeb. Kev txiav txim siab tsis sib xws (log) qhov yuav tshwm sim rau txhua qhov muaj peev xwm pixel tus nqi tshaj txhua pixels yog li tsim nyog.
Qhov no ua tiav los ntawm kev muab ib qho kev txiav txim siab cais tawm mus rau qhov rov qab diffusion saw txoj kev hloov kawg. kwv yees lub caij nyoog ntawm ib qho duab x0 muab x1 xas.
pθ(x0|x1) = YD i=1 Z δ+(xi 0) δ−(xi 0) N(x; µ i θ(x1, 1), σ2 1) dx
δ+(x) = ∞ x = 1 x + 1 255 if x < 1 δ−(x) = −∞ if x = −1 x − 1 255 if x > −1
qhov twg tus superscript kuv qhia txog kev rho tawm ntawm ib qho kev sib koom tes thiab D qhia txog tus lej ntawm qhov ntev hauv cov ntaub ntawv.
Lub hom phiaj ntawm lub ntsiab lus no yog tsim kom muaj qhov tshwm sim ntawm txhua tus nqi sib npaug rau ib qho pixel tshwj xeeb muab faib cov txiaj ntsig muaj peev xwm rau cov pixel ntawd hauv lub sijhawm sib txawv. t = 1.
Lub Hom Phiaj Kawg
Cov txiaj ntsig zoo tshaj plaws, raws li cov kws tshawb fawb, tau los ntawm kev kwv yees lub suab nrov ntawm daim duab ntawm ib lub sijhawm. Thaum kawg, lawv siv lub hom phiaj hauv qab no:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Hauv cov duab hauv qab no, cov txheej txheem kev cob qhia thiab kev coj ua piv txwv rau peb cov qauv diffusion yog concisely depicted:
Cov txiaj ntsig ntawm Diffusion Model
Raws li twb tau hais lawm, tus nqi ntawm kev tshawb fawb ntawm cov qauv diffusion tau ntau ntxiv tsis ntev los no. Diffusion Models tam sim no xa cov duab zoo hauv lub xeev thiab tau txais kev tshoov siab los ntawm cov thermodynamics tsis sib npaug.
Diffusion Models muab ntau yam ntawm lwm yam zoo ntxiv rau kom muaj cov duab zoo nkauj, xws li tsis tas yuav tsum muaj kev qhia tawm tsam.
Qhov tsis zoo ntawm kev cob qhia kev tawm tsam tau paub dav dav, yog li nws yog qhov zoo dua los xaiv cov kev tsis sib haum xeeb nrog kev sib npaug thiab kev cob qhia ua haujlwm.
Diffusion qauv kuj muab qhov zoo ntawm scalability thiab parallelizability nyob rau hauv cov nqe lus ntawm kev kawm ua tau zoo.
Txawm hais tias Diffusion Models tshwm sim los tsim cov txiaj ntsig zoo li tawm ntawm huab cua nyias, lub hauv paus rau cov txiaj ntsig no tau muab tso los ntawm ntau qhov kev xav thiab nthuav lej kev txiav txim siab thiab kev ua kom zoo, thiab kev lag luam zoo tshaj plaws tseem tab tom tsim.
xaus
Hauv kev xaus, cov kws tshawb nrhiav pom cov duab zoo tshaj plaws kev tshawb fawb pom kev siv cov qauv diffusion probabilistic, chav kawm ntawm cov qauv latent hloov pauv tau txhawb los ntawm cov tswv yim los ntawm qhov tsis sib xws ntawm thermodynamics.
Lawv tau ua tiav ntau yam ua tsaug rau lawv cov txiaj ntsig ntawm Lub Xeev-ntawm-tus-Art thiab kev cob qhia tsis yog kev tawm tsam thiab muab lawv cov me nyuam mos, kev nce qib ntxiv yuav xav tau nyob rau xyoo tom ntej.
Tshwj xeeb, nws tau pom tias cov qauv sib txawv yog qhov tseem ceeb rau kev ua haujlwm ntawm cov qauv zoo li DALL-E 2.
Ntawm no koj tuaj yeem nkag mus rau qhov kev tshawb fawb tiav.
Sau ntawv cia Ncua