I nā makahiki i hala iho nei, ua ulu nui nā hiʻohiʻona generative i kapa ʻia ʻo "diffusion models", a me ke kumu maikaʻi.
Ua ʻike ka honua i nā hiʻohiʻona diffusion e hiki ai, e like me ka hoʻokō ʻana i nā GAN ma ke kiʻi synthesis, mahalo i kahi paʻi ʻāina i paʻi ʻia i nā 2020s & 2021s.
Ua ʻike ka poʻe loea i ka hoʻohana ʻana i nā hiʻohiʻona diffusion ma DALL-E2, ke kumu hoʻohālike kiʻi o OpenAI i paʻi ʻia i ka mahina i hala.
Nui ka poʻe hoʻomaʻamaʻa Mīkini e ʻimi nei e pili ana i ka hana o loko o Diffusion Models i hāʻawi ʻia i kā lākou holomua holomua.
Ma kēia pou, e nānā mākou i nā kumu kumu o ka Diffusion Models, kā lākou hoʻolālā, ko lākou pono, a me nā mea hou aku. E hele kāua.
He aha ke ʻano hoʻohālike Diffusion?
E hoʻomaka kākou ma ka noʻonoʻo ʻana i ke kumu i kapa ʻia ai kēia kükohu he kükohu diffusion.
ʻO kahi huaʻōlelo e pili ana i ka thermodynamics ma nā papa physics i kapa ʻia ʻo diffusion. ʻAʻole i kūlike ka ʻōnaehana inā loaʻa ka ʻike nui o kahi mea, e like me ke ʻala, ma kahi wahi.
Pono ka laha no ka ʻōnaehana e komo i ke kaulike. Hoʻolaha nā molekala o ka ʻala i loko o ka ʻōnaehana mai kahi ʻāpana ʻoi aku ka kiʻekiʻe, e hoʻohālikelike i ka ʻōnaehana holoʻokoʻa.
ʻO nā mea a pau e lilo i homogeneous ma muli o ka diffusion.
Hoʻoulu ʻia nā kumu hoʻohālike e kēia kūlana thermodynamic non-equilibrium. Hoʻohana nā ʻano hoʻohālikelike i kahi kaulahao Markov, ʻo ia ke ʻano o nā ʻano like ʻole kahi e hilinaʻi ai ka waiwai o kēlā me kēia ʻano i ke kūlana o ka hanana mua.
Ke kiʻi nei mākou i ke kiʻi, hoʻohui pū mākou i kahi nui o ka walaʻau iā ia i loko o ke kaʻina diffusion i mua.
Ma hope o ka mālama ʻana i ke kiʻi noisier, hoʻomaka mākou e hana i ke kiʻi ma hope o ka moʻo ma ka hoʻokomo ʻana i ka walaʻau hou.
I kekahi mau manawa, hana ʻia kēia kaʻina hana. Loaʻa ke kiʻi walaʻau maʻemaʻe mai ka hana hou ʻana i kēia ʻano hana i kekahi mau manawa.
Pehea lā e hiki ai iā mākou ke hana i kiʻi mai kēia kiʻi puʻupuʻu?
Hoʻohuli ʻia ke kaʻina diffusion me ka hoʻohana ʻana i a kaʻenehana kikowaena. Hoʻohana ʻia nā ʻupena like a me nā paona like i ke kaʻina diffusion hope e hana i ke kiʻi mai ka t a i ka t-1.
Ma kahi o ka ʻae ʻana i ka pūnaewele e kali i ke kiʻi, hiki i kekahi ke hoʻāʻo e wānana i ka walaʻau ma kēlā me kēia pae, pono e wehe ʻia mai ke kiʻi, i mea e maʻalahi ai ka hana.
I kēlā me kēia kūlana, ka hoʻolālā pūnaewele neural pono e koho ʻia ma ke ʻano e mālama ai i ka dimensionality data.
Luʻu hohonu i loko o ke kumu hoʻohālike
ʻO nā ʻāpana o ka hoʻohālike hoʻopulapula he kaʻina hana i mua (ʻike ʻia he kaʻina diffusion), kahi e kani mālie ʻia kahi datum (pinepine kiʻi) a me kahi kaʻina hoʻohuli (ʻike ʻia ʻo ke kaʻina diffusion hoʻohuli), kahi e kani ai ka walaʻau. hoʻololi hou ʻia i laʻana mai ka puʻunaue ʻana.
I ka haʻahaʻa haʻahaʻa o ka walaʻau, hiki ke hoʻohana ʻia nā Gaussians conditional e hoʻokumu i nā hoʻololi kaulahao hōʻailona ma ke kaʻina hana i mua. ʻO ka hoʻohālikelike maʻalahi o ke kaʻina hana i mua i ka hoʻopili ʻana i kēia ʻike me ka manaʻo Markov:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
Eia elima….ʻO T he papa hoʻonohonoho ʻokoʻa (aʻo a paʻa paha) e hōʻoiaʻiʻo ana, no ka T kiʻekiʻe kiʻekiʻe, ʻo xT he Gaussian isotropic.
ʻO ke kaʻina hana ʻē aʻe kahi e hana ʻia ai ke kilokilo diffusion model. Aʻo ke kumu hoʻohālike e hoʻohuli i kēia kaʻina diffusion i ka wā hoʻomaʻamaʻa i mea e hana ai i ka ʻikepili hou. Aʻo ke kumu hoʻohālike i ka puʻunaue hui like (x0:T) ka hopena o ka hoʻomaka ʻana me ka hoʻohālikelike leo Gaussian maʻemaʻe
(xT):=N(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt):= N (xt−1; µθ (xt, t), Σθ( xt, t))
kahi i ʻike ʻia ai nā ʻāpana pili manawa o ka hoʻololi Gaussian. E nānā pono i ke ʻano o ka ʻōlelo a ka Markov formulation e pili ana ka hāʻawi ʻana i ka hoʻololi hoʻololi hoʻohuli hoʻohuli i ka manawa ma mua (a i ʻole ka manawa hope, e pili ana i kou nānā ʻana):
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Aʻo Hoʻohālike
Hoʻohana ʻia kahi hiʻohiʻona Markov hoʻohuli e hoʻonui i ka hiki o ka ʻikepili hoʻomaʻamaʻa e hoʻomaʻamaʻa i kahi kumu hoʻohālike. Ma ka ʻōlelo maʻamau, ua like ka hoʻomaʻamaʻa ʻana me ka hōʻemi ʻana i ka palena ʻokoʻa ma luna o ka probability log maikaʻi ʻole.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
ana hoʻohālike
Pono mākou e hoʻoholo pehea e hoʻokō ai i kā mākou Diffusion Model ma hope o ka hoʻokumu ʻana i nā kumu makemakika o kā mākou hana pahuhopu. ʻO ka hoʻoholo hoʻokahi e pono ai no ke kaʻina hana mua ʻo ia ka hoʻoholo ʻana i ka papa kuhikuhi ʻokoʻa, nona nā waiwai e piʻi mau i ka wā o ke kaʻina hana.
Manaʻo nui mākou i ka hoʻohana ʻana i ka hoʻohālikelike hoʻohele Gaussian a me ka hoʻolālā hoʻohālike no ke kaʻina hana hope.
ʻO ke kūlana hoʻokahi o kā mākou hoʻolālā ʻana, ʻo ka mea hoʻokomo a me ka hoʻokuʻu ʻana i nā ana like. Hōʻike kēia i ka nui o ke kūʻokoʻa i hāʻawi ʻia e Diffusion Models.
Ma lalo, e hele mākou i ka hohonu e pili ana i kēia mau koho.
Kaʻina i mua
Pono mākou e hāʻawi i ka papa manawa like ʻole e pili ana i ke kaʻina hana i mua. Ua hoʻonohonoho pono mākou iā lākou i mau manawa hilinaʻi a mālama ʻole i ka hiki ke aʻo ʻia. He papa hana manawa mai
β1 = 10−4 iā βT = 0.02.
Lt lilo ia i mea mau e pili ana i kā mākou hoʻonohonoho o nā ʻāpana hiki ke aʻo ʻia ma muli o ka papa kuhikuhi ʻokoʻa paʻa, e ʻae iā mākou e haʻalele iā ia i ka wā o ke aʻo ʻana me ka nānā ʻole i nā waiwai kikoʻī i koho ʻia.
Kaʻina hoʻohuli
Ke hele nei mākou i nā hoʻoholo e pono ai e wehewehe i ke kaʻina hana hoʻohuli. E hoʻomanaʻo i kā mākou wehewehe ʻana i ka hoʻololi ʻana o Markov ma ke ʻano he Gaussian:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
I kēia manawa ua ʻike mākou i nā ʻano hana. ʻOiai ʻoi aku ka nui o nā ʻenehana paʻakikī e hoʻohālikelike, hoʻonohonoho wale mākou
Σθ(xt, t) = σ 2 t I
σ 2 t = βt
No ka waiho ʻana i kahi ʻano ʻē aʻe, manaʻo mākou ʻo ka Gaussian multivariate ka hopena o nā Gaussians kaʻawale me ka ʻokoʻa like, kahi waiwai ʻokoʻa e hiki ke loli i ka manawa. Hoʻonohonoho ʻia kēia mau ʻokoʻa e hoʻohālikelike i ka papa manawa o ka hoʻokaʻawale ʻana i ke kaʻina hana.
ʻO ka hopena o kēia hoʻolālā hou, aia iā mākou:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)):=N (xt−1; µθ (xt, t), σ2 t I)
Loaʻa kēia i ka hana pohō ʻē aʻe i hōʻike ʻia ma lalo nei, i ʻike ʻia e nā mea kākau e hoʻopuka i ka hoʻomaʻamaʻa mau a me nā hopena maikaʻi loa:
Lmaʻalahi(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Hoʻopili pū nā mea kākau i nā pilina ma waena o kēia hoʻokumu ʻana i nā hiʻohiʻona diffusion a me nā hiʻohiʻona generative hoʻohālikelike ʻia me Langevin. E like me ka hoʻomohala kūʻokoʻa a me ka hoʻomohala like ʻana o ka nalu-based quantum physics a me ka matrix-based quantum mechanics, i hōʻike ʻia i ʻelua hoʻohālikelike like ʻana o nā ʻano like like, ʻike ʻia ʻo Diffusion Models a me Score-Based models hiki ke lilo i ʻelua ʻaoʻao o ke kālā hoʻokahi.
Hoʻonohonoho pūnaewele
ʻOiai ka manaʻo o kā mākou hana condensed loss e hoʻomaʻamaʻa i kahi kumu hoʻohālike Σθ, ʻaʻole naʻe mākou i hoʻoholo i ka hoʻolālā ʻana o kēia kumu hoʻohālike. E hoʻomanaʻo i ka loaʻa ʻana o ke kumu hoʻohālike i nā ana hoʻokomo a me nā ana puka.
Ma muli o kēia kaohi, ʻaʻole paha i manaʻo ʻia ka hoʻohana pinepine ʻia ʻana o nā hale kiʻi like me U-Net e hana i nā hiʻohiʻona diffusion kiʻi.
Nui nā hoʻololi i hana ʻia ma ke ala o ke kaʻina hoʻohuli ʻoiai e hoʻohana mau ana i nā hāʻina Gaussian conditional. E hoʻomanaʻo ʻo ka pahuhopu o ke kaʻina hana hope ʻo ia ka hana ʻana i kahi kiʻi i hana ʻia me nā waiwai pixel integer. No laila pono ka hoʻoholo ʻana i nā mea likelihood discrete (log) no kēlā me kēia waiwai pika ma luna o nā pika āpau.
Hoʻokō ʻia kēia ma ka hāʻawi ʻana i kahi decoder discrete ʻokoʻa i ka hoʻololi hope o ke kaulahao diffusion hope. ana i ka manawa o kekahi kii x0 hāʻawiʻia x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ inā x = 1 x + 1 255 inā x < 1 δ−(x) = −∞ inā x = −1 x − 1 255 inā x > −1
kahi e hōʻike ai ka superscript I ka unuhi ʻana o hoʻokahi coordinate a ʻo D ka helu o nā ana o ka ʻikepili.
ʻO ka pahuhopu ma kēia wahi, ʻo ia ka hoʻokumu ʻana i ka likelihood o kēlā me kēia helu integer no kahi pika kikoʻī i hāʻawi ʻia i ka hāʻawi ʻana i nā waiwai kūpono no kēlā pika i ka manawa-varying. t=1.
Pahuhopu Hope
ʻO nā hopena maikaʻi loa, e like me ka poʻe ʻepekema, mai ka wānana ʻana i ka ʻāpana walaʻau o ke kiʻi i kekahi manawa. I ka hopena, hoʻohana lākou i kēia pahuhopu:
Lmaʻalahi(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Ma ke kiʻi aʻe, hōʻike ʻia nā kaʻina hana hoʻomaʻamaʻa a me ka laʻana no kā mākou hoʻohālike diffusion.
Pōmaikaʻi o ka Diffusion Model
E like me ka mea i hōʻike mua ʻia, ua hoʻonui ʻia ka nui o ka noiʻi ʻana i nā hiʻohiʻona diffusion. Hāʻawi ʻo Diffusion Models i kēia manawa i ke kūlana kiʻi State-of-the-Art a hoʻoulu ʻia e ka thermodynamics non-equilibrium.
Hāʻawi ʻo Diffusion Models i nā ʻano pono ʻē aʻe ma waho aʻe o ka loaʻa ʻana o ka maikaʻi o ke kiʻi ʻokiʻoki, e like me ke koi ʻole ʻana i ka hoʻomaʻamaʻa ʻenemi.
Ua ʻike nui ʻia nā hemahema o ka hoʻomaʻamaʻa kūʻē ʻana, no laila ʻoi aku ka maikaʻi o ke koho ʻana i nā mea ʻē aʻe me ka hana like a me ka hoʻomaʻamaʻa ʻana.
Hāʻawi pū nā kumu hoʻohālike diffusion i nā pono o ka scalability a me ka parallelizability ma ke ʻano o ka hoʻomaʻamaʻa pono.
ʻOiai ua ʻike ʻia nā Models Diffusion e hoʻopuka i nā hopena me he mea lā ma waho o ka ea lahilahi, ua hoʻokumu ʻia ke kumu o kēia mau hopena e kekahi mau hoʻoholo makemakika noʻonoʻo a hoihoi a me nā maʻalahi, a ke kūkulu ʻia nei nā hana maikaʻi loa o ka ʻoihana.
Panina
I ka hopena, hōʻike nā mea noiʻi i nā ʻike kiʻi kiʻi kiʻi kiʻekiʻe e hoʻohana ana i nā hiʻohiʻona diffusion probabilistic, kahi papa o nā hiʻohiʻona latent i hoʻoikaika ʻia e nā manaʻo mai nonequilibrium thermodynamics.
Ua loaʻa iā lākou nā mea nui e hoʻomaikaʻi i kā lākou mau hopena State-of-the-Art a me ka hoʻomaʻamaʻa ʻole ʻana i ka ʻenemi a hāʻawi i ko lākou wā kamaliʻi, hiki ke kali ʻia nā holomua hou i nā makahiki e hiki mai ana.
ʻO ka mea kūikawā, ua ʻike ʻia he mea koʻikoʻi nā hiʻohiʻona diffusion i ka hana o nā hiʻohiʻona holomua e like me DALL-E 2.
Eia hiki iā ʻoe ke komo i ka noiʻi piha.
Waiho i ka Reply