Lilemong tsa morao tjena, mefuta ea lihlahisoa e bitsoang "diffusion model" e se e tumme haholo, 'me ka mabaka a utloahalang.
Lefatše le bone hore na mefuta ea phallo e khona ho etsa eng, joalo ka li-GAN tse sebetsang hantle ka ho fetesisa ho kopantseng litšoantšo, ka lebaka la likhatiso tse 'maloa tsa bohlokoa tse phatlalalitsoeng ka bo-2020 le 2021.
Bo-rakhoebo ba morao tjena ba bone tšebeliso ea mefuta ea ho hasana ho DALL-E2, Mohlala oa tlhahiso ea litšoantšo oa OpenAI o hatisitsoeng khoeling e fetileng.
Litsebi tse ngata tsa ho Ithuta ka Mochini ha ho pelaelo hore li labalabela ho tseba ka tšebetso ea kahare ea Diffusion Models ho latela katleho ea bona ea morao-rao.
Ka poso ena, re tla sheba litheolelo tsa theory tsa Diffusion Models, moralo oa tsona, melemo ea tsona, le tse ling tse ngata. Ha re eeng.
Mofuta oa Diffusion ke eng?
A re qaleng ka ho fumana hore na ke hobane'ng ha moetso ona o bitsoa mofuta oa phano.
Lentsoe le amanang le thermodynamics lihlopheng tsa fisiks le bitsoa diffusion. Sistimi ha e lekane haeba ho na le pokello e kholo ea lintho tse bonahalang, joalo ka monko, sebakeng se le seng.
Phapang e tlameha ho etsahala hore sistimi e kenelle tekano. Limolek'hule tsa monko li hasana ho pholletsa le tsamaiso ho tloha sebakeng sa khatello e phahameng, ho etsa hore tsamaiso e tšoane hohle.
Ntho e 'ngoe le e' ngoe qetellong e fetoha homogeneous ka lebaka la ho hasana.
Mefuta e fapa-fapaneng e susumetsoa ke boemo bona ba ho se lekane ha thermodynamic. Mefuta e fapaneng e sebelisa ketane ea Markov, e leng letoto la mefuta-futa moo boleng ba mofuta o mong le o mong bo itšetlehileng ka boemo ba ketsahalo ea pele.
Ha re nka senepe, re kenya lerata le itseng ka tatellano ho eona nakong eohle ea phallo ea pele.
Ka mor'a ho boloka setšoantšo se lerata, re tsoela pele ho etsa setšoantšo se latelang letotong ka ho hlahisa lerata le eketsehileng.
Ka makhetlo a 'maloa, mokhoa ona o etsoa. Setšoantšo se hloekileng sa lerata se bakoa ke ho pheta mokhoa ona ka makhetlo a 'maloa.
Joale re ka etsa setšoantšo joang ho tsoa setšoantšong see se bohlasoa?
Mokhoa oa ho hasanya o khutlisetsoa morao ho sebelisoa a neural network. Ho sebelisoa marang-rang a tšoanang le litekanyo tse tšoanang ts'ebetsong ea ho hasana ka morao ho etsa setšoantšo ho tloha ho t ho ea ho t-1.
Ho e-na le ho lumella marang-rang hore a lebelle setšoantšo, motho a ka leka ho bolela esale pele lerata mohatong o mong le o mong, o lokelang ho tlosoa setšoantšong, e le hore a tsoele pele ho nolofatsa mosebetsi.
Boemong bofe kapa bofe, the moralo oa marang-rang oa neural e tlameha ho khethoa ka tsela e bolokang boholo ba data.
Iketsetse ka botebo ho Mohlala oa Phatlalatso
Likarolo tsa mofuta oa phetiso ke ts'ebetso ea ho ea pele (e tsejoang hape e le ts'ebetso ea ho hasana), moo datum (hangata e leng setšoantšo) e lerata butle-butle, le ts'ebetso e khutlisetsang morao (eo hape e tsejoang e le ts'ebetso ea reverse diffusion), moo lerata le bang teng. e fetotsoe ho ba sampole ho tsoa ho phano ea sepheo.
Ha boemo ba lerata bo le tlase ho lekana, li-Gaussia tse nang le maemo li ka sebelisoa ho theha liphetoho tsa ketane ea sampole ts'ebetsong ea pele. Tlhaloso e bonolo ea ts'ebetso ea pele e bakoa ke ho kopanya tsebo ena le mohopolo oa Markov:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
mona hlano….T ke kemiso ea phapang (e ithutoang kapa e tsitsitseng) e tiisetsang, bakeng sa T e phahameng ka ho lekaneng, hore xT e batla e le Gaussian ea isotropic.
Ts'ebetso e fapaneng ke moo boselamose ba mohlala oa phatlalatso bo etsahalang. Moetso o ithuta ho khutlisa ts'ebetso ena ea phallo nakong ea koetliso e le ho hlahisa lintlha tse ncha. Mohlala o ithuta kabo e kopanetsoeng e le (x0:T) sephetho sa ho qala ka equation e hloekileng ea lerata la Gaussian
(xT):=N(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))
moo maemo a itšetlehileng ka nako ea phetoho ea Gaussia a fumanoang teng. Haholo-holo, ela hloko hore na sebopeho sa Markov se bolela joang hore phetisetso ea phetoho e fapaneng e ipapisitse le nako e fetileng (kapa nako e latelang, ho latela hore na u e sheba joang):
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Koetliso ea Mohlala
Mohlala o ka morao oa Markov o eketsang monyetla oa data ea koetliso o sebelisoa ho koetlisa mofuta oa phano. Ha e le hantle, koetliso e tšoana le ho fokotsa phapang e ka holimo ho monyetla o fosahetseng oa log.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
dikai
Hona joale re hloka ho etsa qeto ea hore na re ka sebelisa Diffusion Model ea rona joang ka mor'a ho theha motheo oa lipalo oa mosebetsi oa rona oa sepheo. Qeto e le 'ngoe e hlokahalang bakeng sa ts'ebetso ea pele ke ho khetholla kemiso ea ho fapana, eo litekanyetso tsa eona li atisang ho phahama nakong ea ts'ebetso.
Re nahana ka matla ho sebelisa parameterization ea kabo ea Gaussian le meaho ea mohlala bakeng sa ts'ebetso e khutlisetsang morao.
Boemo bo le bong feela ba moralo oa rona ke hore bobeli ba ho kenya letsoho le ho hlahisa li na le litekanyo tse tšoanang. Sena se totobatsa tekanyo e kholo ea tokoloho eo Diffusion Models e fanang ka eona.
Ka tlase, re tla teba haholoanyane ka likhetho tsena.
Tsoela Pele
Re tlameha ho fana ka kemiso ea phapang mabapi le ts'ebetso ea pele. Re li behile ka ho hlaka hore e be lintho tse itšetlehileng ka nako 'me ra hlokomoloha monyetla oa hore li ka ithutoa. Kemiso ea tatellano ea liketsahalo ho tloha ho
β1 = 10−4 ho βT = 0.02.
Lt e fetoha ntho e tsitsitseng mabapi le sete ea rona ea litekanyetso tse ka ithutoang ka lebaka la kemiso e tsitsitseng ea ho fapana, e re lumellang ho e hlokomoloha nakong ea koetliso ho sa tsotellehe litekanyetso tse khethehileng tse khethiloeng.
Reverse Process
Hona joale re hlahloba liqeto tse hlokahalang ho hlalosa ts'ebetso e fapaneng. Hopola kamoo re hlalositseng phetoho ea Markov e le Gaussian:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Hona joale re se re bone mefuta e sebetsang. Ho sa tsotellehe taba ea hore ho na le mekhoa e mengata e rarahaneng ea ho etsa parameterize, re sa tsoa beha
Σθ(xt, t) = σ 2 t I
σ 2 t = βt
Ho e hlalosa ka tsela e 'ngoe, re nka Gaussian e mengata e le phello ea li-Gaussia tse arohaneng tse nang le phapang e tšoanang, boleng ba phapang bo ka fetohang ha nako e ntse e ea. Liphapang tsena li behiloe ho tsamaisana le kemiso ea nako ea liphapang tsa mokhoa oa ho fetisa.
Ka lebaka la tlhahiso ena e ncha, re na le:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)) :=N (xt−1; µθ (xt, t), σ2 t I)
Sena se fella ka ts'ebetso e 'ngoe ea tahlehelo e bontšitsoeng ka tlase, eo bangoli ba e fumaneng e hlahisa koetliso e tsitsitseng le liphetho tse phahameng:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Bangoli ba boetse ba hula likhokahano lipakeng tsa moralo ona oa mefuta ea phallo le mefuta ea tlhahiso e tsamaisanang le lintlha tse thehiloeng ho Langevin. Joalo ka nts'etsopele e ikemetseng le e ts'oanang ea maqhubu a quantum physics le matrix-based quantum mechanics, e ileng ea senola mekhoa e 'meli e ka bapisoang ea liketsahalo tse tšoanang, ho bonahala eka Diffusion Models le Score-Based Models e ka ba mahlakore a mabeli a chelete ea tšepe e le 'ngoe.
Boikarabelo ba Inthanete
Leha taba ea hore ts'ebetso ea rona ea tahlehelo e khuts'oane e ikemiselitse ho koetlisa mohlala Σθ, re ntse re e-s'o etse qeto mabapi le mohaho oa mohlala ona. Hopola hore mohlala o tlameha feela ho ba le litekanyo tse lekanang tsa ho kenya le ho tsoa.
Ka lebaka la tšitiso ena, mohlomong ha se ntho e sa lebelloang hore meaho e kang ea U-Net e sebelisoa khafetsa ho theha mefuta ea phallo ea litšoantšo.
Liphetoho tse ngata li etsoa tseleng ea ho khutlela morao ha ho ntse ho sebelisoa liphaello tse sa khaotseng tsa Gaussian. Hopola hore sepheo sa ts'ebetso e ka morao ke ho etsa setšoantšo se entsoeng ka litekanyetso tse felletseng tsa pixel. Ka hona hoa hlokahala ho khetha menyetla ea discrete (log) bakeng sa boleng bo bong le bo bong bo ka bang teng ho feta lipikselse tsohle.
Sena se finyelloa ka ho abela sekhoudara se ikhethileng phetohong ea ho qetela ea ketane ea phatlalatso. ho lekanyetsa monyetla wa setshoantsho se itseng x0 e fanoeng x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ haeba x = 1 x + 1 255 haeba x < 1 δ−(x) = −∞ haeba x = −1 x − 1 255 haeba x > −1
moo superscript I e bolelang ho ntšoa ha coordinate e le 'ngoe mme D e bolela palo ea litekanyo ho data.
Sepheo sa nako ena ke ho theha monyetla oa palo e 'ngoe le e' ngoe ea boleng ba pixel e itseng ha ho fanoa ka kabo ea boleng ba pixel eo ka nako e fapaneng. t=1.
Sepheo sa ho Qetela
Liphello tse kholo ka ho fetisisa, ho ea ka bo-rasaense, li bile teng ka ho bolela esale pele karolo ea lerata ea setšoantšo ka nako e itseng. Qetellong, ba sebelisa sepheo se latelang:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Setšoantšong se latelang, mekhoa ea koetliso le lisampole tsa mofuta oa rona oa phano li bonts'itsoe ka bokhutšoanyane:
Melemo ea Mohlala oa Phatlalatso
Joalokaha ho se ho boletsoe, palo ea lipatlisiso mabapi le mefuta ea phallo e eketsehile haufinyane. Diffusion Models joale li fana ka boleng ba setšoantšo sa State-of-the-Art 'me li bululetsoe ke thermodynamics e sa lekanang.
Mefuta ea Phatlalatso e fana ka melemo e meng e fapaneng ntle le ho ba le boleng ba litšoantšo tsa maemo a holimo, joalo ka ho se hloke koetliso ea mohanyetsi.
Litšitiso tsa koetliso ea bohanyetsi li tsebahala hohle, ka hona, hangata ho molemo ho khetha mekhoa e meng eo e seng ea mohanyetsi e nang le ts'ebetso e ts'oanang le katleho ea koetliso.
Mefuta e fapaneng e boetse e fana ka melemo ea scalability le parallelizability mabapi le katleho ea koetliso.
Le hoja Mekhoa ea Phatlalatso e bonahala e hlahisa liphello tse bonahalang li tsoa moeeng o mosesaane, motheo oa liphello tsena o raloa ke liqeto tse ngata tse nahanang le tse thahasellisang tsa lipalo, 'me mekhoa e metle ea indasteri e ntse e ntlafatsoa.
fihlela qeto e
Qetellong, bafuputsi ba bonts'a liphuputso tsa boleng bo holimo tsa litšoantšo tse sebelisang mefuta e ka bang teng ea phallo, sehlopha sa mefuta e fapaneng e fapaneng e susumetsoang ke mehopolo e tsoang ho nonequilibrium thermodynamics.
Ba fihletse lintho tse kholo ka lebaka la liphetho tsa bona tsa Boemo ba Bonono le koetliso eo e seng ea bohanyetsi 'me ho latela bosea ba bona, ho ka lebelloa tsoelo-pele e eketsehileng lilemong tse tlang.
Haholo-holo, ho fumanoe hore mefuta ea phallo e bohlokoa ts'ebetsong ea mefuta e tsoetseng pele joalo ka DALL-E 2.
mona o ka fumana lipatlisiso tse felletseng.
Leave a Reply