Уводзіны ў мадэль дыфузіі

Змест[Схаваць][Паказаць]

Што такое мадэль Diffusion?
Глыбокае паглыбленне ў мадэль дыфузіі+-
Канчатковая мэта
Перавагі дыфузійнай мадэлі
заключэнне

У апошнія гады генератыўныя мадэлі, званыя "дыфузійнымі мадэлямі", становяцца ўсё больш папулярнымі, і гэта нездарма.

Дзякуючы некалькім знакавым публікацыям, апублікаваным толькі ў 2020-х і 2021-х гадах, свет убачыў, на што здольныя мадэлі дыфузіі, напрыклад, перасягнуць GAN па сінтэзе малюнкаў.

Зусім нядаўна практыкі ўбачылі выкарыстанне мадэляў дыфузіі ў АД-Е 2, мадэль стварэння выявы OpenAI, апублікаваная ў мінулым месяцы.

Многія спецыялісты па машынным навучанні, несумненна, цікавяцца ўнутранай працай дыфузійных мадэляў, улічваючы іх нядаўні ўсплёск поспеху.

У гэтай публікацыі мы разгледзім тэарэтычныя асновы дыфузійных мадэляў, іх дызайн, перавагі і многае іншае. Давайце збірацца.

Што такое мадэль Diffusion?

Давайце пачнем з таго, што высветлім, чаму гэтую мадэль называюць дыфузійнай.

Слова, звязанае з тэрмадынамікай на ўроках фізікі, называецца дыфузія. Сістэма не знаходзіцца ў раўнавазе, калі існуе вялікая канцэнтрацыя матэрыялу, напрыклад водару, у адным месцы.

Каб сістэма ўвайшла ў раўнавагу, павінна адбыцца дыфузія. Малекулы водару дыфузуюць па ўсёй сістэме з вобласці больш высокай канцэнтрацыі, робячы сістэму аднастайнай ва ўсім.

Усё ў выніку становіцца аднастайным дзякуючы дыфузіі.

Дыфузійныя мадэлі абумоўлены гэтым тэрмадынамічным нераўнаважным станам. Дыфузійныя мадэлі выкарыстоўваюць ланцуг Маркава, які ўяўляе сабой шэраг зменных, у якіх значэнне кожнай зменнай залежыць ад стану папярэдняй падзеі.

Робячы здымак, мы паслядоўна дадаем да яго пэўную колькасць шуму на працягу ўсёй фазы прамога распаўсюджвання.

Пасля захавання выявы з большым шумам мы пераходзім да стварэння наступнай выявы ў серыі шляхам увядзення дадатковага шуму.

Гэтую працэдуру праробліваюць некалькі разоў. Чыстая шумавая карціна атрымліваецца ў выніку паўтарэння гэтага метаду некалькі разоў.

Як тады мы можам стварыць карціну з гэтага бязладзічнага малюнка?

Працэс дыфузіі адваротны з дапамогай a нейронных сеткі. Тыя ж сеткі і аднолькавыя вагі выкарыстоўваюцца ў працэсе зваротнай дыфузіі для стварэння карціны ад t да t-1.

Замест таго, каб дазволіць сетцы прадбачыць малюнак, можна паспрабаваць прадбачыць шум на кожным кроку, які трэба выдаліць з выявы, каб яшчэ больш спрасціць задачу.

У любым выпадку, дызайн нейронавай сеткі павінны быць выбраны такім чынам, каб захаваць памернасць даных.

Глыбокае паглыбленне ў мадэль дыфузіі

Кампанентамі дыфузійнай мадэлі з'яўляюцца прамы працэс (таксама вядомы як працэс дыфузіі), у якім даныя (часта малюнак) паступова шумяць, і зваротны працэс (таксама вядомы як працэс зваротнай дыфузіі), у якім шум ператвораны назад у ўзор з мэтавага размеркавання.

Калі ўзровень шуму досыць нізкі, умоўныя Гаўса можна выкарыстоўваць для ўстанаўлення пераходаў ланцуга выбаркі ў прамым працэсе. Лёгкая параметрызацыя прамога працэсу вынікае з спалучэння гэтых ведаў з дапушчэннем Маркава:

q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)

Тут 1 ...T - гэта дысперсійны графік (засвоены або фіксаваны), які гарантуе, што для дастаткова высокага T, xT з'яўляецца практычна ізатропным Гаўсавым.

Вялікі Т

Адваротны працэс - гэта магія мадэлі дыфузіі. Мадэль вучыцца змяняць гэты працэс распаўсюджвання падчас навучання, каб атрымліваць свежыя даныя. Мадэль вывучае сумеснае размеркаванне як (x0:T) вынік, пачынаючы з ураўнення шуму Гаўса

(xT):=N(xT,0,I).

pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( хт, т))

дзе выяўлены параметры, якія залежаць ад часу пераходаў Гаўса. У прыватнасці, звярніце ўвагу на тое, як фармулёўка Маркава сцвярджае, што дадзенае размеркаванне пераходу зваротнай дыфузіі залежыць выключна ад папярэдняга часовага кроку (або наступнага часовага кроку, у залежнасці ад таго, як вы на гэта глядзіце):

pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))

Навучанне мадэлі

Для навучання дыфузійнай мадэлі выкарыстоўваецца зваротная маркаўская мадэль, якая павялічвае верагоднасць навучальных даных. Практычна кажучы, навучанне падобна зніжэнню варыяцыйнай верхняй мяжы імавернасці адмоўнага часопіса.

E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L

мадэлі

Цяпер нам трэба вырашыць, як выканаць нашу мадэль дыфузіі пасля ўстанаўлення матэматычных асноў нашай мэтавай функцыі. Адзінае рашэнне, неабходнае для працэсу наперад, - гэта вызначэнне графіка адхіленняў, значэнні якога звычайна павялічваюцца падчас працэдуры.

Мы настойліва разглядаем магчымасць выкарыстання параметрызацыі размеркавання Гаўса і архітэктуры мадэлі для зваротнай працэдуры.

Адзінай умовай нашай канструкцыі з'яўляецца тое, што і ўваход, і выхад маюць аднолькавыя памеры. Гэта падкрэслівае велізарную ступень свабоды, якую забяспечваюць мадэлі дыфузіі.

Ніжэй мы больш падрабязна разгледзім гэтыя параметры.

Наперад працэс

Мы павінны даць графік адхіленняў у адносінах да працэсу наперад. Мы спецыяльна ўсталявалі іх як канстанты, якія залежаць ад часу, і не ўлічвалі магчымасць таго, што іх можна даведацца. Храналагічны графік ад

β1 = 10−4 да βT = 0.02.

Lt становіцца канстантай у адносінах да нашага набору вывучаемых параметраў з-за фіксаванага графіка дысперсіі, што дазваляе нам ігнараваць яго падчас навучання незалежна ад выбраных канкрэтных значэнняў.

Зваротны працэс

Зараз мы разгледзім рашэнні, неабходныя для вызначэння зваротнага працэсу. Памятаеце, як мы апісвалі зваротныя маркаўскія пераходы як гаусаўскія:

pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))

Цяпер, калі мы вызначылі функцыянальныя тыпы. Нягледзячы на тое, што ёсць больш складаныя метады параметрызацыі, мы проста ўсталёўваем

Σθ(xt, t) = σ 2 t I

σ 2 t = βt

Іншымі словамі, мы лічым, што шматмерны Гаўса з'яўляецца вынікам асобных Гаўса з аднолькавай дысперсіяй, значэннем дысперсіі, якое можа вагацца з цягам часу. Гэтыя адхіленні ўсталёўваюцца ў адпаведнасці з графікам адхіленняў працэсу перасылкі.

У выніку гэтай новай фармулёўкі, мы маем:

pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)) :=N (xt−1; µθ (xt, t), σ2 t I)

Гэта прыводзіць да альтэрнатыўнай функцыі страты, паказанай ніжэй, якая, як выявілі аўтары, забяспечвае больш паслядоўнае навучанне і лепшыя вынікі:

Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2

Аўтары таксама звязваюць гэтую фармулёўку дыфузійных мадэляў і генератыўныя мадэлі супастаўлення балаў на аснове Ланжэвена. Як і ў выпадку з незалежным і паралельным развіццём хвалевай квантавай фізікі і матрычнай квантавай механікі, якія выявілі дзве параўнальныя фармулёўкі адных і тых жа з'яў, здаецца, што мадэлі дыфузіі і мадэлі, заснаваныя на балах, могуць быць двума бакамі адной медалі.

Сеткавая архітэктура

Нягледзячы на тое, што наша функцыя скарочанай страты накіравана на навучанне мадэлі Σθ, мы яшчэ не вызначыліся з архітэктурай гэтай мадэлі. Майце на ўвазе, што мадэль проста павінна мець аднолькавыя ўваходныя і выходныя памеры.

Улічваючы гэтае абмежаванне, напэўна, нечакана, што U-Net-падобныя архітэктуры часта выкарыстоўваюцца для стварэння мадэляў дыфузіі малюнкаў.

Сеткавая архітэктура

Шматлікія змены ўносяцца па маршруце адваротнага працэсу пры выкарыстанні бесперапынных умоўных размеркаванняў Гаўса. Памятайце, што мэта зваротнай працэдуры - стварыць малюнак, які складаецца з цэлых значэнняў пікселяў. Такім чынам, неабходна вызначэнне дыскрэтных (лагарычных) верагоднасцей для кожнага патэнцыйнага значэння пікселя па ўсіх пікселях.

Гэта дасягаецца прызначэннем асобнага дыскрэтнага дэкодэра апошняга пераходу ланцуга зваротнай дыфузіі. ацэнка шанцаў пэўнага малюнка x0 дадзены x1.

pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx

δ+(x) = ∞, калі x = 1 x + 1 255, калі x < 1 δ−(x) = −∞, калі x = −1 x − 1 255, калі x > −1

дзе верхні індэкс I пазначае вылучэнне адной каардынаты, а D пазначае колькасць вымярэнняў у дадзеных.

На дадзены момант мэта складаецца ў тым, каб усталяваць верагоднасць кожнага цэлага значэння для канкрэтнага пікселя з улікам размеркавання патэнцыйных значэнняў для гэтага пікселя ў часе. t=1.

Канчатковая мэта

Найбольшыя вынікі, па словах навукоўцаў, атрымала прагназаванне шумавога кампанента карцінкі на пэўным прамежку часу. У рэшце рэшт яны ставяць наступную мэту:

Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2

На наступным малюнку коратка адлюстраваны працэдуры навучання і выбаркі для нашай мадэлі дыфузіі:

Канчатковая мэта

Перавагі дыфузійнай мадэлі

Як ужо адзначалася, у апошні час колькасць даследаванняў мадэляў дыфузіі павялічылася ў разы. Дыфузійныя мадэлі цяпер забяспечваюць самую сучасную якасць выявы і натхнёныя нераўнаважнай тэрмадынамікай.

Дыфузійныя мадэлі забяспечваюць шэраг іншых пераваг у дадатак да перадавой якасці выявы, напрыклад, не патрабуюць падрыхтоўкі да барацьбы.

Недахопы спаборніцкага навучання шырока вядомыя, таму часта лепш выбіраць неспаборніцкія альтэрнатывы з эквівалентнай прадукцыйнасцю і эфектыўнасцю навучання.

Дыфузійныя мадэлі таксама забяспечваюць перавагі маштабаванасці і распараллельвання з пункту гледжання эфектыўнасці навучання.

Нягледзячы на тое, што мадэлі дыфузіі ствараюць вынікі, здавалася б, на пустым месцы, у аснове гэтых вынікаў ляжыць шэраг прадуманых і цікавых матэматычных рашэнняў і тонкасцей, а лепшыя галіновыя практыкі ўсё яшчэ распрацоўваюцца.

заключэнне

У заключэнне даследчыкі дэманструюць высакаякасныя вынікі сінтэзу малюнкаў з выкарыстаннем імавернасных мадэляў дыфузіі, класа мадэляў схаваных зменных, матываваных ідэямі нераўнаважнай тэрмадынамікі.

Яны дасягнулі велізарных поспехаў дзякуючы сваім самым сучасным вынікам і неканкурэнтнай падрыхтоўцы, і, улічваючы іх маленства, у бліжэйшыя гады можна чакаць большага прагрэсу.

У прыватнасці, было выяўлена, што мадэлі дыфузіі маюць вырашальнае значэнне для функцыянальнасці прасунутых мадэляў, такіх як DALL-E 2.

Тут вы можаце атрымаць доступ да поўнага даследавання.

Уводзіны ў мадэль дыфузіі

Што такое мадэль Diffusion?