Мундариҷа[Пинҳон кардан][Намоиш]
Дар солҳои охир, моделҳои тавлидкунанда бо номи "моделҳои диффузионӣ" бештар маъмул гаштанд ва бо сабабҳои асоснок.
Ҷаҳон дидааст, ки моделҳои диффузия ба чӣ гуна қодиранд, ба монанди бартарии GAN-ҳо дар синтези тасвирҳо, ба шарофати чанд нашрияҳои барҷастае, ки танҳо дар солҳои 2020 ва 2021 нашр шудаанд.
Ба наздикӣ таҷрибаомӯзон истифодаи моделҳои диффузиро дар DALL-E2, Модели эҷоди тасвири OpenAI, ки моҳи гузашта нашр шуд.
Бисёре аз таҷрибаомӯзони омӯзиши мошинсозӣ бешубҳа ба корҳои ботинии Моделҳои диффузия таваҷҷӯҳ зоҳир мекунанд, бо назардошти афзоиши муваффақияти онҳо.
Дар ин паём, мо ба асосҳои назариявии Моделҳои диффузия, тарҳрезии онҳо, бартариҳои онҳо ва бисёр чизҳои дигарро дида мебароем. Биё равем.
Модели диффузия чист?
Биёед аз фаҳмидани он, ки чаро ин модел ҳамчун модели диффузия номида мешавад, оғоз кунем.
Калимаи марбут ба термодинамика дар дарсҳои физикаро диффузия меноманд. Агар дар як макон консентратсияи зиёди мавод, ба монанди бӯй мавҷуд бошад, система дар мувозинат нест.
Диффузия бояд ба амал ояд, ки система ба мувозинат ворид шавад. Молекулаҳои бӯй дар тамоми система аз минтақаи консентратсияи баландтар паҳн шуда, системаро дар саросари ҷаҳон яксон мекунанд.
Ҳама чиз дар ниҳоят аз сабаби диффузия якхела мешавад.
Моделҳои диффузия бо ин ҳолати ғайримувозинати термодинамикӣ асоснок карда мешаванд. Моделҳои диффузия занҷири Марковро истифода мебаранд, ки як қатор тағирёбандаҳо мебошанд, ки арзиши ҳар як тағирёбанда ба ҳолати ҳодисаи қаблӣ такя мекунад.
Ҳангоми гирифтани акс, мо дар тӯли марҳилаи паҳншавии пеш ба он миқдори муайяни садо илова мекунем.
Пас аз нигоҳ доштани тасвири пурғавғо, мо ба эҷоди тасвири минбаъда дар силсила тавассути ҷорӣ кардани садои иловагӣ идома медиҳем.
Якчанд маротиба ин тартиб анҷом дода мешавад. Тасвири садои тоза аз такрори ин усул чанд маротиба ба вуҷуд меояд.
Пас, чӣ гуна мо метавонем аз ин тасвири печида тасвир эҷод кунем?
Раванди диффузия бо истифода аз а шабакаи нейралӣ. Дар раванди паҳншавии ақиб барои эҷоди тасвир аз t то t-1 ҳамон шабакаҳо ва ҳамон вазнҳо истифода мешаванд.
Ба ҷои он ки ба шабака иҷоза диҳад, ки тасвирро пешгӯӣ кунад, шумо метавонед кӯшиш кунед, ки садоро дар ҳар як қадам пешгӯӣ кунед, ки бояд аз тасвир хориҷ карда шавад, то ин вазифаро боз ҳам соддатар кунад.
Дар ҳама гуна сенария, тарҳрезии шабакаи нейронӣ бояд тавре интихоб карда шавад, ки андозаи маълумотро нигоҳ дорад.
Мубтало шудан ба модели диффузия
Қисмҳои модели диффузия як раванди пешравӣ (инчунин бо номи раванди диффузия маълум аст), ки дар он маълумот (аксар вақт тасвир) тадриҷан садо дода мешавад ва раванди баръакс (инчунин ҳамчун раванди диффузияи баръакс маълум аст), ки дар он садо дубора ба намуна аз тақсимоти мақсаднок табдил дода мешавад.
Вақте ки сатҳи садо ба қадри кофӣ паст аст, Гауссиҳои шартиро барои муқаррар кардани гузариши занҷири интихоб дар раванди пеш истифода бурдан мумкин аст. Параметризатсияи осони раванди пешравӣ дар натиҷаи пайвастани ин дониш бо фарзияи Марков:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
Дар ин ҷо як ....T ҷадвали дисперсияҳо (ё омӯхташуда ё собит) мебошад, ки барои T ба қадри кофӣ баланд кафолат медиҳад, ки xT амалан Гауссиан изотропӣ аст.
Раванди муқобил он аст, ки ҷодугарии модели диффузия рух медиҳад. Модел ҳангоми омӯзиш баргардонидани ин раванди паҳншавиро меомӯзад, то маълумоти навро тавлид кунад. Модели тақсимоти муштаракро ҳамчун (x0:T) натиҷаи оғоз бо муодилаи садои холиси Гаусс
(xT):=N(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, т))
ки дар он параметрхои аз вакт вобастаи гузаришхои Гаусс кашф карда мешаванд. Махсусан, ба он диққат диҳед, ки чӣ тавр формулаи Марков мегӯяд, ки тақсимоти гузариши баръакси додашуда танҳо аз марҳилаи қаблӣ (ё марҳилаи минбаъда, вобаста ба он, ки шумо ба он нигоҳ мекунед) вобаста аст:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Омӯзиши намунавӣ
Модели баръакси Марков, ки эҳтимолияти маълумоти омӯзишро ба ҳадди аксар мерасонад, барои омӯзиши модели диффузия истифода мешавад. Агар амалан гӯем, омӯзиш ба кам кардани сарҳади болоии вариант дар эҳтимолияти манфии гузориш шабеҳ аст.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
моделҳои
Ҳоло мо бояд тасмим гирем, ки модели диффузии худро пас аз муайян кардани асосҳои математикии функсияи ҳадафамон чӣ гуна иҷро кунем. Қарори ягонае, ки барои раванди пешфарз лозим аст, ин муайян кардани ҷадвали тафовут аст, ки арзишҳои онҳо одатан дар давоми раванд боло мераванд.
Мо ба таври қатъӣ истифодаи параметризатсияи тақсимоти Гаусс ва меъмории моделро барои тартиби баръакс баррасӣ мекунем.
Ягона шарти тарҳи мо ин аст, ки ҳам вуруд ва ҳам баромад як андоза доранд. Ин дараҷаи бузурги озодиро, ки Моделҳои диффузия таъмин мекунанд, таъкид мекунад.
Дар зер, мо дар бораи ин вариантҳо амиқтар меомӯзем.
Раванди пешрафт
Мо бояд ҷадвали тафовутро дар робита бо раванди пешрафт пешниҳод кунем. Мо онҳоро махсусан константаҳои вобаста ба вақт муқаррар кардем ва имкони омӯхтани онҳоро сарфи назар кардем. Ҷадвали хронологӣ аз
β1 = 10−4 ба βT = 0.02.
Lt нисбат ба маҷмӯи параметрҳои омӯхташавандаи мо аз ҳисоби ҷадвали собит тағирёбанда доимӣ мегардад ва ба мо имкон медиҳад, ки новобаста аз арзишҳои мушаххаси интихобшуда ҳангоми омӯзиш онро сарфи назар кунем.
Раванди баръакс
Мо ҳоло қарорҳои заруриро барои муайян кардани раванди баръакс мегузарем. Дар хотир доред, ки чӣ гуна мо гузаришҳои баръакси Марковро ҳамчун Гаусс тавсиф кардем:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Акнун, ки мо намудҳои функсионалӣ муайян кардем. Сарфи назар аз он, ки усулҳои мураккабтар барои параметрсозӣ вуҷуд доранд, мо танҳо муқаррар кардем
Σθ(xt, t) = σ 2 t I
σ 2 т = βт
Ба тарзи дигар гуем, мо Гаусси бисёртаъминро натиҷаи Гауссиҳои ҷудогона бо як дисперсия, арзиши дисперсия, ки метавонад бо мурури замон тағйир ёбад, мешуморем. Ин тафовутҳо барои мувофиқат ба ҷадвали инҳирофҳои раванди интиқол муқаррар карда шудаанд.
Дар натичаи ин формулаи нав, мо дорем:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)) :=N (xt−1; µθ (xt, t), σ2 t I)
Ин ба функсияи алтернативии талафот оварда мерасонад, ки дар зер нишон дода шудааст, ки муаллифон дарёфтанд, ки омӯзиши пайваста бештар ва натиҷаҳои олӣ ба даст оранд:
L содда(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Муаллифон инчунин робитаи байни ин формулаи моделҳои диффузия ва моделҳои тавлидкунандаи холҳои мувофиқро дар асоси Лангевин месозанд. Мисли рушди мустақил ва параллели физикаи квантӣ ва механикаи квантӣ бар матритса, ки ду формулаи муқоисашавандаи як зуҳуротро ошкор кардааст, чунин ба назар мерасад, ки моделҳои диффузия ва моделҳои ба хол асосёфта метавонанд ду тарафи як танга бошанд.
Муносибати шабакавӣ
Сарфи назар аз он, ки функсияи талафоти конденсавии мо ба таълими модел нигаронида шудааст Σθ, мо то ҳол дар бораи меъмории ин модел тасмим нагирифтаем. Дар хотир доред, ки модел танҳо бояд андозаи якхелаи вуруд ва баромад дошта бошад.
Бо назардошти ин маҳдудият, эҳтимолан ғайричашмдошт нест, ки меъмории ба U-Net монандро барои эҷоди моделҳои паҳншавии тасвирҳо истифода мебаранд.
Ҳангоми истифодаи тақсимоти шартии доимии Гауссӣ дар масири раванди баръакс тағйиротҳои зиёд ворид карда мешаванд. Дар хотир доред, ки ҳадафи тартиби баръакс эҷод кардани тасвирест, ки аз арзишҳои пикселии бутун иборат аст. Аз ин рӯ, муайян кардани эҳтимолияти дискретӣ (лог) барои ҳар як арзиши эҳтимолии пиксел дар ҳама пикселҳо зарур аст.
Ин тавассути таъини декодери алоҳидаи дискретӣ ба гузариши охирини занҷири диффузияи баръакс анҷом дода мешавад. баҳодиҳии имконияти тасвири муайян x0 дода х1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ агар x = 1 x + 1 255 агар x < 1 δ−(x) = −∞ агар x = −1 x − 1 255 агар x > −1 бошад
ки дар он сатр I истихроҷи як координата ва D шумораи андозаҳои маълумотро ифода мекунад.
Ҳадаф дар ин лаҳза муқаррар кардани эҳтимолияти ҳар як арзиши бутун барои як пиксели мушаххас бо назардошти тақсимоти арзишҳои эҳтимолии ин пиксел дар вақти тағйирёбанда мебошад. t=1.
Ҳадафи ниҳоӣ
Натиҷаҳои бузургтарин, ба гуфтаи олимон, аз пешгӯии ҷузъи садои тасвир дар як марҳилаи муайян ба даст омадаанд. Дар ниҳоят, онҳо ҳадафҳои зеринро истифода мебаранд:
L содда(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Дар тасвири зерин, тартиби омӯзиш ва интихоби модели диффузияи мо ба таври мухтасар тасвир шудааст:
Манфиатҳои модели диффузия
Тавре ки аллакай зикр гардид, миқдори тадқиқот оид ба моделҳои диффузӣ дар вақтҳои охир зиёд шудааст. Моделҳои диффузия ҳоло сифати беҳтарини тасвирро пешкаш мекунанд ва аз термодинамикаи ғайримувозинат илҳом гирифта шудаанд.
Моделҳои диффузия бар замми доштани сифати беҳтарини тасвир бартариҳои мухталифи дигарро фароҳам меоранд, аз қабили омӯзиши рақобатро талаб намекунанд.
Камбудиҳои омӯзиши рақобат ба таври васеъ маълуманд, аз ин рӯ аксар вақт интихоби алтернативаҳои ғайримуқаррарӣ бо нишондиҳандаҳои баробар ва самаранокии таълим беҳтар аст.
Моделҳои диффузия инчунин бартариҳои миқёспазирӣ ва параллелизатсияро аз ҷиҳати самаранокии омӯзиш таъмин мекунанд.
Ҳарчанд Моделҳои диффузия ба назар чунин менамояд, ки аз ҳавои нозук натиҷаҳо ба вуҷуд меоранд, асоси ин натиҷаҳоро як қатор қарорҳо ва нозукиҳои математикии боандеша ва ҷолиб гузоштаанд ва таҷрибаҳои беҳтарини соҳа то ҳол таҳия карда мешаванд.
хулоса
Хулоса, муҳаққиқон бозёфтҳои баландсифати синтези тасвирҳоро бо истифода аз моделҳои эҳтимолии диффузия, як синфи моделҳои тағирёбандаи ниҳонӣ, ки бо ғояҳои термодинамикаи ғайримувозинат асос ёфтаанд, нишон медиҳанд.
Онҳо ба шарофати натиҷаҳои замонавии худ ва омӯзиши бидуни рақобат ба дастовардҳои бузург ноил шуданд ва бо назардошти тифлашон, пешрафтҳои бештарро дар солҳои оянда интизор шудан мумкин аст.
Махсусан, маълум шудааст, ки моделҳои диффузия барои фаъолияти моделҳои пешрафта ба монанди DALL-E 2 аҳамияти ҳалкунанда доранд.
Дар ин ҷо шумо метавонед ба тадқиқоти пурра дастрасӣ пайдо кунед.
Дин ва мазҳаб