So'nggi yillarda "diffuziya modellari" deb nomlangan generativ modellar tobora ommalashib bormoqda va yaxshi sabablarga ko'ra.
2020 va 2021 yillarda chop etilgan bir nechta muhim nashrlar tufayli dunyo diffuziya modellari nimalarga qodirligini ko'rdi, masalan, rasm sintezi bo'yicha GAN-dan ustunroq.
Amaliyotchilar yaqinda diffuziya modellaridan foydalanishni ko'rdilar DALL-E2, O'tgan oy nashr etilgan OpenAIning tasvir yaratish modeli.
Mashinani o'rganish bo'yicha ko'plab amaliyotchilar, shubhasiz, diffuziya modellarining ichki ishlashi bilan qiziqadi, chunki ularning so'nggi yutuqlari.
Ushbu postda biz Diffuziya modellarining nazariy asoslarini, ularning dizaynini, afzalliklarini va boshqa ko'p narsalarni ko'rib chiqamiz. Keling, boraylik.
Diffuziya modeli nima?
Keling, ushbu model nima uchun diffuziya modeli deb ataladiganini aniqlashdan boshlaylik.
Fizika darslarida termodinamika bilan bog'liq bo'lgan so'z diffuziya deyiladi. Agar bitta joyda hid kabi moddaning katta kontsentratsiyasi bo'lsa, tizim muvozanatda emas.
Tizim muvozanatga kirishi uchun diffuziya sodir bo'lishi kerak. Hid molekulalari yuqori konsentratsiyali hududdan butun tizim bo'ylab tarqalib, tizimni bir xil qiladi.
Diffuziya tufayli hamma narsa oxir-oqibat bir hil bo'ladi.
Diffuziya modellari ushbu termodinamik nomutanosiblik sharti bilan turtki bo'ladi. Diffuziya modellari Markov zanjiridan foydalanadi, bu har bir o'zgaruvchining qiymati oldingi hodisa holatiga bog'liq bo'lgan bir qator o'zgaruvchilardir.
Suratga olayotganda, biz oldinga tarqalish bosqichida unga ma'lum miqdordagi shovqinni ketma-ket qo'shamiz.
Shovqinli tasvirni saqlaganimizdan so'ng, biz qo'shimcha shovqinni kiritish orqali seriyadagi keyingi tasvirni yaratishga kirishamiz.
Ushbu protsedura bir necha marta amalga oshiriladi. Ushbu usulni bir necha marta takrorlash natijasida sof shovqinli rasm paydo bo'ladi.
Qanday qilib bu chigal tasvirdan rasm yaratishimiz mumkin?
Diffuziya jarayoni a yordamida teskari bo'ladi neyron tarmoq. t dan t-1 gacha bo'lgan rasmni yaratish uchun orqaga diffuziya jarayonida bir xil tarmoqlar va bir xil og'irliklar qo'llaniladi.
Tarmoqqa rasmni oldindan ko'rishga ruxsat berish o'rniga, vazifani yanada soddalashtirish uchun har bir qadamda shovqinni bashorat qilishga harakat qilish mumkin, bu esa tasvirdan olib tashlanishi kerak.
Har qanday stsenariyda, neyron tarmoq dizayni ma'lumotlar o'lchovliligini saqlaydigan tarzda tanlanishi kerak.
Diffuziya modeliga chuqur kirib boring
Diffuziya modelining tarkibiy qismlari oldingi jarayon (diffuziya jarayoni deb ham ataladi), bunda ma'lumotlar (ko'pincha tasvir) asta-sekin shovqin qiladi va teskari jarayon (teskari diffuziya jarayoni deb ham ataladi), shovqin. maqsadli taqsimotdan namunaga aylantiriladi.
Shovqin darajasi etarlicha past bo'lsa, oldinga jarayonda namuna olish zanjiri o'tishlarini o'rnatish uchun shartli Gausslardan foydalanish mumkin. Oldinga jarayonni oson parametrlash ushbu bilimlarni Markov taxmini bilan bog'lashdan kelib chiqadi:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − btxt−1, btI)
shu yerda bitta ....T - etarli darajada yuqori T uchun xT deyarli izotrop Gauss ekanligini ta'minlaydigan dispersiya jadvali (o'rganilgan yoki aniqlangan).
Qarama-qarshi jarayon diffuziya modeli sehrining sodir bo'lishidir. Model yangi ma'lumotlarni ishlab chiqarish uchun trening davomida ushbu tarqalish jarayonini teskari o'zgartirishni o'rganadi. Model qo'shma taqsimotni o'rganadi (x0:T) sof Gauss shovqin tenglamasidan boshlash natijasi
(xT):=N(xT,0,I).
pth(x0:T ) := p(xT ) YT t=1 pth(xt−1|xt), pth(xt−1|xt) := N (xt−1; µth (xt, t), Sth( xt, t))
Bu erda Gauss o'tishlarining vaqtga bog'liq parametrlari ochiladi. Xususan, Markov formulasida berilgan teskari diffuziya o'tish taqsimoti faqat oldingi vaqt bosqichiga (yoki unga qanday qarashga qarab keyingi vaqt bosqichiga) bog'liqligini qanday ta'kidlaganiga e'tibor bering:
pth(xt−1|xt) := N (xt−1; µth (xt, t), Sth(xt, t))
Model tayyorlash
Diffuziya modelini o'rgatish uchun o'quv ma'lumotlarining ehtimolini maksimal darajada oshiradigan teskari Markov modeli qo'llaniladi. Amalda aytganda, mashg'ulot salbiy log ehtimoli bo'yicha o'zgaruvchan yuqori chegarani kamaytirishga o'xshaydi.
E [− log pth(x0)] ≤ Eq − log pth(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pth(xt−1|xt) q (xt|xt−1) =: L
modellar
Endi biz maqsad funktsiyamizning matematik asoslarini o'rnatganimizdan so'ng, diffuziya modelimizni qanday amalga oshirishni hal qilishimiz kerak. Oldinga jarayon uchun zarur bo'lgan yagona qaror, odatda protsedura davomida qiymatlari ko'tariladigan farqlar jadvalini aniqlashdir.
Biz teskari protsedura uchun Gauss taqsimot parametrlarini va model arxitekturasidan foydalanishni qat'iy ko'rib chiqamiz.
Dizaynimizning yagona sharti shundaki, kirish va chiqish bir xil o'lchamlarga ega. Bu Diffuziya modellari taqdim etadigan ulkan erkinlik darajasini ta'kidlaydi.
Quyida biz ushbu variantlar haqida batafsilroq to'xtalamiz.
Oldinga jarayoni
Oldinga jarayonga nisbatan farqlar jadvalini taqdim etishimiz kerak. Biz ularni vaqtga bog'liq konstantalar qilib belgiladik va ularni o'rganish imkoniyatini hisobga olmadik. dan xronologik jadval
b1 = 10−4 dan bT = 0.02 gacha.
Lt qat'iy belgilangan dispersiya jadvali tufayli o'rganish mumkin bo'lgan parametrlar to'plamiga nisbatan doimiy bo'lib qoladi, bu esa tanlangan muayyan qiymatlardan qat'i nazar, trening davomida uni e'tiborsiz qoldirishga imkon beradi.
Teskari jarayon
Endi biz teskari jarayonni aniqlash uchun zarur bo'lgan qarorlarni ko'rib chiqamiz. Teskari Markov o'tishlarini Gauss sifatida qanday tasvirlaganimizni eslang:
pth(xt−1|xt) := N (xt−1; µth (xt, t), Sth(xt, t))
Endi biz funktsional turlarni aniqladik. Parametrlashning yanada murakkab usullari mavjudligiga qaramay, biz shunchaki o'rnatdik
Sth(xt, t) = s 2 t I
s 2 t = bt
Boshqacha qilib aytadigan bo'lsak, biz ko'p o'lchovli Gaussni bir xil dispersiyaga ega bo'lgan alohida Gausslarning natijasi deb hisoblaymiz, vaqt o'tishi bilan o'zgarishi mumkin bo'lgan dispersiya qiymati. Ushbu og'ishlar jo'natish jarayonining og'ishlari jadvaliga mos keladigan tarzda o'rnatiladi.
Ushbu yangi formulaning natijasida, bizda ... bor:
pth(xt−1|xt) := N (xt−1; µth (xt, t), Sth(xt, t)) :=N (xt−1; µth (xt, t), s2 t I)
Bu quyida ko'rsatilgan muqobil yo'qotish funktsiyasiga olib keladi, bu mualliflar yanada izchil mashg'ulotlar va yuqori natijalarga olib kelishini aniqladilar:
Loddiy(th) := Et,x0, h − th( √ a¯tx0 + √ 1 − a¯t, t) 2
Mualliflar, shuningdek, diffuziya modellarining ushbu formulasi va Langevin asosidagi ballga mos keladigan generativ modellar o'rtasida bog'lanishni aniqlaydilar. Xuddi shu hodisalarning ikkita taqqoslanadigan formulasini ochib bergan to'lqinga asoslangan kvant fizikasi va matritsaga asoslangan kvant mexanikasining mustaqil va parallel rivojlanishida bo'lgani kabi, diffuziya modellari va ballga asoslangan modellar bir tanganing ikki tomoni bo'lishi mumkin.
Tarmoq me'morchiligi
Bizning siqilgan yo'qotish funksiyamiz modelni o'qitishga qaratilganligiga qaramay th, biz bu modelning arxitekturasi haqida hali qaror qilganimiz yo'q. Yodda tutingki, model oddiygina kirish va chiqish o'lchamlari bir xil bo'lishi kerak.
Ushbu cheklovni hisobga olgan holda, ehtimol, U-Net-ga o'xshash arxitekturalarning rasm diffuziya modellarini yaratish uchun tez-tez ishlatilishi kutilmagan emas.
Uzluksiz shartli Gauss taqsimotlaridan foydalanganda teskari jarayonning yo'nalishi bo'yicha ko'plab o'zgarishlar amalga oshiriladi. Esda tutingki, teskari protseduraning maqsadi butun piksel qiymatlaridan tashkil topgan rasmni yaratishdir. Shuning uchun barcha piksellar bo'yicha har bir potentsial piksel qiymati uchun diskret (log) ehtimolini aniqlash zarur.
Bu teskari diffuziya zanjirining oxirgi o'tishiga alohida diskret dekoderni belgilash orqali amalga oshiriladi. ma'lum bir tasvirning imkoniyatini baholash x0 hisobga x1.
pth(x0|x1) = YD i=1 Z d+(xi 0 ) d−(xi 0 ) N (x; m i th (x1, 1), s2 1 ) dx
d+(x) = ∞ agar x = 1 x + 1 255, agar x < 1 d−(x) = −∞ boʻlsa, x = −1 x − 1 255, agar x > −1 boʻlsa
Bu erda I ustun belgisi bitta koordinataning chiqarilishini, D esa ma'lumotlardagi o'lchamlar sonini bildiradi.
Ushbu nuqtadagi maqsad, vaqt o'zgarishi bo'yicha ushbu piksel uchun potentsial qiymatlarning taqsimlanishini hisobga olgan holda, ma'lum bir piksel uchun har bir butun qiymatning ehtimolini aniqlashdir. t=1.
Yakuniy maqsad
Olimlarning fikriga ko'ra, eng katta natijalar ma'lum bir vaqt oralig'ida rasmning shovqin komponentini prognoz qilishdan olingan. Oxir-oqibat, ular quyidagi maqsadlarga erishadilar:
Loddiy(th) := Et,x0, h − th( √ a¯tx0 + √ 1 − a¯t, t) 2
Quyidagi rasmda bizning diffuziya modelimiz uchun o'qitish va namuna olish tartiblari qisqacha tasvirlangan:
Diffuziya modelining afzalliklari
Yuqorida aytib o'tilganidek, so'nggi paytlarda diffuziya modellari bo'yicha tadqiqotlar ko'paydi. Diffuziya modellari endi eng zamonaviy tasvir sifatini taqdim etadi va muvozanatsiz termodinamikadan ilhomlangan.
Diffuziya modellari ilg'or tasvir sifatiga ega bo'lishdan tashqari boshqa ko'plab afzalliklarni ham beradi, masalan, qarama-qarshi tayyorgarlikni talab qilmaydi.
Qarama-qarshi mashg'ulotlarning kamchiliklari ko'pchilikka ma'lum, shuning uchun ko'pincha teng ko'rsatkichlar va ta'lim samaradorligi bilan qarama-qarshi bo'lmagan alternativalarni tanlash afzalroqdir.
Diffuziya modellari, shuningdek, o'qitish samaradorligi nuqtai nazaridan masshtablilik va parallellik afzalliklarini ta'minlaydi.
Garchi diffuziya modellari havodan tashqarida natijalarni keltirib chiqaradigan bo'lsa-da, bu natijalarning asosi bir qator o'ylangan va qiziqarli matematik qarorlar va nozikliklar tomonidan qo'yilgan va sanoatning eng yaxshi amaliyotlari hali ham ishlab chiqilmoqda.
Xulosa
Xulosa qilib aytganda, tadqiqotchilar muvozanatsiz termodinamika g'oyalari bilan asoslangan yashirin o'zgaruvchan modellar sinfi bo'lgan diffuziya ehtimollik modellaridan foydalangan holda yuqori sifatli tasvir sintezi natijalarini namoyish etadilar.
Ular o'zlarining ilg'or natijalari va qarama-qarshiliksiz mashg'ulotlari tufayli ulkan yutuqlarga erishdilar va ularning go'dakligini hisobga olsak, kelgusi yillarda yanada ko'proq yutuqlar kutilishi mumkin.
Xususan, diffuziya modellari DALL-E 2 kabi ilg'or modellarning funksionalligi uchun hal qiluvchi ahamiyatga ega ekanligi aniqlandi.
shu yerda to'liq tadqiqotga kirishingiz mumkin.
Leave a Reply