Diffuziya Modelinə Giriş

Mündəricat[Gizlət][Göstər]

Diffuziya modeli nədir?
Diffuziya Modelinə Dərin Dalış+-
Yekun Məqsəd
Diffuziya Modelinin Faydaları
Nəticə

Son illərdə "diffuziya modelləri" adlanan generativ modellər getdikcə populyarlaşır və yaxşı səbəblərə malikdir.

Yalnız 2020-ci və 2021-ci illərdə nəşr olunan bir neçə əlamətdar nəşr sayəsində dünya diffuziya modellərinin, məsələn, şəkil sintezində GAN-ları üstələmək kimi nələrə qadir olduğunu gördü.

Təcrübəçilər ən son diffuziya modellərinin istifadəsini gördülər DALL-E2, OpenAI-nin keçən ay dərc edilmiş imic yaratma modeli.

Bir çox Maşın Öyrənmə praktikantları, şübhəsiz ki, son müvəffəqiyyət artımını nəzərə alaraq Diffuziya Modellərinin daxili işləmələri ilə maraqlanırlar.

Bu yazıda biz Diffuziya Modellərinin nəzəri əsaslarına, onların dizaynına, üstünlüklərinə və daha çox şeyə baxacağıq. gedək.

Diffuziya modeli nədir?

Bu modelin niyə diffuziya modeli adlandırıldığını anlamağa başlayaq.

Fizika dərslərində termodinamika ilə əlaqəli sözə diffuziya deyilir. Bir yerdə qoxu kimi materialın böyük konsentrasiyası varsa, sistem tarazlıqda deyildir.

Sistemin tarazlığa girməsi üçün diffuziya baş verməlidir. Qoxunun molekulları daha yüksək konsentrasiyalı bölgədən bütün sistemə yayılaraq sistemi hər yerdə vahid edir.

Diffuziya səbəbindən hər şey nəticədə homojen olur.

Diffuziya modelləri bu termodinamik qeyri-tarazlıq şərti ilə motivasiya edilir. Diffuziya modelləri hər bir dəyişənin dəyərinin əvvəlki hadisənin vəziyyətindən asılı olduğu bir sıra dəyişənlər olan Markov zəncirindən istifadə edir.

Şəkil çəkərək, biz irəli diffuziya fazası boyunca ardıcıl olaraq ona müəyyən miqdarda səs-küy əlavə edirik.

Daha səs-küylü təsviri saxladıqdan sonra əlavə səs-küy tətbiq etməklə seriyada sonrakı təsviri yaratmağa davam edirik.

Bir neçə dəfə bu prosedur həyata keçirilir. Bu metodun bir neçə dəfə təkrarlanması nəticəsində təmiz səs-küy şəkli yaranır.

Bəs biz bu dağınıq şəkildən necə şəkil yarada bilərik?

Diffuziya prosesi a istifadə edərək tərsinə çevrilir neyron şəbəkə. t-dən t-1-ə qədər şəkil yaratmaq üçün geriyə diffuziya prosesində eyni şəbəkələr və eyni çəkilər istifadə olunur.

Şəbəkənin şəkili qabaqcadan görməsinə imkan vermək əvəzinə, tapşırığı daha da asanlaşdırmaq üçün hər addımda səs-küyü proqnozlaşdırmağa cəhd etmək olar ki, bu da görüntüdən silinməlidir.

İstənilən ssenaridə neyron şəbəkə dizaynı verilənlərin ölçüsünü saxlayacaq şəkildə seçilməlidir.

Diffuziya Modelinə Dərin Dalış

Diffuziya modelinin komponentləri irəli prosesdir (diffuziya prosesi kimi də tanınır), burada verilənlərin (çox vaxt təsvirin) tədricən səs-küylü olduğu və səs-küyün olduğu əks prosesdir (əks diffuziya prosesi kimi də tanınır). hədəf paylanmasından yenidən nümunəyə çevrilir.

Səs-küy səviyyəsi kifayət qədər aşağı olduqda, irəli prosesdə seçmə zəncirinin keçidlərini qurmaq üçün şərti Qausslardan istifadə edilə bilər. İrəli prosesin asan parametrləşdirilməsi bu biliklərin Markov fərziyyəsi ilə əlaqələndirilməsi nəticəsində əldə edilir:

q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)

Burada 1 ....T kifayət qədər yüksək T üçün xT-nin faktiki olaraq izotrop Qauss olduğunu təmin edən dispersiya cədvəlidir (ya öyrənilmiş və ya sabit).

Böyük T

Əks proses diffuziya modeli sehrinin baş verdiyi yerdir. Model yeni məlumatlar əldə etmək üçün təlim zamanı bu diffuziya prosesini tərsinə çevirməyi öyrənir. Model birgə paylanma kimi öyrənir (x0:T) təmiz Qauss səs-küy tənliyi ilə başlamanın nəticəsi

(xT):=N(xT,0,I).

pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))

burada Qauss keçidlərinin zamandan asılı parametrləri aşkar edilir. Xüsusilə, Markov tənzimləməsinin əks diffuziya keçidinin paylanmasının yalnız əvvəlki zaman addımından (və ya ona necə baxdığınızdan asılı olaraq sonrakı zaman addımından) asılı olduğunu necə ifadə etdiyinə diqqət yetirin:

pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))

Model Təlimi

Diffuziya modelini hazırlamaq üçün təlim məlumatlarının ehtimalını maksimuma çatdıran əks Markov modeli istifadə olunur. Praktiki olaraq desək, təlim mənfi log ehtimalında variasiya yuxarı sərhədinin azaldılmasına bənzəyir.

E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L

Models

İndi məqsəd funksiyamızın riyazi əsaslarını qurduqdan sonra Diffuziya Modelimizi necə yerinə yetirəcəyimizə qərar verməliyik. İrəli proses üçün lazım olan yeganə qərar, adətən prosedur zamanı dəyərləri yüksələn fərq cədvəlinin müəyyən edilməsidir.

Əks prosedur üçün Gauss paylama parametrləşdirməsi və model arxitekturasından istifadə etməyi ciddi şəkildə nəzərdən keçiririk.

Dizaynımızın yeganə şərti həm girişin, həm də çıxışın eyni ölçülərə malik olmasıdır. Bu, Diffuziya Modellərinin təmin etdiyi böyük sərbəstlik dərəcəsini vurğulayır.

Aşağıda bu seçimlər haqqında daha ətraflı məlumat verəcəyik.

İrəli Proses

İrəli proseslə bağlı fərq cədvəlini təqdim etməliyik. Biz onları xüsusi olaraq zamandan asılı sabitlər olaraq təyin etdik və onların öyrənilə bilmə ehtimalını nəzərə almadıq. Xronoloji cədvəldən

β1 = 10−4 - βT = 0.02.

Lt sabit dispersiya cədvəlinə görə öyrənilə bilən parametrlər dəstimizə münasibətdə sabitə çevrilir və seçilmiş xüsusi dəyərlərdən asılı olmayaraq təlim zamanı buna məhəl qoymamağa imkan verir.

Əks Proses

İndi əks prosesi müəyyən etmək üçün lazım olan qərarları nəzərdən keçiririk. Ters Markov keçidlərini Qauss kimi necə təsvir etdiyimizi xatırlayın:

pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))

İndi funksional növləri müəyyən etdik. Parametrləşdirmə üçün daha mürəkkəb üsulların olmasına baxmayaraq, biz sadəcə təyin etdik

Σθ(xt, t) = σ 2 t I

σ 2 t = βt

Başqa cür desək, çoxdəyişənli Qaussları eyni dispersiyaya malik olan ayrı-ayrı Qaussların nəticəsi hesab edirik, zamanla dəyişə bilən dispersiya dəyəri. Bu kənarlaşmalar ötürmə prosesinin sapmalarının cədvəlinə uyğun olaraq təyin edilir.

Bu yeni formulasiya nəticəsində, bizdə:

pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)) :=N (xt−1; µθ (xt, t), σ2 t I)

Bu, aşağıda göstərilən alternativ itki funksiyası ilə nəticələnir ki, bu da müəlliflərin daha ardıcıl təlim və üstün nəticələr verdiyini aşkar edib:

Lsadə(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2

Müəlliflər həmçinin diffuziya modellərinin bu formalaşdırılması ilə Lanqevinə əsaslanan hesaba uyğun gələn generativ modellər arasında əlaqə qururlar. Dalğa əsaslı kvant fizikası və matris əsaslı kvant mexanikasının müstəqil və paralel inkişafı ilə eyni hadisələrin iki müqayisəli formulunu ortaya qoyan kimi, belə görünür ki, Diffuziya Modelləri və Hesab əsaslı modellər eyni sikkənin iki tərəfi ola bilər.

Şəbəkə Mimarisi

Baxmayaraq ki, bizim sıxlaşdırılmış itki funksiyamız bir model yetişdirmək məqsədi daşıyır Σθ, bu modelin arxitekturasına hələ də qərar verməmişik. Unutmayın ki, model sadəcə eyni giriş və çıxış ölçülərinə malik olmalıdır.

Bu məhdudiyyəti nəzərə alsaq, yəqin ki, U-Net kimi arxitekturaların şəkil diffuziya modelləri yaratmaq üçün tez-tez istifadə olunması gözlənilməz deyil.

Şəbəkə Mimarisi

Davamlı şərti Qauss paylamalarından istifadə edərkən əks prosesin marşrutu boyunca çoxsaylı dəyişikliklər edilir. Unutmayın ki, əks prosedurun məqsədi tam piksel dəyərlərindən ibarət bir şəkil yaratmaqdır. Buna görə də bütün piksellər üzərində hər bir potensial piksel dəyəri üçün diskret (log) ehtimallarının müəyyən edilməsi zəruridir.

Bu, əks diffuziya zəncirinin son keçidinə ayrıca diskret dekoder təyin etməklə həyata keçirilir. müəyyən bir görüntünün şansını qiymətləndirmək x0 verilmiş x1.

pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx

δ+(x) = ∞ əgər x = 1 x + 1 255 əgər x < 1 δ−(x) = −∞ əgər x = −1 x − 1 255 x > −1 olarsa

burada yuxarı yazı I bir koordinatın çıxarılmasını, D isə verilənlərdəki ölçülərin sayını bildirir.

Bu nöqtədə məqsəd, zamanla dəyişən bu piksel üçün potensial dəyərlərin paylanması nəzərə alınmaqla, konkret piksel üçün hər bir tam dəyərin ehtimalını müəyyən etməkdir. t=1.

Yekun Məqsəd

Alimlərin fikrincə, ən böyük nəticələr şəkilin səs-küy komponentinin müəyyən bir zaman aralığında proqnozlaşdırılmasından əldə olunub. Sonda onlar aşağıdakı məqsədə nail olurlar:

Lsadə(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2

Aşağıdakı şəkildə, diffuziya modelimiz üçün təlim və nümunə götürmə prosedurları qısa şəkildə təsvir edilmişdir:

Yekun Məqsəd

Diffuziya Modelinin Faydaları

Artıq qeyd edildiyi kimi, son zamanlar diffuziya modelləri üzrə tədqiqatların həcmi çoxalmışdır. Diffuziya Modelləri indi ən müasir təsvir keyfiyyətini təqdim edir və qeyri-tarazlıq termodinamikasından ilhamlanır.

Diffuziya modelləri ən müasir şəkil keyfiyyətinə malik olmaqla yanaşı, rəqib təlim tələb etməmək kimi bir sıra digər üstünlükləri də təmin edir.

Rəqib təlimin çatışmazlıqları geniş şəkildə məlumdur, buna görə də tez-tez ekvivalent performans və təlim effektivliyi ilə rəqib olmayan alternativləri seçmək üstünlük təşkil edir.

Diffuziya modelləri həmçinin təlimin effektivliyi baxımından miqyaslılıq və paralellik üstünlüklərini təmin edir.

Diffuziya Modelləri zahirən havadan çıxan nəticələr yaratsa da, bu nəticələrin əsasını bir sıra düşünülmüş və maraqlı riyazi qərarlar və incəliklər qoyur və sənayenin ən yaxşı təcrübələri hələ də inkişaf etdirilir.

Nəticə

Yekun olaraq, tədqiqatçılar qeyri-tarazlıq termodinamikasının ideyaları ilə əsaslandırılmış gizli dəyişən modellər sinfi olan diffuziya ehtimal modellərindən istifadə edərək yüksək keyfiyyətli şəkil sintezi tapıntılarını nümayiş etdirirlər.

Onlar ən müasir nəticələri və rəqibsiz təlimləri sayəsində çox böyük nailiyyətlər əldə ediblər və körpəliklərini nəzərə alaraq, gələcək illərdə daha çox irəliləyişlər gözlənilə bilər.

Xüsusilə, diffuziya modellərinin DALL-E 2 kimi qabaqcıl modellərin funksionallığı üçün çox vacib olduğu aşkar edilmişdir.

Burada tam araşdırmaya daxil ola bilərsiniz.

Diffuziya Modelinə Giriş

Diffuziya modeli nədir?