W ostatnich latach modele generatywne zwane „modelami dyfuzyjnymi” stają się coraz bardziej popularne i nie bez powodu.
Świat zobaczył, do czego zdolne są modele dyfuzji, takie jak przewyższanie GAN w zakresie syntezy obrazów, dzięki kilku wybranym przełomowym publikacjom opublikowanym tylko w latach 2020 i 2021.
Praktycy ostatnio widzieli zastosowanie modeli dyfuzji w: DALL-E2, model tworzenia obrazu OpenAI, który został opublikowany w zeszłym miesiącu.
Wielu praktyków uczenia maszynowego jest niewątpliwie ciekawych wewnętrznego działania modeli dyfuzji, biorąc pod uwagę ich niedawny wzrost sukcesu.
W tym poście przyjrzymy się teoretycznym podstawom modeli dyfuzyjnych, ich konstrukcji, zaletom i wielu innym. Kontynuujmy.
Czym jest model dyfuzji?
Zacznijmy od ustalenia, dlaczego ten model jest określany jako model dyfuzyjny.
Słowo związane z termodynamiką na lekcjach fizyki nazywa się dyfuzja. System nie jest w równowadze, jeśli w jednym miejscu występuje duże stężenie materiału, takiego jak zapach.
Aby system osiągnął równowagę, musi nastąpić dyfuzja. Cząsteczki zapachu dyfundują w całym systemie z obszaru o wyższym stężeniu, dzięki czemu system jest jednolity.
Wszystko w końcu staje się jednorodne dzięki dyfuzji.
Modele dyfuzji są motywowane tym termodynamicznym warunkiem nierównowagi. Modele dyfuzji wykorzystują łańcuch Markowa, który jest serią zmiennych, w których wartość każdej zmiennej zależy od stanu poprzedniego zdarzenia.
Robiąc zdjęcie, sukcesywnie dodajemy do niego określoną ilość szumu przez całą fazę dyfuzji do przodu.
Po zapisaniu bardziej zaszumionego obrazu przystępujemy do tworzenia kolejnego obrazu w serii wprowadzając dodatkowy szum.
Kilka razy ta procedura jest wykonywana. Obraz z czystym szumem wynika z kilkukrotnego powtórzenia tej metody.
Jak więc stworzyć obraz z tego zagraconego obrazu?
Proces dyfuzji jest odwracany za pomocą a sieci neuronowe. Te same sieci i te same wagi są używane w procesie dyfuzji wstecznej do tworzenia obrazu od t do t-1.
Zamiast pozwolić sieci na przewidywanie obrazu, można próbować przewidzieć na każdym kroku szum, który należy usunąć z obrazu, aby jeszcze bardziej uprościć zadanie.
W każdym scenariuszu projektowanie sieci neuronowych muszą być wybrane w sposób, który zachowuje wymiarowość danych.
Zanurz się głęboko w model dyfuzji
Składnikami modelu dyfuzji są proces postępujący (znany również jako proces dyfuzji), w którym punkt odniesienia (często obraz) jest stopniowo zaszumiony, oraz proces odwrotny (znany również jako proces odwróconej dyfuzji), w którym szum jest przekonwertowane z powrotem na próbkę z dystrybucji docelowej.
Gdy poziom szumu jest wystarczająco niski, warunkowe Gaussy mogą być użyte do ustalenia przejść łańcucha próbkowania w procesie do przodu. Łatwość parametryzacji procesu forward wynika z połączenia tej wiedzy z założeniem Markowa:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
Tutaj 1 ....T jest rozkładem wariancji (albo wyuczonym, albo ustalonym), który zapewnia, dla wystarczająco wysokiego T, że xT jest praktycznie izotropowym gaussowskim.
W odwrotnym procesie zachodzi magia modelu dyfuzji. Model uczy się odwracać ten proces dyfuzji podczas uczenia w celu uzyskania świeżych danych. Model uczy się wspólnego rozkładu jako (x0:T) wynik wyjścia z czystego równania szumu Gaussa
(xT):=N(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))
gdzie odkryto zależne od czasu parametry przejść Gaussa. W szczególności zwróć uwagę na to, jak sformułowanie Markowa stwierdza, że dany rozkład przejścia odwróconej dyfuzji zależy wyłącznie od poprzedniego kroku czasowego (lub kolejnego kroku czasowego, w zależności od tego, jak na to spojrzysz):
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Trening modelowy
Odwrócony model Markowa, który maksymalizuje prawdopodobieństwo danych uczących, jest używany do uczenia modelu dyfuzji. Praktycznie rzecz biorąc, uczenie jest analogiczne do zmniejszania górnej granicy wariacyjnej prawdopodobieństwa logarytmu ujemnego.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
modele
Teraz musimy zdecydować, jak wykonać nasz model dyfuzji po ustaleniu matematycznych podstaw naszej funkcji celu. Jedyną decyzją potrzebną w procesie forward jest określenie harmonogramu wariancji, którego wartości zwykle rosną w trakcie procedury.
Zdecydowanie rozważamy użycie parametryzacji rozkładu Gaussa i architektury modelu dla procedury odwrotnej.
Jedynym warunkiem naszego projektu jest to, aby zarówno wejście, jak i wyjście miały te same wymiary. Podkreśla to ogromny stopień swobody, jaki zapewniają modele dyfuzyjne.
Poniżej omówimy bardziej szczegółowo te opcje.
Proces przekazywania
Musimy dostarczyć harmonogram wariancji w odniesieniu do procesu forward. Specjalnie ustawiliśmy je jako stałe zależne od czasu i zignorowaliśmy możliwość, że można się ich nauczyć. Harmonogram chronologiczny od
β1 = 10−4 do βT = 0.02.
Lt staje się stałą w odniesieniu do naszego zestawu parametrów do nauki dzięki ustalonemu harmonogramowi wariancji, co pozwala nam ignorować go podczas treningu niezależnie od wybranych określonych wartości.
Proces odwrotny
Omówimy teraz decyzje potrzebne do zdefiniowania procesu odwrotnego. Pamiętaj, jak opisaliśmy odwrotne przejścia Markowa jako Gaussa:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Teraz, gdy zidentyfikowaliśmy typy funkcjonalne. Pomimo faktu, że istnieje więcej skomplikowanych technik do parametryzacji, po prostu ustawiamy
Σθ(xt, t) = σ 2 t I
σ 2 t = β t
Innymi słowy, uważamy, że wielowymiarowy gauss jest wynikiem oddzielnych gaussów o tej samej wariancji, wartości wariancji, która może zmieniać się w czasie. Te odchylenia są ustawione zgodnie z harmonogramem odchyleń procesu przesyłania.
W wyniku tego nowego sformułowania, mamy:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)) :=N (xt−1; µθ (xt, t), σ2 t I)
Powoduje to alternatywną funkcję straty pokazaną poniżej, która według autorów zapewnia bardziej spójny trening i lepsze wyniki:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Autorzy kreślą również powiązania między tym sformułowaniem modeli dyfuzji a modelami generatywnymi opartymi na wynikach Langevina. Podobnie jak w przypadku niezależnego i równoległego rozwoju fizyki kwantowej opartej na falach i mechaniki kwantowej opartej na macierzach, które ujawniły dwa porównywalne sformułowania tego samego zjawiska, wydaje się, że modele dyfuzji i modele oparte na wynikach mogą być dwiema stronami tego samego medalu.
Architektura sieci
Pomimo faktu, że nasza skondensowana funkcja straty ma na celu wytrenowanie modelu Σθ, wciąż nie zdecydowaliśmy się na architekturę tego modelu. Pamiętaj, że model musi po prostu mieć te same wymiary wejściowe i wyjściowe.
Biorąc pod uwagę to ograniczenie, prawdopodobnie nie jest nieoczekiwane, że architektury podobne do U-Net są często wykorzystywane do tworzenia modeli rozproszenia obrazu.
Na trasie procesu odwrotnego wprowadzane są liczne zmiany przy użyciu ciągłych warunkowych rozkładów Gaussa. Pamiętaj, że celem odwrotnej procedury jest stworzenie obrazu złożonego z wartości całkowitych pikseli. Dlatego konieczne jest określenie dyskretnych (log) prawdopodobieństw dla każdej potencjalnej wartości piksela we wszystkich pikselach.
Odbywa się to poprzez przypisanie oddzielnego dekodera dyskretnego do ostatniego przejścia łańcucha odwrotnej dyfuzji. szacowanie szansy na dany obraz x0 dany x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ jeśli x = 1 x + 1 255 jeśli x < 1 δ−(x) = −∞ jeśli x = −1 x − 1 255 jeśli x > −1
gdzie indeks górny I oznacza wyodrębnienie jednej współrzędnej, a D oznacza liczbę wymiarów w danych.
Celem w tym momencie jest ustalenie prawdopodobieństwa wystąpienia każdej wartości całkowitej dla określonego piksela, biorąc pod uwagę rozkład potencjalnych wartości dla tego piksela w zmiennych w czasie t=1.
Cel końcowy
Według naukowców, najlepsze wyniki osiągnięto dzięki prognozowaniu składowej szumu obrazu w określonym przedziale czasowym. W końcu realizują następujący cel:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Na poniższym rysunku zwięźle przedstawiono procedury uczenia i pobierania próbek dla naszego modelu dyfuzji:
Korzyści z modelu dyfuzji
Jak już wskazano, liczba badań nad modelami dyfuzyjnymi zwielokrotniła się w ostatnim czasie. Modele dyfuzyjne zapewniają teraz najnowocześniejszą jakość obrazu i są inspirowane termodynamiką nierównowagową.
Modele dyfuzyjne zapewniają wiele innych zalet oprócz najwyższej jakości obrazu, takich jak brak konieczności przeszkolenia przeciwnika.
Wady treningu kontradyktoryjnego są powszechnie znane, dlatego często preferuje się wybór niekontradykcyjnych alternatyw o równoważnej wydajności i skuteczności treningu.
Modele dyfuzji zapewniają również zalety skalowalności i równoległości pod względem efektywności szkolenia.
Chociaż modele dyfuzji wydają się generować wyniki pozornie znikąd, podstawą tych wyników jest szereg przemyślanych i interesujących decyzji matematycznych i subtelności, a najlepsze praktyki branżowe wciąż są opracowywane.
Wnioski
Podsumowując, naukowcy demonstrują wysokiej jakości wyniki syntezy obrazów, wykorzystując modele probabilistyczne dyfuzji, klasę modeli zmiennych utajonych motywowanych pomysłami z termodynamiki nierównowagi.
Osiągnęli ogromne rzeczy dzięki swoim najnowocześniejszym wynikom i niekontrawersyjnemu szkoleniu, a biorąc pod uwagę ich niemowlęctwo, można spodziewać się dalszych postępów w nadchodzących latach.
W szczególności odkryto, że modele dyfuzyjne mają kluczowe znaczenie dla funkcjonalności zaawansowanych modeli, takich jak DALL-E 2.
Tutaj możesz uzyskać dostęp do pełnych badań.
Dodaj komentarz