Spis treści[Ukryć][Pokazać]
Ogólnie rzecz biorąc, głębokie modele generatywne, takie jak GAN, VAE i modele autoregresyjne, radzą sobie z problemami syntezy obrazów.
Biorąc pod uwagę wysoką jakość tworzonych danych, w ostatnich latach wiele uwagi poświęcono generatywnym sieciom adwersarzy (GAN).
Modele dyfuzji to kolejna fascynująca dziedzina badań, która się ugruntowała. Pola generowania obrazu, wideo i głosu znalazły szerokie zastosowanie dla obu z nich.
Modele dyfuzji a GAN: co daje lepsze wyniki? Oczywiście doprowadziło to do trwającej dyskusji.
W architekturze obliczeniowej znanej jako GAN dwa sieci neuronowe walczą ze sobą w celu stworzenia nowo zsyntetyzowanych instancji danych, które mogą uchodzić za prawdziwe dane.
Modele dyfuzyjne stają się coraz bardziej popularne, ponieważ zapewniają stabilność treningu i wysokie wyniki w produkcji muzyki i grafiki.
W tym artykule szczegółowo omówimy model dyfuzji i GAN, a także różnice między nimi i kilka innych rzeczy.
Czym więc są generatywne sieci adwersarzy?
Aby stworzyć nowe, sztuczne instancje danych, które można pomylić z prawdziwymi danymi, generatywne sieci adwersarzy (GAN) wykorzystują dwie sieci neuronowe i zestawiają je ze sobą (stąd „przeciwnik” w nazwie).
Są szeroko wykorzystywane do tworzenia mowy, wideo i obrazów.
Celem GAN jest tworzenie wcześniej nieodkrytych danych z określonego zbioru danych. Próba wywnioskowania modelu rzeczywistej, niezidentyfikowanej podstawowej dystrybucji danych z próbek, czyni to.
Można też powiedzieć, że sieci te są niejawnymi modelami, które próbują poznać określony rozkład statystyczny.
Metoda wykorzystana przez GAN do odkrycia, jak osiągnąć ten cel, była nowatorska. W rzeczywistości wytwarzają dane, grając w grę dla dwóch graczy, aby opracować ukryty model.
Poniżej opisano strukturę:
- dyskryminator, który zyskuje umiejętność rozróżniania danych autentycznych od fałszywych
- generator, który wybiera nowe sposoby tworzenia danych, może oszukać dyskryminatora.
Dyskryminator udaje sieć neuronową. Dlatego generator musi stworzyć obraz o wysokiej jakości, aby go oszukać.
Fakt, że te generatory nie są szkolone przy użyciu żadnego rozkładu wyjściowego, stanowi istotną różnicę między modelami autokodera a innymi modelami.
Istnieją dwa sposoby dekompozycji funkcji straty modelu:
- umiejętność ilościowego określenia, czy dyskryminator dokładnie przewiduje rzeczywiste dane
- generowane dane są dokładnie przewidywane przez porcję.
Na najlepszym możliwym dyskryminatorze ta funkcja straty jest następnie minimalizowana:
Modele generyczne można zatem traktować jako modele minimalizacji odległości i, jeśli dyskryminator jest idealny, jako minimalizację rozbieżności między rzeczywistym a wytworzonym rozkładem.
W rzeczywistości mogą być zastosowane różne rozbieżności, które mogą skutkować różnymi metodami treningu GAN.
Dynamika uczenia się, która obejmuje kompromis między generatorem a dyskryminatorem, jest trudna do naśladowania, mimo że łatwo jest dostosować funkcję strat GAN.
Nie ma również gwarancji, że uczenie się będzie zbieżne. W rezultacie uczenie modelu GAN jest trudne, ponieważ typowo napotyka się problemy, takie jak znikające gradienty i zanikanie modów (gdy nie ma różnorodności w wygenerowanych próbkach).
Teraz nadszedł czas na modele dyfuzyjne
Problem konwergencji treningu GAN został rozwiązany poprzez opracowanie modeli dyfuzji.
Modele te zakładają, że proces dyfuzji jest równoważny utracie informacji spowodowanej postępującą interferencją szumu (szum gaussowski jest dodawany na każdym etapie procesu dyfuzji).
Celem takiego modelu jest określenie, w jaki sposób szum wpływa na informacje obecne w próbce lub, inaczej mówiąc, ile informacji jest traconych w wyniku dyfuzji.
Jeśli model może to rozgryźć, powinien być w stanie odzyskać oryginalną próbkę i cofnąć utratę informacji, która nastąpiła.
Osiąga się to poprzez odszumiający model dyfuzji. Proces dyfuzji do przodu i proces dyfuzji odwróconej składają się na dwa etapy.
Proces dyfuzji do przodu obejmuje stopniowe dodawanie szumu Gaussa (tj. proces dyfuzji), aż dane zostaną całkowicie zanieczyszczone szumem.
Sieć neuronowa jest następnie szkolona przy użyciu metody odwróconej dyfuzji, aby poznać prawdopodobieństwa rozkładu warunkowego w celu odwrócenia szumu.
Tutaj możesz dowiedzieć się więcej na temat model dyfuzyjny.
Model dyfuzji Vs GAN
Podobnie jak model dyfuzyjny, GAN wytwarzają obrazy z szumu.
Model składa się z sieci neuronowej generatora, która zaczyna się od szumu jakiejś informacyjnej zmiennej warunkującej, takiej jak etykieta klasy lub kodowanie tekstu.
Rezultatem powinno być zatem coś, co przypomina realistyczny obraz.
Aby tworzyć fotorealistyczne i wierne generacje obrazów, wykorzystujemy GAN. Jeszcze bardziej realistyczne wizualizacje niż GAN są tworzone przy użyciu modeli dyfuzji.
W pewnym sensie modele dyfuzji dokładniej opisują fakty.
Podczas gdy GAN przyjmuje jako dane wejściowe losowy szum lub zmienną warunkową klasy i generuje realistyczną próbkę, modele dyfuzji są często wolniejsze, iteracyjne i wymagają znacznie więcej wskazówek.
Nie ma zbyt wiele miejsca na błędy, gdy odszumianie jest stosowane wielokrotnie w celu powrotu do oryginalnego obrazu z szumu.
Każdy punkt kontrolny przechodzi przez cały etap tworzenia, a z każdym krokiem obraz może zdobywać coraz więcej informacji.
Wnioski
Podsumowując, ze względu na niewiele znaczących badań, które opublikowano dopiero w latach 2020 i 2021, modele dyfuzji mogą teraz przewyższać GAN pod względem syntezy obrazu.
W tym roku uruchomiono OpenAI DALL-E2, model produkcji obrazu, który umożliwia praktykom stosowanie modeli dyfuzji.
Chociaż sieci GAN są najnowocześniejsze, ich ograniczenia sprawiają, że trudno jest je skalować i używać w nowych kontekstach.
Aby osiągnąć jakość próbki zbliżoną do GAN przy użyciu modeli opartych na prawdopodobieństwie, włożono w to wiele pracy.
Dodaj komentarz