В общем, глубокие генеративные модели, такие как GAN, VAE и авторегрессионные модели, решают проблемы синтеза изображений.
Учитывая высокое качество создаваемых ими данных, в последние годы генеративно-состязательные сети (GAN) получили большое внимание.
Модели диффузии — еще одна зарекомендовавшая себя увлекательная область исследований. Области генерации изображений, видео и голоса нашли широкое применение для обоих из них.
Модели распространения против GAN: что дает лучшие результаты? Естественно, это вызвало непрекращающуюся дискуссию.
В вычислительной архитектуре, известной как GAN, два нейронные сети сражаются друг с другом за создание вновь синтезированных экземпляров данных, которые могут сойти за подлинные данные.
Диффузионные модели становятся все более популярными, поскольку обеспечивают стабильность обучения и высокие результаты при создании музыки и графики.
В этой статье будет подробно рассмотрена модель распространения и GAN, а также то, чем они отличаются друг от друга, и некоторые другие вещи.
Итак, что такое генеративно-состязательные сети?
Чтобы создавать новые искусственные экземпляры данных, которые могут быть ошибочно приняты за подлинные данные, генеративно-состязательные сети (GAN) используют две нейронные сети и противопоставляют их друг другу (отсюда и название «состязательный»).
Они широко используются для создания речи, видео и изображений.
Цель GAN — создать ранее неизвестные данные из определенного набора данных. Попытка вывести модель фактического неопознанного базового распределения данных из выборок приводит к следующему результату.
Другими словами, эти сети представляют собой неявные модели, которые пытаются изучить конкретное статистическое распределение.
Метод, который использовала GAN, чтобы узнать, как достичь этой цели, был новым. На самом деле они производят данные, играя в игру для двух игроков, чтобы разработать неявную модель.
Далее описывается структура:
- Дискриминатор, который получает возможность различать подлинные и поддельные данные
- генератор, подбирающий новые способы создания данных, может обмануть дискриминатор.
Дискриминатор представляет собой нейронную сеть. Поэтому генератору нужно создать картинку с высоким качеством, чтобы обмануть его.
Тот факт, что эти генераторы не обучаются с использованием какого-либо выходного распределения, является существенным отличием моделей автоэнкодера от других моделей.
Есть два способа декомпозиции функции потерь модели:
- возможность количественной оценки, точно ли дискриминатор предвидит реальные данные
- сгенерированные данные точно предсказаны частью.
Затем на наилучшем допустимом дискриминаторе эта функция потерь минимизируется:
Таким образом, общие модели можно рассматривать как модели минимизации расстояния и, если дискриминатор идеален, как минимизацию расхождения между истинным и произведенным распределением.
В действительности могут использоваться различные расхождения, что приводит к различным методам обучения GAN.
Динамику обучения, которая включает в себя компромисс между генератором и дискриминатором, сложно проследить, несмотря на простоту настройки функции потерь GAN.
Также нет никаких гарантий, что обучение будет конвергентным. В результате обучение модели GAN затруднено, поскольку обычно возникают такие проблемы, как исчезновение градиентов и коллапс режима (когда в сгенерированных выборках нет разнообразия).
Теперь пришло время для диффузионных моделей.
Проблема конвергенции обучения GAN была решена путем разработки моделей распространения.
Эти модели предполагают, что процесс распространения эквивалентен потере информации, вызванной прогрессивной интерференцией шума (гауссовский шум добавляется на каждом временном шаге процесса распространения).
Цель такой модели — определить, как шум влияет на информацию, присутствующую в образце, или, другими словами, сколько информации теряется из-за диффузии.
Если модель может понять это, она должна быть в состоянии получить исходный образец и отменить произошедшую потерю информации.
Это достигается с помощью диффузионной модели шумоподавления. Процесс прямой диффузии и процесс обратной диффузии составляют две стадии.
Процесс прямой диффузии включает в себя постепенное добавление гауссова шума (т. е. процесс диффузии) до тех пор, пока данные не будут полностью загрязнены шумом.
Нейронная сеть впоследствии обучается с использованием метода обратной диффузии, чтобы изучить вероятности условного распределения для обращения шума.
Здесь вы можете узнать больше о диффузионная модель.
Диффузионная модель против GAN
Подобно диффузионной модели, GAN создают изображения из шума.
Модель состоит из нейронной сети-генератора, которая начинается с шума некоторой информативной обусловливающей переменной, такой как метка класса или кодировка текста.
В результате должно получиться что-то похожее на реалистичное изображение.
Для создания фотореалистичных и высококачественных изображений мы используем GAN. Даже более реалистичные визуальные эффекты, чем GAN, создаются с использованием диффузионных моделей.
В некотором смысле диффузионные модели точнее описывают факты.
В то время как GAN принимает в качестве входных данных случайный шум или переменную, определяющую класс, и выводит реалистичную выборку, модели распространения часто медленнее, итеративны и требуют гораздо большего руководства.
Существует не так много места для ошибки, когда шумоподавление применяется повторно с целью возврата к исходному изображению из-за шума.
Каждая контрольная точка проходит через этап создания, и с каждым шагом изображение может получать все больше и больше информации.
Заключение
В заключение: из-за нескольких значительных исследований, которые были опубликованы только в 2020-х и 2021 годах, диффузионные модели теперь могут превзойти GAN с точки зрения синтеза изображений.
В этом году OpenAI запустил ДАЛЛ-Э 2, модель производства изображений, которая позволяет специалистам-практикам использовать модели распространения.
Хотя GAN являются передовыми, их ограничения затрудняют масштабирование и использование их в новых контекстах.
Чтобы достичь качества выборки, подобного GAN, с использованием моделей, основанных на правдоподобии, было проделано много работы.
Оставьте комментарий