В последние годы генеративные модели, называемые «диффузионными моделями», становятся все более популярными, и на то есть веские причины.
Мир увидел, на что способны диффузионные модели, например, превзойти GAN в синтезе изображений, благодаря нескольким избранным знаковым публикациям, опубликованным только в 2020-х и 2021-х годах.
Практики совсем недавно видели использование диффузионных моделей в ДАЛЛ-Э 2, модель создания изображений OpenAI, опубликованная в прошлом месяце.
Многих специалистов по машинному обучению, несомненно, интересует внутренняя работа диффузионных моделей, учитывая их недавний всплеск успеха.
В этом посте мы рассмотрим теоретические основы диффузионных моделей, их конструкцию, преимущества и многое другое. Давайте идти.
Что такое Диффузионная модель?
Давайте начнем с выяснения, почему эта модель называется диффузионной.
Слово, связанное с термодинамикой на уроках физики, называется диффузией. Система не находится в равновесии, если в одном месте имеется большая концентрация вещества, например запаха.
Чтобы система пришла в равновесие, должна произойти диффузия. Молекулы аромата диффундируют по всей системе из области с более высокой концентрацией, делая всю систему однородной.
В конечном итоге все становится однородным благодаря диффузии.
Модели диффузии мотивированы этим термодинамическим неравновесным состоянием. В диффузионных моделях используется цепь Маркова, представляющая собой ряд переменных, где значение каждой переменной зависит от состояния предшествующего события.
Делая снимок, мы последовательно добавляем к нему определенное количество шума на протяжении всей фазы прямой диффузии.
После сохранения более шумного изображения мы приступаем к созданию следующего изображения в серии, вводя дополнительный шум.
Несколько раз проделывается эта процедура. Чистая шумовая картина получается в результате повторения этого метода несколько раз.
Как же тогда мы можем создать картину из этого беспорядочного изображения?
Процесс диффузии обратный с помощью нейронной сети. Те же сети и те же веса используются в процессе обратной диффузии для создания изображения от t до t-1.
Вместо того, чтобы позволить сети предугадывать картинку, можно попытаться предсказать шум на каждом шаге, который необходимо удалить из изображения, чтобы еще больше упростить задачу.
При любом сценарии дизайн нейронной сети должны быть выбраны таким образом, чтобы поддерживать размерность данных.
Глубокое погружение в модель распространения
Компонентами модели диффузии являются прямой процесс (также известный как процесс диффузии), в котором данные (часто изображение) постепенно зашумляются, и обратный процесс (также известный как процесс обратной диффузии), в котором шум конвертируется обратно в образец из целевого дистрибутива.
Когда уровень шума достаточно низок, можно использовать условные гауссианы для установления переходов цепочки дискретизации в прямом процессе. Простая параметризация прямого процесса является результатом соединения этого знания с предположением Маркова:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
Здесь 1 ....T - это график дисперсии (обученный или фиксированный), который гарантирует, что при достаточно высоком T xT является фактически изотропным гауссовым.
В противоположном процессе происходит магия диффузионной модели. Модель учится обращать этот процесс распространения во время обучения, чтобы получать свежие данные. Модель изучает совместное распределение как (х0:Т) результат исходного уравнения чистого гауссовского шума
(хТ):=N(xT, 0, I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( хт, т))
где обнаружены зависящие от времени параметры гауссовых переходов. В частности, обратите внимание на формулировку Маркова, согласно которой данное распределение обратного диффузионного перехода зависит исключительно от предыдущего временного шага (или последующего временного шага, в зависимости от того, как вы на это смотрите):
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Модельное обучение
Обратная марковская модель, которая максимизирует вероятность обучающих данных, используется для обучения диффузионной модели. Практически говоря, обучение аналогично уменьшению вариационной верхней границы отрицательной логарифмической вероятности.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T) q(x1:T |x0) = Eq − log p(xT) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
Модели
Теперь нам нужно решить, как реализовать нашу модель диффузии после установления математических основ нашей целевой функции. Единственным решением, необходимым для прямого процесса, является определение графика отклонений, значения которого обычно возрастают во время процедуры.
Мы настоятельно рекомендуем использовать параметризацию распределения Гаусса и архитектуру модели для обратной процедуры.
Единственным условием нашей конструкции является то, что и вход, и выход имеют одинаковые размеры. Это подчеркивает огромную степень свободы, которую обеспечивают модели распространения.
Ниже мы более подробно рассмотрим эти параметры.
Переслать процесс
Мы должны предоставить график отклонений по отношению к прямому процессу. Мы специально установили их как константы, зависящие от времени, и проигнорировали возможность их изучения. Хронологический график от
β1 = 10−4 до βT = 0.02.
Lt становится константой по отношению к нашему набору обучаемых параметров из-за графика фиксированной дисперсии, что позволяет нам игнорировать его во время обучения независимо от выбранных конкретных значений.
Обратный процесс
Теперь мы рассмотрим решения, необходимые для определения обратного процесса. Помните, как мы описывали обратные марковские переходы как гауссовские:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Теперь, когда мы определили функциональные типы. Несмотря на то, что есть более сложные методы параметризации, мы просто устанавливаем
Σθ(xt, t) = σ 2 t I
σ 2 t = βt
Иными словами, мы рассматриваем многомерную гауссиану как результат отдельных гауссиан с одной и той же дисперсией, значение дисперсии, которое может колебаться во времени. Эти отклонения устанавливаются в соответствии с графиком отклонений процесса пересылки.
В результате этой новой формулировки, у нас есть:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)) :=N (xt−1; µθ (xt, t), σ2 t I)
Это приводит к альтернативной функции потерь, показанной ниже, которая, по мнению авторов, обеспечивает более последовательное обучение и превосходные результаты:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Авторы также проводят связь между этой формулировкой диффузионных моделей и генеративными моделями сопоставления результатов на основе Ланжевена. Как и в случае с независимым и параллельным развитием квантовой физики на основе волн и квантовой механики на основе матриц, которые выявили две сопоставимые формулировки одного и того же явления, кажется, что модели диффузии и модели на основе оценок могут быть двумя сторонами одной медали.
Сетевая архитектура
Несмотря на то, что наша сокращенная функция потерь направлена на обучение модели Σθ, мы еще не определились с архитектурой этой модели. Имейте в виду, что модель просто должна иметь одинаковые входные и выходные размеры.
Учитывая это ограничение, неудивительно, что U-Net-подобные архитектуры часто используются для создания моделей распространения изображений.
Многочисленные изменения вносятся по пути обратного процесса при использовании непрерывных условных распределений Гаусса. Помните, что целью обратной процедуры является создание изображения, состоящего из целочисленных значений пикселей. Поэтому необходимо определение дискретных (логарифмических) вероятностей для каждого потенциального значения пикселя по всем пикселям.
Это достигается путем назначения отдельного дискретного декодера последнему переходу обратной диффузионной цепи. оценка шанса определенного изображения x0 данный x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞, если x = 1 x + 1 255, если x < 1 δ−(x) = −∞, если x = −1 x − 1 255, если x > −1
где верхний индекс I обозначает извлечение одной координаты, а D обозначает количество измерений в данных.
Цель на данном этапе состоит в том, чтобы установить вероятность каждого целочисленного значения для конкретного пикселя с учетом распределения потенциальных значений для этого пикселя в изменяющемся во времени т=1.
Конечная цель
Наилучшие результаты, по мнению ученых, были получены при прогнозировании шумовой составляющей изображения на определенном временном шаге. В конце концов, они преследуют следующую цель:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
На следующем изображении кратко показаны процедуры обучения и выборки для нашей диффузионной модели:
Преимущества диффузионной модели
Как уже указывалось, в последнее время увеличилось количество исследований по моделям диффузии. Модели диффузии теперь обеспечивают самое современное качество изображения и основаны на неравновесной термодинамике.
Диффузионные модели обеспечивают множество других преимуществ в дополнение к передовому качеству изображения, например, не требуют обучения противников.
Недостатки состязательного обучения широко известны, поэтому часто предпочтительнее выбирать не состязательные альтернативы с эквивалентными характеристиками и эффективностью обучения.
Диффузионные модели также обеспечивают преимущества масштабируемости и распараллеливания с точки зрения эффективности обучения.
Хотя диффузионные модели, по-видимому, генерируют результаты, казалось бы, из воздуха, в основе этих результатов лежит ряд продуманных и интересных математических решений и тонкостей, а лучшие отраслевые практики все еще разрабатываются.
Заключение
В заключение исследователи демонстрируют высококачественные результаты синтеза изображений с использованием диффузионных вероятностных моделей, класса моделей скрытых переменных, основанных на идеях неравновесной термодинамики.
Они добились потрясающих результатов благодаря своим передовым результатам и бесконфликтному обучению, и, учитывая их младенческий возраст, можно ожидать большего прогресса в ближайшие годы.
В частности, было обнаружено, что диффузионные модели имеют решающее значение для функциональности продвинутых моделей, таких как DALL-E 2.
Здесь вы можете получить доступ к полному исследованию.
Оставьте комментарий