Останніми роками генеративні моделі, які називаються «дифузійними моделями», стають все більш популярними, і це не без підстав.
Світ побачив, на що здатні дифузійні моделі, наприклад перевершити GAN у синтезі зображення, завдяки кільком визначним публікаціям, опублікованим лише у 2020-х та 2021-х роках.
Нещодавно практики побачили використання моделей дифузії в ВІД-Є 2, модель створення зображень OpenAI, опублікована минулого місяця.
Багато практиків машинного навчання, безсумнівно, цікавляться внутрішньою роботою дифузійних моделей, враховуючи їх недавній сплеск успіху.
У цій публікації ми розглянемо теоретичні основи дифузійних моделей, їх дизайн, переваги та багато іншого. Давайте йти.
Що таке дифузійна модель?
Давайте почнемо з того, що з’ясуємо, чому цю модель називають моделлю дифузії.
Слово, пов'язане з термодинамікою на уроках фізики, називається дифузія. Система не знаходиться в рівновазі, якщо існує велика концентрація матеріалу, наприклад запаху, в одному місці.
Щоб система увійшла в рівновагу, повинна відбутися дифузія. Молекули запаху дифундують по всій системі з області вищої концентрації, роблячи систему однорідною.
Все зрештою стає однорідним завдяки дифузії.
Моделі дифузії мотивовані цією термодинамічною нерівновагою. Дифузійні моделі використовують ланцюг Маркова, який є серією змінних, де значення кожної змінної залежить від стану попередньої події.
Роблячи знімок, ми послідовно додаємо до нього певну кількість шуму протягом фази прямої дифузії.
Після збереження більш шумного зображення ми переходимо до створення наступного зображення в серії шляхом введення додаткового шуму.
Цю процедуру проводять кілька разів. У результаті повторення цього методу кілька разів виходить чисте шумове зображення.
Як тоді ми можемо створити картину з цього захаращеного зображення?
Процес дифузії змінюється за допомогою a нейронної мережі. Ті самі мережі та однакові ваги використовуються в процесі зворотної дифузії для створення картини від t до t-1.
Замість того, щоб дозволити мережі передбачити зображення, можна спробувати передбачити шум на кожному кроці, який потрібно видалити із зображення, щоб ще більше спростити завдання.
За будь-якого сценарію проектування нейронної мережі має бути обрано таким чином, щоб зберегти розмірність даних.
Глибоке занурення в модель дифузії
Компонентами дифузійної моделі є прямий процес (також відомий як процес дифузії), у якому дані (часто зображення) поступово зашумлені, і зворотний процес (також відомий як процес зворотної дифузії), у якому шум перетворюється назад у зразок із цільового розподілу.
Коли рівень шуму достатньо низький, можна використовувати умовні гауссівці для встановлення переходів ланцюга вибірки в прямому процесі. Легка параметризація прямого процесу є результатом поєднання цих знань із припущенням Маркова:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
тут 1 ....T – це розклад дисперсій (вивчений або фіксований), який гарантує, що для достатньо високого T, xT є фактично ізотропним Гауссом.
Протилежний процес – це магія дифузійної моделі. Модель вчиться змінювати цей процес розповсюдження під час навчання, щоб отримати нові дані. Модель вивчає спільний розподіл як (x0:T) результат, починаючи з рівняння чистого гаусового шуму
(xT):=N(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))
де виявлено залежні від часу параметри гаусових переходів. Зокрема, зверніть увагу на те, як формулювання Маркова стверджує, що заданий розподіл переходу зворотної дифузії залежить виключно від попереднього кроку в часі (або наступного кроку в часі, залежно від того, як ви на це дивитеся):
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Модельне навчання
Зворотна модель Маркова, яка максимізує ймовірність даних навчання, використовується для навчання дифузійної моделі. Практично кажучи, навчання аналогічно зниженню варіаційної верхньої межі негативної логарифмічної ймовірності.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
моделі
Тепер нам потрібно вирішити, як виконати нашу модель дифузії після встановлення математичних основ нашої цільової функції. Єдиним рішенням, необхідним для процесу вперед, є визначення графіка відхилень, значення якого зазвичай зростають під час процедури.
Ми наполегливо розглядаємо можливість використання параметризації розподілу Гауса та архітектури моделі для зворотної процедури.
Єдиною умовою нашого дизайну є те, що вхід і вихід мають однакові розміри. Це підкреслює величезний ступінь свободи, який надають дифузійні моделі.
Нижче ми докладніше розглянемо ці параметри.
Попередній процес
Ми повинні надати графік відхилень щодо процесу форварду. Ми спеціально встановили їх як константи, що залежать від часу, і не врахували можливість того, що їх можна дізнатися. Хронологічний розклад від
β1 = 10−4 до βT = 0.02.
Lt стає константою щодо нашого набору параметрів, які можна вивчати, завдяки фіксованому розкладу дисперсій, що дозволяє нам ігнорувати його під час навчання незалежно від обраних конкретних значень.
Зворотний процес
Тепер ми розглянемо рішення, необхідні для визначення зворотного процесу. Згадайте, як ми описали зворотні марковські переходи як гауссівські:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Тепер, коли ми визначили функціональні типи. Незважаючи на те, що існують більш складні методи параметризації, ми просто встановлюємо
Σθ(xt, t) = σ 2 t I
σ 2 t = βt
Іншими словами, ми вважаємо, що багатовимірний гаусс є результатом окремих гаусів з однаковою дисперсією, значенням дисперсії, яке може коливатися з часом. Ці відхилення встановлюються відповідно до графіка відхилень процесу пересилання.
В результаті цього нового формулювання, ми маємо:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)) :=N (xt−1; µθ (xt, t), σ2 t I)
Це призводить до альтернативної функції втрат, показаної нижче, яка, як виявили автори, забезпечує більш послідовне навчання та кращі результати:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Автори також встановлюють зв’язок між цим формулюванням дифузійних моделей і генеративними моделями на основі Ланжевена. Як і у випадку з незалежним і паралельним розвитком хвильової квантової фізики та матричної квантової механіки, які виявили дві порівняльні формулювання тих самих явищ, здається, що моделі дифузії та моделі на основі результатів можуть бути двома сторонами однієї медалі.
Мережева архітектура
Незважаючи на те, що наша функція скорочених втрат спрямована на навчання моделі Σθ, ми ще не визначилися з архітектурою цієї моделі. Майте на увазі, що модель просто повинна мати однакові вхідні та вихідні розміри.
Враховуючи це обмеження, ймовірно, не є несподіваним те, що U-Net-подібні архітектури часто використовуються для створення моделей дифузії зображень.
При використанні неперервних умовних розподілів Гаусса на шляху зворотного процесу вносяться численні зміни. Пам’ятайте, що метою зворотної процедури є створення зображення, що складається з цілих значень пікселів. Тому необхідно визначити дискретні (логарифмічні) ймовірності для кожного потенційного піксельного значення для всіх пікселів.
Це досягається шляхом призначення окремого дискретного декодера останньому переходу ланцюга зворотної дифузії. оцінка шансів певного зображення x0 даний x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞, якщо x = 1 x + 1 255, якщо x < 1 δ−(x) = −∞, якщо x = −1 x − 1 255, якщо x > −1
де верхній індекс I позначає виділення однієї координати, а D позначає кількість вимірів у даних.
Метою на цьому етапі є встановлення ймовірності кожного цілого значення для конкретного пікселя, враховуючи розподіл потенційних значень для цього пікселя в змінному часі t=1.
Кінцева мета
Найбільші результати, на думку вчених, принесли прогнозування шумової складової зображення на певному часовому етапі. Зрештою, вони використовують наступну мету:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
На наступному зображенні стисло зображено процедури навчання та вибірки для нашої дифузійної моделі:
Переваги моделі дифузії
Як уже зазначалося, кількість досліджень дифузійних моделей останнім часом зросла в рази. Дифузійні моделі тепер забезпечують найсучаснішу якість зображення та створені за принципом нерівноважної термодинаміки.
Дифузійні моделі надають низку інших переваг на додаток до найвищої якості зображення, наприклад, не вимагають змагальної підготовки.
Недоліки змагального навчання широко відомі, тому часто краще обирати не змагальні альтернативи з еквівалентною продуктивністю та ефективністю навчання.
Дифузійні моделі також забезпечують переваги масштабованості та розпаралелювання з точки зору ефективності навчання.
Незважаючи на те, що дифузійні моделі, здається, генерують результати на порожньому місці, основа цих результатів закладена низкою продуманих і цікавих математичних рішень і тонкощів, а найкращі галузеві практики все ще розробляються.
Висновок
На завершення дослідники демонструють результати високоякісного синтезу зображення з використанням імовірнісних моделей дифузії, класу моделей прихованих змінних, мотивованих ідеями нерівноважної термодинаміки.
Вони досягли величезних результатів завдяки своїм найсучаснішим результатам і неконкурентній підготовці, і, враховуючи їх дитинство, можна очікувати більшого прогресу в найближчі роки.
Зокрема, було виявлено, що дифузійні моделі мають вирішальне значення для функціональності просунутих моделей, таких як DALL-E 2.
тут ви можете отримати доступ до повного дослідження.
залишити коментар