Загалом, глибокі генеративні моделі, такі як GAN, VAE та авторегресійні моделі, вирішують проблеми синтезу зображення.
Враховуючи високу якість даних, які вони створюють, генеративні змагальні мережі (GAN) привернули багато уваги в останні роки.
Дифузійні моделі — ще одна захоплююча галузь дослідження, яка зарекомендувала себе. Сфери створення зображень, відео та голосу знайшли широке застосування для обох.
Дифузійні моделі проти GAN: що дає кращі результати? Природно, це призвело до постійної дискусії.
У обчислювальній архітектурі, відомій як GAN, два нейронні мережі борються один проти одного, щоб створити щойно синтезовані екземпляри даних, які можуть прийняти за справжні дані.
Дифузійні моделі стають все більш популярними, оскільки вони забезпечують стабільність навчання та високі результати для створення музики та графіки.
У цій статті детально розглядатимуться модель дифузії та GAN, а також те, чим вони відрізняються один від одного, а також деякі інші речі.
Отже, що таке генеративні змагальні мережі?
Щоб створити нові, штучні екземпляри даних, які можуть бути прийняті за справжні дані, генеративні змагальні мережі (GAN) використовують дві нейронні мережі та протиставляють їх одна одній (тому «конкурентна» в назві).
Вони широко використовуються для створення мови, відео та зображення.
Метою GAN є створення раніше невідомих даних із певного набору даних. Спроба зробити висновок про модель фактичного, неідентифікованого базового розподілу даних із зразків робить це.
З іншого боку, ці мережі є неявними моделями, які намагаються вивчити певний статистичний розподіл.
Метод, який GAN використовував для виявлення того, як досягти цієї мети, був новим. Насправді вони створюють дані, граючи в гру для двох гравців, щоб розробити неявну модель.
Далі описується структура:
- дискримінатор, який отримує здатність розрізняти автентичні та підроблені дані
- генератор, який вибирає нові способи створення даних, може обдурити дискримінатор.
Дискримінатор представляє собою нейронну мережу. Тому генератору потрібно створити картинку високої якості, щоб обдурити його.
Той факт, що ці генератори не навчені використовувати будь-який вихідний розподіл, є значною відмінністю між моделями автокодерів та іншими моделями.
Існує два способи розкласти функцію втрат моделі:
- можливість кількісної оцінки, якщо дискримінатор точно передбачає реальні дані
- згенеровані дані точно передбачені частиною.
На найкращому можливому дискримінаторі ця функція втрат мінімізується:
Таким чином, загальні моделі можна розглядати як моделі мінімізації відстані і, якщо дискримінатор ідеальний, як мінімізацію розбіжності між істинним і створеним розподілом.
Насправді можуть використовуватися різні розбіжності, що призводить до різних методів навчання GAN.
Динаміку навчання, яка включає компроміс між генератором і дискримінатором, складно відстежити, незважаючи на те, що налаштувати функцію втрат GAN досить просто.
Також немає гарантій, що навчання зійдеться. Як наслідок, навчання моделі GAN є складним, оскільки типово виникають проблеми, такі як зникнення градієнтів і згортання режиму (коли немає різноманітності в згенерованих зразках).
Тепер настав час для моделей дифузії
Проблему навчальної конвергенції GAN було вирішено шляхом розробки дифузійних моделей.
Ці моделі припускають, що процес дифузії еквівалентний втраті інформації, викликаної прогресивною інтерференцією шуму (гаусівський шум додається на кожному кроці процесу дифузії).
Метою такої моделі є визначення того, як шум впливає на інформацію, присутню у вибірці, або, іншими словами, скільки інформації втрачається через дифузію.
Якщо модель може це зрозуміти, вона повинна мати можливість отримати вихідний зразок і відмінити втрату інформації, яка сталася.
Це досягається за допомогою моделі шумопоглинання. Процес прямої дифузії та процес зворотної дифузії складають два етапи.
Процес прямої дифузії передбачає поступове додавання шуму Гаусса (тобто процес дифузії), поки дані повністю не забруднені шумом.
Згодом нейронна мережа навчається за допомогою методу зворотної дифузії, щоб дізнатися ймовірності умовного розподілу, щоб змінити шум.
Тут ви можете дізнатися більше про дифузійна модель.
Модель дифузії проти GAN
Подібно до моделі дифузії, GAN створюють зображення з шуму.
Модель складається з генераторної нейронної мережі, яка починається з шуму деякої інформативної змінної кондиціонування, такої як мітка класу або кодування тексту.
Тоді в результаті має вийти щось схоже на реалістичне зображення.
Для створення фотореалістичних і високоякісних зображень ми використовуємо GAN. За допомогою дифузійних моделей створюються навіть більш реалістичні візуальні ефекти, ніж GAN.
У певному сенсі дифузійні моделі точніше описують факти.
У той час як GAN приймає як вхід випадковий шум або змінну кондиціонування класу та виводить реалістичну вибірку, дифузійні моделі часто повільніші, ітераційні та потребують набагато більше вказівок.
Немає багато можливостей для помилок, коли усунення шуму застосовується багаторазово з метою повернення до вихідного зображення від шуму.
Кожна контрольна точка проходить протягом усього етапу створення, і з кожним кроком зображення може отримувати все більше інформації.
Висновок
На завершення: через кілька значних досліджень, які були опубліковані лише в 2020-х і 2021 роках, дифузійні моделі тепер можуть перевершувати GAN з точки зору синтезу зображення.
Цього року запущено OpenAI ВІД-Є 2, модель виробництва зображень, яка дозволяє практикам використовувати моделі дифузії.
Хоча GAN є передовими, їх обмеження ускладнюють масштабування та використання в нових контекстах.
Щоб досягти якості вибірки, подібної до GAN, використовуючи моделі, засновані на ймовірності, було вкладено багато роботи.
залишити коментар