Като цяло дълбоките генеративни модели като GAN, VAE и авторегресивните модели се справят с проблемите на синтеза на изображения.
Като се има предвид високото качество на данните, които създават, генеративните състезателни мрежи (GAN) получиха много внимание през последните години.
Дифузионните модели са друга завладяваща област на изследване, която се е утвърдила. Полетата за генериране на изображения, видео и глас намериха широко приложение и за двете.
Дифузионни модели срещу GANs: Кое дава по-добри резултати? Естествено, това доведе до продължаваща дискусия.
В изчислителната архитектура, известна като GAN, две невронни мрежи се борят един срещу друг, за да произведат новосинтезирани копия на данни, които могат да минат за истински данни.
Дифузионните модели стават все по-популярни, тъй като осигуряват стабилност на обучението и високи резултати за създаване на музика и графики.
Тази статия ще разгледа подробно дифузионния модел и GANs, както и как се различават един от друг и няколко други неща.
И така, какво представляват генеративните състезателни мрежи?
За да създадат нови, изкуствени екземпляри на данни, които могат да бъдат сбъркани с истински данни, генеративните противопоставящи се мрежи (GANs) използват две невронни мрежи и ги изправят една срещу друга (по този начин „съперничеството“ в името).
Те се използват широко за създаване на реч, видео и картина.
Целта на GAN е да създаде неоткрити досега данни от конкретен набор от данни. Опитът да се направи извод за модел на действителното, неидентифицирано основно разпределение на данните от пробите прави това.
Алтернативно казано, тези мрежи са имплицитни модели, които се опитват да научат конкретно статистическо разпределение.
Методът, използван от GAN, за да открие как да се постигне тази цел, беше нов. Всъщност те произвеждат данни, като играят игра с двама играчи, за да разработят имплицитен модел.
Следното описва структурата:
- Дискриминатор, който придобива способността да прави разлика между автентични и фалшиви данни
- генератор, който избира нови начини за създаване на данни, може да подведе дискриминатора.
Дискриминаторът се представя като невронна мрежа. Следователно генераторът трябва да създаде картина с високо качество, за да го подмами.
Фактът, че тези генератори не са обучени да използват каквото и да е разпределение на изхода, е значителна разлика между моделите автокодери и другите модели.
Има два начина за разлагане на функцията на загубите на модела:
- способността да се определи количествено дали дискриминаторът точно предвижда реални данни
- генерираните данни са точно предвидени от част.
При най-добрия възможен дискриминатор, тази функция на загуба след това се минимизира:
Следователно генеричните модели могат да се разглеждат като модели за минимизиране на разстоянието и, ако дискриминаторът е идеален, като минимизиране на отклонението между истинското и произведеното разпределение.
В действителност могат да се използват различни различия и да се получат различни методи за обучение на GAN.
Динамиката на обучение, която включва компромис между генератора и дискриминатора, е предизвикателство за следване, въпреки че е лесно да се коригира функцията на загуба на GAN.
Също така няма гаранции, че обучението ще се сближи. В резултат на това обучението на GAN модел е трудно, тъй като е типично да се натъкнете на проблеми като изчезващи градиенти и колапс на режима (когато няма разнообразие в генерираните проби).
Сега е време за дифузионни модели
Проблемът с обучаващата конвергенция на GAN е решен чрез разработването на дифузионни модели.
Тези модели предполагат, че процесът на дифузия е еквивалентен на загуба на информация, причинена от прогресивната интерференция на шума (гаусов шум се добавя на всяка времева стъпка от процеса на дифузия).
Целта на такъв модел е да се определи как шумът влияе върху информацията, присъстваща в извадката, или, казано по друг начин, колко информация се губи поради дифузия.
Ако един модел може да разбере това, той трябва да може да извлече оригиналната проба и да отмени настъпилата загуба на информация.
Това се постига чрез обезшумяващ дифузионен модел. Процесът на дифузия напред и процесът на обратна дифузия съставляват двете стъпки.
Процесът на дифузия напред включва постепенно добавяне на шум на Гаус (т.е. процесът на дифузия), докато данните бъдат напълно замърсени от шума.
Впоследствие невронната мрежа се обучава с помощта на метода на обратната дифузия, за да научи вероятностите за условно разпределение за обръщане на шума.
Тук можете да разберете повече за дифузионен модел.
Дифузионен модел срещу GAN
Подобно на дифузионен модел, GAN произвеждат картини от шума.
Моделът е съставен от генераторна невронна мрежа, която започва с шума на някаква информативна кондиционираща променлива, като етикет на клас или кодиране на текст.
След това резултатът трябва да бъде нещо, което прилича на реалистично изображение.
За да създадем фотореалистични и висококачествени поколения изображения, ние използваме GAN. Дори по-реалистични визуализации от GAN се създават с помощта на дифузионни модели.
В известен смисъл дифузионните модели са по-точни при описание на фактите.
Докато GAN приема като вход случаен шум или променлива за кондициониране на класа и извежда реалистична извадка, дифузионните модели често са по-бавни, итеративни и се нуждаят от много повече насоки.
Няма много място за грешка, когато премахването на шума се прилага многократно с цел връщане към оригиналното изображение от шума.
Всяка контролна точка се преминава през целия етап на създаване и с всяка стъпка картината може да получи повече и повече информация.
Заключение
В заключение, поради няколко значими изследвания, които бяха публикувани едва през 2020-те и 2021 г., моделите на дифузия вече могат да надминат GAN по отношение на синтеза на картина.
Тази година стартира OpenAI DALL-E2, модел за производство на изображения, който позволява на практикуващите да използват дифузионни модели.
Въпреки че GAN са авангардни, техните ограничения правят предизвикателство мащабирането и използването им в нови контексти.
За да се постигне подобно на GAN качество на извадката с помощта на модели, базирани на вероятности, е положена много работа.
Оставете коментар