През последните години генеративните модели, наречени „дифузионни модели“, стават все по-популярни и с добра причина.
Светът видя на какво са способни дифузионните модели, като например превъзхождане на GAN при синтез на картина, благодарение на избрани няколко забележителни публикации, публикувани точно през 2020-те и 2021-ва.
Наскоро практиците видяха използването на дифузионни модели в DALL-E2, моделът за създаване на изображения на OpenAI, който беше публикуван миналия месец.
Много практикуващи машинно обучение несъмнено са любопитни за вътрешната работа на дифузионните модели, като се има предвид техният неотдавнашен прилив на успех.
В тази публикация ще разгледаме теоретичните основи на дифузионните модели, техния дизайн, техните предимства и много повече. Нека да тръгваме.
Какво представлява дифузионният модел?
Нека започнем, като разберем защо този модел се нарича дифузионен модел.
Дума, свързана с термодинамиката в часовете по физика, се нарича дифузия. Една система не е в равновесие, ако има голяма концентрация на материал, като аромат, на едно място.
Трябва да настъпи дифузия, за да влезе системата в равновесие. Молекулите на аромата дифундират в системата от област с по-висока концентрация, което прави системата еднаква навсякъде.
Всичко в крайна сметка става хомогенно поради дифузия.
Дифузионните модели са мотивирани от това термодинамично неравновесно състояние. Дифузионните модели използват верига на Марков, която е поредица от променливи, където стойността на всяка променлива зависи от състоянието на предишното събитие.
Правейки снимка, ние последователно добавяме определено количество шум към нея през цялата фаза на дифузия напред.
След като съхраним по-шумното изображение, ние продължаваме да създаваме следващото изображение в серията чрез въвеждане на допълнителен шум.
Тази процедура се прави няколко пъти. Картината с чист шум се получава от повтарянето на този метод няколко пъти.
Как тогава можем да създадем картина от това разхвърляно изображение?
Процесът на дифузия се обръща с помощта на a невронна мрежа. Същите мрежи и същите тегла се използват в процеса на обратна дифузия, за да се създаде картината от t до t-1.
Вместо да позволи на мрежата да предвиди картината, човек може да се опита да предвиди шума на всяка стъпка, който трябва да бъде премахнат от изображението, за да се опрости допълнително задачата.
Във всеки сценарий, дизайн на невронна мрежа трябва да бъдат избрани по начин, който поддържа размерността на данните.
Задълбочено потапяне в дифузионния модел
Компонентите на модела на дифузия са преден процес (известен също като процес на дифузия), при който дадена информация (често изображение) постепенно се шуми, и обратен процес (известен също като процес на обратна дифузия), при който шумът е преобразуван обратно в извадка от целевото разпределение.
Когато нивото на шума е достатъчно ниско, условните гаусиани могат да се използват за установяване на преходите на веригата за вземане на проби в предния процес. Лесно параметризиране на предния процес е резултат от свързването на това знание с предположението на Марков:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
Тук пет ...T е график на дисперсии (научен или фиксиран), който гарантира, за достатъчно високо T, че xT е практически изотропен гаусиан.
Обратният процес е мястото, където се случва магията на дифузионния модел. Моделът се научава да обръща този процес на разпространение по време на обучение, за да произвежда свежи данни. Моделът научава съвместното разпределение като (x0:T) резултатът от започването с уравнението на чистия шум на Гаус
(xT):=N(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))
където са открити зависимите от времето параметри на гаусовите преходи. По-специално, обърнете внимание как формулировката на Марков гласи, че дадено разпределение на прехода на обратната дифузия зависи изключително от предишната времева стъпка (или следваща времева стъпка, в зависимост от това как го разглеждате):
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Модел обучение
Обратен модел на Марков, който максимизира вероятността от данните за обучение, се използва за обучение на модел на дифузия. Практически казано, обучението е аналогично на намаляване на вариационната горна граница на отрицателната логаритмична вероятност.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
Модели
Сега трябва да решим как да изпълним нашия дифузионен модел, след като установим математическите основи на нашата целева функция. Единственото решение, необходимо за процеса напред, е определянето на графика на отклонението, чиито стойности обикновено се повишават по време на процедурата.
Силно обмисляме използването на параметризацията на разпределението на Гаус и архитектурата на модела за обратната процедура.
Единственото условие на нашия дизайн е входът и изходът да имат еднакви размери. Това подчертава огромната степен на свобода, която дифузионните модели предоставят.
По-долу ще разгледаме по-подробно тези опции.
Преден процес
Трябва да предоставим графика на отклоненията във връзка с напредващия процес. Специално ги настроихме като константи, зависими от времето, и пренебрегнахме възможността те да бъдат научени. Хронологичен график от
β1 = 10−4 до βT = 0.02.
Lt става константа по отношение на нашия набор от научаеми параметри поради фиксирания график на дисперсията, което ни позволява да го пренебрегнем по време на обучение, независимо от избраните специфични стойности.
Обратен процес
Сега ще разгледаме решенията, необходими за дефиниране на обратния процес. Спомнете си как описахме обратните преходи на Марков като гаусови:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Сега, след като идентифицирахме функционалните типове. Въпреки факта, че има по-сложни техники за параметризиране, ние просто задаваме
Σθ(xt, t) = σ 2 t I
σ 2 t = βt
Казано по друг начин, ние считаме, че многовариантната гаусиана е резултат от отделни гаусиани с една и съща дисперсия, стойност на дисперсията, която може да варира във времето. Тези отклонения са настроени да съответстват на графика на отклоненията в процеса на препращане.
В резултат на тази нова формулировка, ние имаме:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)) :=N (xt−1; µθ (xt, t), σ2 t I)
Това води до алтернативната функция на загубата, показана по-долу, за която авторите установиха, че произвежда по-последователно обучение и превъзходни резултати:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Авторите също така правят връзки между тази формулировка на дифузионни модели и базираните на Langevin генеративни модели за съвпадение на резултати. Както при независимото и паралелно развитие на базираната на вълни квантова физика и базираната на матрица квантова механика, което разкри две сравними формулировки на едни и същи явления, изглежда, че моделите на дифузия и моделите, базирани на резултати, могат да бъдат двете страни на една и съща монета.
Мрежова архитектура
Въпреки факта, че нашата функция за съкратени загуби има за цел да обучи модел Σθ, все още не сме взели решение за архитектурата на този модел. Имайте предвид, че моделът просто трябва да има еднакви входни и изходни размери.
Като се има предвид това ограничение, вероятно не е неочаквано, че U-Net-подобни архитектури често се използват за създаване на модели за дифузия на картина.
Правят се множество промени по пътя на обратния процес, докато се използват непрекъснати условни разпределения на Гаус. Не забравяйте, че целта на обратната процедура е да се създаде картина, съставена от цели числа на пикселите. Следователно е необходимо определянето на дискретни (логаритмични) вероятности за всяка потенциална пикселна стойност за всички пиксели.
Това се постига чрез присвояване на отделен дискретен декодер към последния преход на веригата за обратна дифузия. оценяване на шанса за определен образ x0 даден x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ ако x = 1 x + 1 255 ако x < 1 δ−(x) = −∞ ако x = −1 x − 1 255 ако x > −1
където горният индекс I обозначава извличането на една координата, а D обозначава броя на измеренията в данните.
Целта в този момент е да се установи вероятността за всяка целочислена стойност за конкретен пиксел, като се има предвид разпределението на потенциалните стойности за този пиксел в променящото се време t=1.
Крайна цел
Най-добрите резултати, според учените, идват от прогнозирането на шумовия компонент на картината на определена стъпка от време. В крайна сметка те използват следната цел:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
В следното изображение процедурите за обучение и вземане на проби за нашия дифузионен модел са изобразени накратко:
Предимства на дифузионния модел
Както вече беше посочено, количеството изследвания на дифузионни модели напоследък се умножи. Дифузионните модели сега предоставят най-съвременно качество на изображението и са вдъхновени от неравновесната термодинамика.
Дифузионните модели предоставят различни други предимства в допълнение към най-съвременното качество на картината, като например не изискване на състезателно обучение.
Недостатъците на състезателното обучение са широко известни, поради което често е за предпочитане да се избират несъстезателни алтернативи с еквивалентно представяне и ефективност на обучението.
Дифузионните модели също така осигуряват предимствата на скалируемостта и паралелността по отношение на ефективността на обучението.
Въпреки че изглежда, че дифузионните модели генерират резултати като че ли от нищото, основата за тези резултати е положена от редица обмислени и интересни математически решения и тънкости, а най-добрите практики в индустрията все още се разработват.
Заключение
В заключение, изследователите демонстрират висококачествени открития за синтез на картина, използвайки вероятностни модели на дифузия, клас модели на латентни променливи, мотивирани от идеи от неравновесната термодинамика.
Те са постигнали огромни неща благодарение на техните най-съвременни резултати и неконкурентно обучение и като се има предвид тяхната ранна възраст, може да се очаква още напредък през идните години.
По-специално, беше открито, че дифузионните модели са от решаващо значение за функционалността на усъвършенствани модели като DALL-E 2.
Тук можете да получите достъп до пълното изследване.
Оставете коментар