Преглед садржаја[Сакрити][Прикажи]
Последњих година, генеративни модели који се називају „модели дифузије“ постају све популарнији, и то са добрим разлогом.
Свет је видео за шта су дифузиони модели способни, као што је бољи учинак ГАН-а у синтези слике, захваљујући неколико одабраних значајних публикација објављених само 2020-их и 2021. године.
Практичари су недавно видели употребу модела дифузије у ДАЛЛ-Е2, ОпенАИ-јев модел креирања слике који је објављен прошлог месеца.
Многи практичари машинског учења су несумњиво радознали у вези са унутрашњим функционисањем дифузионих модела с обзиром на њихов недавни налет успеха.
У овом посту ћемо погледати теоријске основе дифузионих модела, њихов дизајн, њихове предности и још много тога. Кренимо.
Шта је модел дифузије?
Почнимо тако што ћемо открити зашто се овај модел назива дифузионим моделом.
Реч која се односи на термодинамику на часовима физике назива се дифузија. Систем није у равнотежи ако постоји велика концентрација материјала, попут мириса, на једној локацији.
Дифузија се мора десити да би систем ушао у равнотежу. Молекули мириса дифундују кроз систем из области веће концентрације, чинећи систем уједначеним.
Све на крају постаје хомогено због дифузије.
Дифузиони модели су мотивисани овим термодинамичким неравнотежним условом. Дифузиони модели користе Марковљев ланац, који је низ променљивих где се вредност сваке променљиве ослања на стање претходног догађаја.
Снимајући слику, сукцесивно јој додајемо одређену количину шума током фазе напредне дифузије.
Након складиштења слике са буком, настављамо да креирамо следећу слику у серији увођењем додатног шума.
Неколико пута се овај поступак ради. Чиста слика шума је резултат понављања ове методе неколико пута.
Како онда можемо направити слику од ове претрпане слике?
Процес дифузије је обрнут коришћењем а неуронска мрежа. Исте мреже и исте тежине се користе у процесу дифузије уназад за креирање слике од т до т-1.
Уместо пуштања мреже да предвиди слику, може се покушати предвидети шум у сваком кораку, који се мора уклонити са слике, како би се задатак додатно поједноставио.
У сваком сценарију, дизајн неуронске мреже морају бити изабрани на начин који одржава димензионалност података.
Дубоко зароните у модел дифузије
Компоненте модела дифузије су напредни процес (такође познат као процес дифузије), у којем се датум (често слика) постепено шуми, и реверзни процес (такође познат као процес реверзне дифузије), у којем се ствара шум. поново конвертован у узорак из циљне дистрибуције.
Када је ниво буке довољно низак, условни Гаусови се могу користити за успостављање прелаза у ланцу узорковања у процесу напред. Лака параметризација процеса унапред је резултат спајања овог знања са Марковом претпоставком:
к(к1:Т |к0) := ИТ т=1 к(кт|кт−1), к(кт|кт−1) := Н (кт; п 1 − βткт−1, βтИ)
Овде пет….Т је распоред варијансе (било научен или фиксни) који обезбеђује, за довољно висок Т, да је кТ практично изотропни Гаусов.
Супротан процес је где се дешава магија модела дифузије. Модел учи да преокрене овај процес дифузије током тренинга како би произвео свеже податке. Модел учи заједничку дистрибуцију као (к0:Т) резултат почињања са чистом Гаусовом једначином шума
(кТ):=Н(кТ,0,И).
пθ(к0:Т ) := п(кТ ) ИТ т=1 пθ(кт−1|кт), пθ(кт−1|кт) := Н (кт−1; µθ (кт, т), Σθ( кт, т))
где су откривени временски зависни параметри Гаусових прелаза. Конкретно, обратите пажњу на то како Марковљева формулација каже да дата дистрибуција прелаза обрнуте дифузије зависи искључиво од претходног временског корака (или следећег временског корака, у зависности од тога како га гледате):
пθ(кт−1|кт) := Н (кт−1; µθ (кт, т), Σθ(кт, т))
Модел Траининг
Реверзни Марковљев модел који максимизира вероватноћу података за обуку користи се за обуку дифузионог модела. Практично говорећи, обука је аналогна смањењу варијационе горње границе негативне лог вероватноће.
Е [− лог пθ(к0)] ≤ Ек − лог пθ(к0:Т ) к(к1:Т |к0) = Ек − лог п(кТ ) − Кс т≥1 лог пθ(кт−1|кт) к (кт|кт−1) =: Л
Модели
Сада морамо да одлучимо како да извршимо наш модел дифузије након успостављања математичке основе наше циљне функције. Једина одлука потребна за процес унапред је одређивање распореда варијансе, чије вредности обично расту током процедуре.
Снажно разматрамо коришћење параметризације Гаусове дистрибуције и архитектуре модела за обрнуту процедуру.
Једини услов нашег дизајна је да и улаз и излаз имају исте димензије. Ово наглашава огроман степен слободе који дифузиони модели пружају.
У наставку ћемо детаљније говорити о овим опцијама.
Форвард Процесс
Морамо да обезбедимо распоред одступања у односу на процес унапред. Посебно смо их поставили као временски зависне константе и занемарили могућност да се могу научити. Хронолошки распоред од
β1 = 10−4 до βТ = 0.02.
Lt постаје константа у односу на наш скуп параметара који се могу научити због фиксног распореда варијансе, што нам омогућава да га занемаримо током тренинга без обзира на одабране специфичне вредности.
Обрнути процес
Сада прелазимо на одлуке потребне за дефинисање обрнутог процеса. Сетите се како смо обрнуте Марковљеве прелазе описали као Гаусове:
пθ(кт−1|кт) := Н (кт−1; µθ (кт, т), Σθ(кт, т))
Сада када смо идентификовали функционалне типове. Упркос чињеници да постоје сложеније технике за параметрирање, ми смо само поставили
Σθ(кт, т) = σ 2 т И
σ 2 т = βт
Другим речима, сматрамо да је мултиваријантни Гаусов резултат одвојених Гаусових вредности са истом варијансом, вредности варијансе која може да флуктуира током времена. Ова одступања су подешена тако да одговарају распореду одступања процеса прослеђивања.
Као резултат ове нове формулације, имамо:
пθ(кт−1|кт) := Н (кт−1; µθ (кт, т), Σθ(кт, т)) :=Н (кт−1; µθ (кт, т), σ2 т И)
Ово резултира алтернативном функцијом губитка приказаном у наставку, за коју су аутори открили да производи доследнију обуку и супериорне резултате:
Лсимпле(θ) := Ет,к0, х − θ( √ α¯тк0 + √ 1 − α¯т, т) 2
Аутори такође повлаче везе између ове формулације дифузионих модела и генеративних модела за подударање резултата заснованих на Лангевину. Као и код независног и паралелног развоја квантне физике засноване на таласима и квантне механике засноване на матрици, који је открио две упоредиве формулације истих феномена, чини се да модели дифузије и модели засновани на резултатима могу бити две стране истог новчића.
Нетворк Арцхитецтуре
Упркос чињеници да наша функција кондензованог губитка има за циљ да обучи модел Σθ, још увек се нисмо одлучили за архитектуру овог модела. Имајте на уму да модел једноставно мора имати исте улазне и излазне димензије.
С обзиром на ово ограничење, вероватно није неочекивано да се архитектуре попут У-Нета често користе за креирање модела дифузије слике.
Бројне промене се врше дуж путање обрнутог процеса уз коришћење континуалних условних Гаусових расподела. Запамтите да је циљ обрнуте процедуре креирање слике сачињене од целобројних вредности пиксела. Стога је неопходно одређивање дискретних (лог) вероватноћа за сваку потенцијалну вредност пиксела за све пикселе.
Ово се постиже додељивањем посебног дискретног декодера последњем прелазу ланца реверзне дифузије. процењивање шансе одређене слике x0 дато кКСНУМКС.
пθ(к0|к1) = ИД и=1 З δ+(ки 0 ) δ−(ки 0 ) Н (к; µ и θ (к1, 1), σ2 1 ) дк
δ+(к) = ∞ ако је к = 1 к + 1 255 ако је к < 1 δ−(к) = −∞ ако је к = −1 к − 1 255 ако је к > −1
где горњи индекс И означава издвајање једне координате, а Д означава број димензија у подацима.
Циљ у овом тренутку је да се утврди вероватноћа сваке целобројне вредности за одређени пиксел с обзиром на дистрибуцију потенцијалних вредности за тај пиксел у временској променљивој т=1.
Коначни циљ
Највећи резултати, према научницима, дошли су од предвиђања компоненте шума слике у одређеном временском кораку. На крају, они имају следећи циљ:
Лсимпле(θ) := Ет,к0, х − θ( √ α¯тк0 + √ 1 − α¯т, т) 2
На следећој слици, процедуре обуке и узорковања за наш модел дифузије су сажето приказане:
Предности дифузионог модела
Као што је већ назначено, количина истраживања о дифузионим моделима се у последње време вишеструко повећала. Дифузиони модели сада дају врхунски квалитет слике и инспирисани су неравнотежном термодинамиком.
Дифузиони модели пружају низ других предности поред врхунског квалитета слике, као што је то што не захтевају супротстављену обуку.
Недостаци контрадикторне обуке су опште познати, стога је често боље изабрати неконкурентне алтернативе са еквивалентним перформансама и ефективношћу обуке.
Дифузиони модели такође пружају предности скалабилности и паралелности у смислу ефикасности обуке.
Иако се чини да модели дифузије стварају резултате наизглед из ничега, основа за ове резултате је постављена бројним промишљеним и занимљивим математичким одлукама и суптилностима, а најбоље праксе у индустрији се још увек развијају.
Zakljucak
У закључку, истраживачи демонстрирају налазе висококвалитетне синтезе слике користећи дифузионе пробабилистичке моделе, класу латентних варијабилних модела мотивисаних идејама из неравнотежне термодинамике.
Постигли су огромне ствари захваљујући својим врхунским резултатима и неконкурентној обуци, а с обзиром на њихову рану младост, може се очекивати још напретка у годинама које долазе.
Конкретно, откривено је да су дифузиони модели кључни за функционалност напредних модела као што је ДАЛЛ-Е 2.
Овде можете приступити комплетном истраживању.
Ostavite komentar