Општо земено, длабоките генеративни модели како GAN, VAE и авторегресивни модели се справуваат со проблеми со синтезата на слики.
Со оглед на високиот квалитет на податоците што ги создаваат, генеративните противнички мрежи (GAN) добија големо внимание во последниве години.
Моделите на дифузија се уште едно фасцинантно поле на проучување кое се етаблирало. Полињата на слика, видео и генерирање глас и двете најдоа широка употреба за двете од нив.
Модели за дифузија наспроти GANs: кои даваат подобри резултати? Секако, ова доведе до постојана дискусија.
Во пресметковната архитектура позната како GAN, два нервните мрежи се борат еден против друг за да се произведат новосинтетизирани примероци на податоци кои можат да поминат за вистински податоци.
Моделите со дифузија стануваат сè попопуларни бидејќи обезбедуваат стабилност на обуката и високи резултати за производство на музика и графика.
Оваа статија детално ќе го разгледа моделот на дифузија и GAN-ите, како и како тие се разликуваат еден од друг и неколку други работи.
Значи, што се генеративни противнички мрежи?
Со цел да се создадат нови, вештачки примероци на податоци што може да се помешаат со вистински податоци, генеративните противнички мрежи (GAN) користат две невронски мрежи и ги спротивставуваат една против друга (со тоа „противник“ во името).
Тие се широко користени за создавање говор, видео и слика.
Целта на GAN е да создаде претходно неоткриени податоци од одредена база на податоци. Обидот да се заклучи модел на вистинската, неидентификувана основна дистрибуција на податоци од примероците, го прави ова.
Алтернативно кажано, овие мрежи се имплицитни модели кои се обидуваат да научат специфична статистичка дистрибуција.
Методот што ГАН го користеше за да открие како да ја постигне оваа цел беше нов. Всушност, тие произведуваат податоци играјќи игра со двајца играчи за да развијат имплицитен модел.
Следното ја опишува структурата:
- Дискриминатор кој добива способност да разликува автентични и лажни податоци
- генератор кој избира нови начини за создавање податоци може да го измами дискриминаторот.
Дискриминаторот се претставува како невронска мрежа. Затоа, генераторот треба да создаде слика со висок квалитет за да ја измами.
Фактот што овие генератори не се обучени да користат никаква излезна дистрибуција е значајна разлика помеѓу моделите на автоенкодер и другите модели.
Постојат два начина да се разложи функцијата за загуба на моделот:
- способноста да се квантифицира ако дискриминаторот точно предвидува реални податоци
- генерираните податоци се точно предвидени со дел.
На најдобриот изводлив дискриминатор, оваа функција на загуба потоа се минимизира:
Затоа, генеричките модели може да се сметаат како модели за минимизирање на растојанието и, ако дискриминаторот е идеален, како минимизирање на дивергенција помеѓу вистинската и произведената дистрибуција.
Во реалноста, може да се користат различни разлики и да резултираат со различни методи за обука на GAN.
Динамиката на учење, која вклучува компромис помеѓу генераторот и дискриминаторот, е предизвик да се следи, и покрај тоа што е едноставно да се прилагоди функцијата на загуба на GAN.
Исто така, нема гаранции дека учењето ќе се приближи. Како резултат на тоа, обуката на моделот GAN е тешко, бидејќи е типично да се наиде на проблеми како што се исчезнување на градиенти и колапс на режимот (кога нема разновидност во генерираните примероци).
Сега е време за моделите за дифузија
Проблемот со конвергенцијата на обуката на GAN е решен преку развојот на модели на дифузија.
Овие модели претпоставуваат дека процесот на дифузија е еквивалентен на загубата на информации предизвикана од прогресивната интерференција на бучавата (гаусовиот шум се додава во секој временски чекор од процесот на дифузија).
Целта на таквиот модел е да се утврди како бучавата влијае на информациите присутни во примерокот, или, поинаку кажано, колку информации се изгубени поради дифузија.
Ако моделот може да го сфати ова, треба да може да го врати оригиналниот примерок и да ја врати загубата на информации што се случила.
Ова се постигнува преку модел на дифузија на деноисирање. Процесот на напредна дифузија и процесот на обратна дифузија ги сочинуваат двата чекори.
Процесот на дифузија напред вклучува постепено додавање на гаусовиот шум (т.е. процес на дифузија) додека податоците целосно не се контаминираат со бучава.
Невронската мрежа последователно се обучува со користење на методот на обратна дифузија за да ги научи условните веројатности за дистрибуција за да го промени шумот.
Овде можете да разберете повеќе за модел на дифузија.
Модел на дифузија наспроти GAN
Како модел со дифузија, GAN-овите произведуваат слики од шум.
Моделот е составен од генераторска невронска мрежа, која започнува со шумот на некоја информативна променлива за условување, како што е ознака за класа или кодирање на текст.
Резултатот тогаш треба да биде нешто што наликува на реална слика.
За да создадеме фотореалистични и генерации на слики со висока верност, ние користиме GAN. Дури и пореални визуелни слики од GAN се произведуваат со помош на модели на дифузија.
На некој начин, моделите на дифузија се попрецизни во опишувањето на фактите.
Додека GAN зема како влезен случаен шум или променлива за климатизација на класата и дава реален примерок, моделите за дифузија често се побавни, повторливи и бараат многу повеќе насоки.
Нема многу простор за грешка кога деноизирањето се применува повеќепати со цел да се врати оригиналната слика од шумот.
Секоја контролна точка се поминува низ фазата на креирање и со секој чекор, сликата може да добие повеќе и повеќе информации.
Заклучок
Како заклучок, поради неколку значајни истражувања кои беа објавени само во 2020-тите и 2021 година, моделите на дифузија сега можат да ги надминат GAN-овите во однос на синтезата на слики.
Оваа година започна OpenAI ДАЛ-Е2, модел за производство на слики што им овозможува на практичарите да користат модели на дифузија.
Иако GAN се врвни, нивните ограничувања го прават предизвик да се размерат и да се користат во нови контексти.
Со цел да се постигне квалитет на примерокот сличен на GAN користејќи модели базирани на веројатност, вложено е многу работа во тоа.
Оставете Одговор