Преглед садржаја[Сакрити][Прикажи]
Генерално, дубоки генеративни модели као што су ГАН, ВАЕ и ауторегресивни модели решавају проблеме синтезе слике.
С обзиром на висок квалитет података које стварају, генеративне адверсарилне мреже (ГАН) су добиле велику пажњу последњих година.
Модели дифузије су још једна фасцинантна област проучавања која се етаблирала. Поља генерисања слике, видеа и гласа су нашла широку употребу за оба.
Дифузиони модели наспрам ГАН-ова: који производи боље резултате? Наравно, ово је довело до текуће дискусије.
У рачунарској архитектури познатој као ГАН, два неуронске мреже се боре једни против других како би произвели новосинтетизоване инстанце података који могу да прођу као прави подаци.
Дифузиони модели постају све популарнији јер обезбеђују стабилност тренинга и високе резултате за производњу музике и графике.
Овај чланак ће детаљно проћи кроз модел дифузије и ГАН-ове, као и како се они разликују једни од других и неколико других ствари.
Дакле, шта су генеративне супарничке мреже?
Да би се створиле нове, вештачке инстанце података које би се могле погрешно сматрати правим подацима, генеративне адверсаријске мреже (ГАН) користе две неуронске мреже и супротстављају их једна другој (дакле, „адверсариал“ у називу).
Они се у великој мери користе за стварање говора, видеа и слика.
Циљ ГАН-а је да креира претходно неоткривене податке из одређеног скупа података. Покушај да се закључи модел стварне, неидентификоване основне дистрибуције података из узорака, то чини.
Алтернативно речено, ове мреже су имплицитни модели који покушавају да науче специфичну статистичку дистрибуцију.
Метода коју је ГАН користио да открије како да постигне овај циљ била је нова. У ствари, они производе податке играјући игру за два играча како би развили имплицитни модел.
Следеће описује структуру:
- дискриминатор који добија могућност да разликује аутентичне и лажне податке
- генератор који бира нове начине за креирање података може преварити дискриминатора.
Дискриминатор се представља као неуронска мрежа. Стога, генератор треба да створи слику високог квалитета да би је преварио.
Чињеница да ови генератори нису обучени коришћењем било какве излазне дистрибуције је значајна разлика између модела аутоенкодера и других модела.
Постоје два начина да се декомпонује функција губитка модела:
- могућност квантификације да ли дискриминатор тачно предвиђа стварне податке
- генерисани подаци су тачно предвиђени делом.
На најбољем могућем дискриминатору, ова функција губитка је тада минимизирана:
Генерички модели се стога могу посматрати као модели минимизације удаљености и, ако је дискриминатор идеалан, као минимизација дивергенције између праве и произведене дистрибуције.
У стварности, различите дивергенције се могу користити и резултирати различитим ГАН методама обуке.
Динамику учења, која укључује компромис између генератора и дискриминатора, тешко је пратити, упркос томе што је једноставно прилагодити функцију губитка ГАН-а.
Такође нема гаранција да ће се учење приближити. Као резултат тога, обучавање ГАН модела је тешко, пошто је типично наићи на проблеме као што су нестајање градијента и колапс режима (када нема разноликости у генерисаним узорцима).
Сада је време за моделе дифузије
Проблем са конвергенцијом обуке ГАН-а је решен развојем модела дифузије.
Ови модели претпостављају да је процес дифузије еквивалентан губитку информација изазваном прогресивном интерференцијом буке (гаусов шум се додаје у сваком временском кораку процеса дифузије).
Сврха оваквог модела је да утврди како шум утиче на информације присутне у узорку, или, другачије речено, колико информација се губи услед дифузије.
Ако модел то може да схвати, требало би да буде у стању да преузме оригинални узорак и поништи губитак информација који је настао.
Ово се постиже кроз модел дифузије за смањење шума. Процес напредне дифузије и процес реверзне дифузије чине два корака.
Процес напредне дифузије укључује постепено додавање Гаусовог шума (тј. процес дифузије) све док подаци нису потпуно контаминирани шумом.
Неуронска мрежа се накнадно обучава коришћењем методе реверзне дифузије да би научила вероватноће условне дистрибуције за преокретање буке.
Овде можете разумети више о модел дифузије.
Модел дифузије против ГАН-ова
Попут модела дифузије, ГАН производи слике из буке.
Модел је састављен од генераторске неуронске мреже, која почиње са шумом неке информативне условне променљиве, као што је ознака класе или кодирање текста.
Резултат би тада требало да буде нешто што личи на реалистичну слику.
Да бисмо креирали фотореалистичне генерације слика високе верности, користимо ГАН-ове. Још реалистичнији визуелни прикази од ГАН-а се производе коришћењем дифузионих модела.
На неки начин, модели дифузије су тачнији у описивању чињеница.
Док ГАН као улаз узима случајни шум или променљиву условљавања класе и даје реалистичан узорак, модели дифузије су често спорији, итеративни и захтевају много више смерница.
Нема много места за грешке када се уклањање шума примењује више пута са циљем да се врати на оригиналну слику из шума.
Свака контролна тачка се пролази кроз фазу креирања, а са сваким кораком, слика може добити све више и више информација.
Zakljucak
У закључку, због неколико значајних истраживања која су објављена тек 2020-их и 2021. године, модели дифузије сада могу надмашити ГАН-ове у смислу синтезе слике.
Ове године је покренут ОпенАИ ДАЛЛ-Е2, модел производње слике који омогућава практичарима да користе моделе дифузије.
Иако су ГАН-ови најсавременији, њихова ограничења чине изазовима њихово скалирање и употребу у новим контекстима.
Да би се постигао квалитет узорка сличан ГАН-у коришћењем модела заснованих на вероватноћи, много је посла уложено у то.
Ostavite komentar