Увогуле, глыбокія генератыўныя мадэлі, такія як GAN, VAE і аўтарэгрэсіўныя мадэлі, вырашаюць праблемы сінтэзу выявы.
Улічваючы высокую якасць даных, якія яны ствараюць, генератыўныя спаборніцкія сеткі (GAN) атрымалі вялікую ўвагу ў апошнія гады.
Мадэлі дыфузіі - яшчэ адна захапляльная вобласць даследаванняў, якая зарэкамендавала сябе. Сферы стварэння выявы, відэа і голасу знайшлі шырокае прымяненне абодвум.
Дыфузійныя мадэлі супраць GAN: што дае лепшыя вынікі? Натуральна, гэта прывяло да пастаяннай дыскусіі.
У вылічальнай архітэктуры, вядомай як GAN, два нейронавыя сеткі змагаюцца адзін супраць аднаго, каб вырабіць новыя сінтэзаваныя асобнікі дадзеных, якія могуць выдаць за сапраўдныя дадзеныя.
Дыфузійныя мадэлі становяцца ўсё больш папулярнымі, паколькі забяспечваюць стабільнасць навучання і высокія вынікі для стварэння музыкі і графікі.
У гэтым артыкуле падрабязна разглядаюцца мадэль дыфузіі і GAN, а таксама тое, чым яны адрозніваюцца адзін ад аднаго, і некалькі іншых рэчаў.
Такім чынам, што такое генератыўныя канкурэнтныя сеткі?
Для стварэння новых штучных асобнікаў даных, якія могуць быць прыняты за сапраўдныя даныя, генератыўныя спаборніцкія сеткі (GAN) выкарыстоўваюць дзве нейронавыя сеткі і супрацьпастаўляюць іх адна адной (такім чынам, «спаборніцкая» ў назве).
Яны шырока выкарыстоўваюцца для стварэння прамовы, відэа і малюнкаў.
Мэтай GAN з'яўляецца стварэнне раней не выяўленых даных з пэўнага набору даных. Спроба вывесці мадэль фактычнага, неапазнанага базавага размеркавання дадзеных з узораў, робіць гэта.
Іншымі словамі, гэтыя сеткі з'яўляюцца няяўнымі мадэлямі, якія спрабуюць вывучыць пэўнае статыстычнае размеркаванне.
Метад, які GAN выкарыстаў, каб даведацца, як дасягнуць гэтай мэты, быў новым. Фактычна, яны ствараюць дадзеныя, гуляючы ў гульню для двух гульцоў, каб распрацаваць няяўную мадэль.
Далей апісваецца структура:
- дыскрымінатар, які атрымлівае магчымасць адрозніваць сапраўдныя дадзеныя ад падробленых
- генератар, які выбірае новыя спосабы стварэння даных, можа падмануць дыскрымінатара.
Дыскрымінатар ўяўляе сабой нейрасетку. Такім чынам, генератар павінен стварыць карцінку з высокай якасцю, каб падмануць яго.
Той факт, што гэтыя генератары не навучаюцца з выкарыстаннем якога-небудзь размеркавання выхаду, з'яўляецца істотным адрозненнем паміж мадэлямі аўтакадавальніка і іншымі мадэлямі.
Ёсць два спосабы разлажэння функцыі страт мадэлі:
- магчымасць колькаснай ацэнкі, калі дыскрымінатар дакладна прадбачыць рэальныя дадзеныя
- згенераваныя даныя дакладна прадказваюцца часткай.
На найлепшым магчымым дыскрымінатары гэтая функцыя страт мінімізуецца:
Такім чынам, агульныя мадэлі можна разглядаць як мадэлі мінімізацыі адлегласці і, калі дыскрымінатар ідэальны, як мінімізацыю разыходжанняў паміж сапраўдным і атрыманым размеркаваннем.
У рэчаіснасці могуць выкарыстоўвацца розныя разыходжанні, што прыводзіць да розных метадаў навучання GAN.
Дынаміку навучання, якая ўключае кампраміс паміж генератарам і дыскрымінатарам, складана прасачыць, нягледзячы на тое, што наладзіць функцыю страт GAN проста.
Таксама няма гарантый, што навучанне сыдзецца. У выніку навучанне мадэлі GAN складанае, бо звычайна ўзнікаюць такія праблемы, як знікненне градыентаў і згортванне рэжыму (пры адсутнасці разнастайнасці ў згенераваных выбарках).
Цяпер прыйшоў час для мадэляў дыфузіі
Праблема з вучэбнай канвергенцыяй GAN была вырашана шляхам распрацоўкі дыфузійных мадэляў.
Гэтыя мадэлі мяркуюць, што працэс дыфузіі эквівалентны страце інфармацыі, выкліканай прагрэсавальнай інтэрферэнцыяй шуму (шум Гауса дадаецца на кожным кроку працэсу дыфузіі).
Мэта такой мадэлі - вызначыць, як шум уплывае на інфармацыю, прысутную ў выбарцы, або, кажучы іншымі словамі, колькі інфармацыі губляецца з-за дыфузіі.
Калі мадэль можа гэта высветліць, яна павінна мець магчымасць атрымаць зыходны ўзор і ліквідаваць страту інфармацыі, якая адбылася.
Гэта дасягаецца з дапамогай мадэлі дыфузіі з шумам. Працэс прамой і зваротнай дыфузіі складаюць два этапы.
Працэс прамой дыфузіі ўключае паступовае даданне шуму Гаўса (г.зн. працэс дыфузіі), пакуль дадзеныя не будуць цалкам забруджаныя шумам.
Нейронная сетка пасля навучаецца з выкарыстаннем метаду зваротнай дыфузіі, каб даведацца верагоднасці ўмоўнага размеркавання, каб змяніць шум.
Тут вы можаце даведацца больш пра дыфузійная мадэль.
Дыфузійная мадэль супраць GAN
Як дыфузійная мадэль, GAN ствараюць выявы з шуму.
Мадэль складаецца з нейронавай сеткі генератара, якая пачынаецца з шуму некаторай інфарматыўнай зменнай кандыцыянавання, напрыклад, меткі класа або кадавання тэксту.
У выніку павінна атрымацца нешта, што нагадвае рэалістычны малюнак.
Для стварэння фотарэалістычных і высокадакладных пакаленняў малюнкаў мы выкарыстоўваем GAN. З выкарыстаннем дыфузійных мадэляў ствараюцца нават больш рэалістычныя візуальныя эфекты, чым GAN.
У пэўным сэнсе, дыфузійныя мадэлі больш дакладныя ў апісанні фактаў.
У той час як GAN прымае ў якасці ўваходу выпадковы шум або зменную кандыцыянавання класа і выдае рэалістычную выбарку, мадэлі дыфузіі часта больш павольныя, ітэрацыйныя і патрабуюць значна большага кіраўніцтва.
Няма шмат месца для памылак, калі выдаленне шуму прымяняецца паўторна з мэтай вяртання зыходнага відарыса з шуму.
Кожны кантрольны пункт праходзіць на працягу ўсяго этапу стварэння, і з кожным крокам малюнак можа атрымліваць усё больш і больш інфармацыі.
заключэнне
У заключэнне, з-за нешматлікіх значных даследаванняў, якія былі апублікаваны толькі ў 2020-х і 2021 гадах, мадэлі дыфузіі цяпер могуць пераўзыходзіць GAN з пункту гледжання сінтэзу малюнкаў.
У гэтым годзе быў запушчаны OpenAI АД-Е 2, мадэль вытворчасці малюнкаў, якая дазваляе практыкам выкарыстоўваць мадэлі дыфузіі.
Хоць GAN з'яўляюцца перадавымі, іх абмежаванні ўскладняюць маштабаванне і выкарыстанне ў новых умовах.
Каб дасягнуць якасці выбаркі, падобнай да GAN, з выкарыстаннем мадэляў, заснаваных на верагоднасці, было ўкладзена шмат працы.
Пакінуць каментар