Vtoonify: кіраваная партрэтная перадача відэа ў высокім разрозненні

Змест[Схаваць][Паказаць]

Што такое Vtoonify?
Як гэта працуе?
Абмежаванні StyleGAN і прапанаванага Vtoonify
Параўнанне Vtoonify з іншымі самымі сучаснымі мадэлямі+-
перавагі+-
- Недахопы
заключэнне

Гэта важная і жаданая задача ў галіне камп'ютэрнага зроку і графікі - ствараць творчыя партрэтныя фільмы самага высокага ўзроўню.

Нягледзячы на тое, што было прапанавана некалькі эфектыўных мадэляў партрэтнай таніфікацыі выявы, заснаванай на магутным StyleGAN, гэтыя метады, арыентаваныя на выяву, маюць відавочныя недахопы пры выкарыстанні з відэа, такія як фіксаваны памер кадра, патрабаванне да выраўноўвання твару, адсутнасць неасабовых дэталяў. , і часовая неадпаведнасць.

Рэвалюцыйная структура VToonify выкарыстоўваецца для барацьбы са складанай кантраляванай перадачай партрэтнага відэа ў высокім раздзяленні.

У гэтым артыкуле мы разгледзім апошняе даследаванне VToonify, уключаючы яго функцыянальнасць, недахопы і іншыя фактары.

Што такое Vtoonify?

Фреймворк VToonify дазваляе наладжваць партрэтную перадачу відэа ў высокім разрозненні.

VToonify выкарыстоўвае пласты сярэдняга і высокага разрознення StyleGAN для стварэння высакаякасных мастацкіх партрэтаў на аснове шматмаштабных характарыстык кантэнту, атрыманых кадавальнікам для захавання дэталяў кадра.

Атрыманая ў выніку поўная згорткавая архітэктура прымае невыраўнаваныя твары ў фільмах зменнага памеру ў якасці ўваходных дадзеных, што прыводзіць да суцэльных абласцей твару з рэалістычнымі рухамі на выхадзе.

Vtoonify

Гэты фрэймворк сумяшчальны з сучаснымі мадэлямі таанізацыі выявы на аснове StyleGAN, што дазваляе пашыраць іх на мультыфікацыю відэа, і мае ў спадчыну такія прывабныя характарыстыкі, як рэгуляваны колер і налада інтэнсіўнасці.

Гэта вучыцца прадстаўляе дзве версіі VToonify на аснове Toonify і DualStyleGAN для перадачы партрэтнага стылю відэа на аснове калекцыі і ўзору адпаведна.

Шырокія эксперыментальныя вынікі паказваюць, што прапанаваная структура VToonify пераўзыходзіць існуючыя падыходы да стварэння высакаякасных, узгодненых у часе мастацкіх партрэтных фільмаў са зменнымі параметрамі стылю.

Даследчыкі забяспечваюць Сшытак Google Colab, так што вы можаце выпацкаць на ім рукі.

Як гэта працуе?

Для выканання рэгуляванай перадачы партрэтнага відэа ў высокім раздзяленні VToonify аб'ядноўвае перавагі сістэмы перакладу малюнкаў са структурай на аснове StyleGAN.

Vtoonify працуе

Каб прыстасаваць розныя памеры ўваходных дадзеных, сістэма перакладу малюнкаў выкарыстоўвае цалкам згорткавыя сеткі. З іншага боку, навучанне з нуля робіць немагчымым перадачу з высокім дазволам і кантраляваным стылем.

Папярэдне падрыхтаваная мадэль StyleGAN выкарыстоўваецца ў структуры на аснове StyleGAN для высокай раздзяляльнасці і кантраляванай перадачы стылю, хоць яна абмежавана фіксаваным памерам выявы і стратай дэталяў.

StyleGAN мадыфікаваны ў гібрыднай структуры шляхам выдалення функцыі ўводу з фіксаваным памерам і слаёў з нізкім разрозненнем, у выніку чаго атрымліваецца цалкам згорткавая архітэктура кадавальніка-генератара, падобная да структуры трансляцыі малюнкаў.

Каб падтрымліваць дэталі кадра, навучыце кадавальнік здабываць шматмаштабныя характарыстыкі кантэнту ўваходнага кадра ў якасці дадатковага патрабавання да кантэнту для генератара. Vtoonify успадкоўвае гібкасць кіравання стылем мадэлі StyleGAN, змясціўшы яго ў генератар для апрацоўкі дадзеных і мадэлі.

Абмежаванні StyleGAN і прапанаванага Vtoonify

Мастацкія партрэты часта сустракаюцца ў нашым штодзённым жыцці, а таксама ў такіх творчых сферах, як мастацтва, сацыяльныя медыя аватары, фільмы, забаўляльная рэклама і гэтак далей.

З развіццём а глыбокае вывучэнне тэхналогіі, цяпер можна ствараць высакаякасныя мастацкія партрэты з рэальных фатаграфій твараў з дапамогай аўтаматызаванай перадачы партрэтнага стылю.

Існуе мноства паспяховых спосабаў перадачы стылю на аснове малюнкаў, многія з якіх лёгка даступныя пачаткоўцам у выглядзе мабільных прыкладанняў. За апошнія некалькі гадоў відэаматэрыялы хутка сталі асновай нашых сацыяльных сетак.

Рост сацыяльных сетак і эфемерных фільмаў павялічыў попыт на інавацыйнае рэдагаванне відэа, такое як перадача партрэтнага стылю відэа, для стварэння паспяховых і цікавых відэа.

Існуючыя метады, арыентаваныя на малюнак, маюць значныя недахопы пры ўжыванні да фільмаў, што абмяжоўвае іх прымяненне ў аўтаматызаванай стылізацыі партрэтнага відэа.

StyleGAN з'яўляецца агульнай асновай для распрацоўкі мадэлі перадачы стылю партрэтнага малюнка дзякуючы сваёй здольнасці ствараць высакаякасныя твары з рэгуляваным кіраваннем стылем.

Сістэма, заснаваная на StyleGAN (таксама вядомая як таніфікацыя малюнкаў), кадуе рэальны твар у латэнтную прастору StyleGAN, а затым прымяняе атрыманы код стылю да іншага StyleGAN, наладжанага на наборы даных мастацкага партрэта, каб стварыць стылізаваную версію.

StyleGAN стварае выявы з выраўнаванымі тварамі і фіксаваным памерам, што не спрыяе дынамічным тварам у рэальным відэаматэрыяле. Абрэзка твару і выраўноўванне ў відэа часам прыводзяць да частковага твару і нязручных жэстаў. Даследчыкі называюць гэтую праблему StyleGAN "абмежаваннем фіксаванага ўраджаю".

Для невыраўнаваных граняў быў прапанаваны StyleGAN3; аднак ён падтрымлівае толькі зададзены памер выявы.

Акрамя таго, нядаўняе даследаванне паказала, што кадзіраваць невыраўнаваныя грані больш складана, чым выраўнаваныя. Няправільнае кадзіраванне твару шкодзіць перадачы партрэтнага стылю, што прыводзіць да такіх праблем, як змяненне асобы і адсутнасць кампанентаў у рэканструяваных і стылізаваных кадрах.

Як ужо гаварылася, эфектыўная тэхніка перадачы партрэтнага стылю відэа павінна вырашаць наступныя праблемы:

Каб захаваць рэалістычныя рухі, гэты падыход павінен мець магчымасць мець справу з няроўнымі тварамі і рознымі памерамі відэа. Вялікі памер відэа ці шырокі вугал агляду могуць захапіць больш інфармацыі, не даючы твару выйсці з кадра.
Каб канкураваць з шырока распаўсюджанымі сучаснымі HD-гаджэтамі, неабходна відэа высокай раздзяляльнасці.
Гнуткі кантроль над стылем павінен быць прапанаваны карыстальнікам для змены і выбару пры распрацоўцы рэалістычнай сістэмы ўзаемадзеяння з карыстальнікам.

З гэтай мэтай даследчыкі прапануюць VToonify, новую гібрыдную структуру для мультыфікацыі відэа. Каб пераадолець абмежаванне фіксаванага ўраджаю, даследчыкі спачатку вывучаюць эквіварыянтнасць перакладу ў StyleGAN.

VToonify аб'ядноўвае перавагі архітэктуры на аснове StyleGAN і структуры перакладу малюнкаў для дасягнення рэгуляванай перадачы партрэтнага відэа ў высокім разрозненні.

Наступныя асноўныя ўклады:

Даследчыкі даследуюць абмежаванне фіксаванага ўраджаю StyleGAN і прапануюць рашэнне, заснаванае на эквіварыянтнасці перакладу.
Даследчыкі прадстаўляюць унікальную цалкам канвалюцыйную структуру VToonify для кіраванай перадачы партрэтнага відэа ў высокім раздзяленні, якая падтрымлівае невыраўнаваныя твары і розныя памеры відэа.
Даследчыкі ствараюць VToonify на аснове Toonify і DualStyleGAN і кандэнсуюць магістралі з пункту гледжання як дадзеных, так і мадэлі, каб забяспечыць перадачу партрэтнага стылю відэа на аснове калекцыі і ўзору.

Параўнанне Vtoonify з іншымі самымі сучаснымі мадэлямі

Toonify

Ён служыць асновай для перадачы стылю на аснове калекцыі на выраўнаваных гранях з дапамогай StyleGAN. Каб атрымаць коды стыляў, даследчыкі павінны выраўнаваць твары і абрэзаць 256256 фатаграфій для PSP. Toonify выкарыстоўваецца для стварэння стылізаванага выніку з кодамі стыляў 1024*1024.

Нарэшце, яны зноў выраўноўваюць вынік у відэа ў зыходным месцы. Нестылізаваная вобласць была зададзена ў чорны колер.

Параўнанне Vtoonify з іншымі сучаснымі мадэлямі

DualStyleGAN

Гэта аснова для перадачы стылю на аснове ўзораў на аснове StyleGAN. Яны выкарыстоўваюць тыя ж метады папярэдняй і пост-апрацоўкі дадзеных, што і Toonify.

Pix2pixHD

Гэта мадэль перакладу выявы ў выяву, якая звычайна выкарыстоўваецца для кандэнсацыі папярэдне падрыхтаваных мадэляў для рэдагавання ў высокай раздзяляльнасці. Ён навучаецца з дапамогай парных дадзеных.

Даследчыкі выкарыстоўваюць pix2pixHD у якасці дадатковага ўводу карты асобніка, паколькі ён выкарыстоўвае вынятую карту аналізу.

Рух першага парадку

FOM - тыповая мадэль анімацыі выявы. Ён быў навучаны на 256256 выявах і дрэнна працуе з выявамі іншых памераў. Як следства, даследчыкі спачатку маштабуюць відэакадры да 256*256 для FOM для анімацыі, а затым змяняюць памер вынікаў да зыходнага памеру.

Для справядлівага параўнання FOM выкарыстоўвае першы стылізаваны кадр свайго падыходу ў якасці эталоннага відарыса стылю.

ДаГАН

Гэта 3D-мадэль анімацыі асобы. Яны выкарыстоўваюць тыя ж метады падрыхтоўкі і постапрацоўкі даных, што і FOM.

Параўноўванне

перавагі

Ён можа быць выкарыстаны ў мастацтве, аватары ў сацыяльных сетках, кіно, рэкламе забаў і гэтак далей.
Vtoonify таксама можна выкарыстоўваць у метасусвету.

Недахопы

Гэтая метадалогія здабывае як дадзеныя, так і мадэль з магістраляў на аснове StyleGAN, што прыводзіць да зрушэння дадзеных і мадэлі.
Артэфакты ў асноўным выкліканы розніцай у памеры стылізаванай вобласці твару і іншых частак.
Гэтая стратэгія менш паспяховая пры працы з рэчамі ў вобласці твару.

заключэнне

Нарэшце, VToonify - гэта структура для мультыфікацыі відэа высокай раздзяляльнасці з кантраляваным стылем.

Гэты фрэймворк дасягае высокай прадукцыйнасці пры апрацоўцы відэа і забяспечвае шырокі кантроль над структурным стылем, каляровым стылем і ступенню стылю шляхам кандэнсацыі мадэляў таніфікацыі выявы на аснове StyleGAN з пункту гледжання іх сінтэтычныя дадзеныя і сеткавыя структуры.

Vtoonify: перадача стылю партрэтнага відэа высокай раздзяляльнасці з кантролем

Што такое Vtoonify?

Як гэта працуе?

Абмежаванні StyleGAN і прапанаванага Vtoonify