Втоонифи: Пренос видео стилова портрета високе резолуције који се може контролисати

Преглед садржаја[Сакрити][Прикажи]

Шта је Втоонифи?
Како то функционише?
Ограничења СтилеГАН-а и предложеног Втоонифија
Поређење Втоонифија са другим најсавременијим моделима+-
Предности+-
- Ограничења
Zakljucak

Пресудан је и пожељан задатак у компјутерској визији и графици да се произведу креативни портретни филмови највишег калибра.

Иако је предложено неколико ефикасних модела за тоонизацију портретне слике засноване на моћном СтилеГАН-у, ове технике оријентисане на слику имају јасне недостатке када се користе са видео записима, као што су фиксна величина оквира, захтев за поравнање лица, одсуство детаља који нису лица. , и временска недоследност.

Револуционарни ВТоонифи оквир се користи за решавање тешко контролисаног преноса портретног видео стила високе резолуције.

У овом чланку ћемо испитати најновију студију о ВТоонифију, укључујући његову функционалност, недостатке и друге факторе.

Шта је Втоонифи?

ВТоонифи оквир омогућава прилагодљив пренос портретног видео стила високе резолуције.

ВТоонифи користи СтилеГАН-ове слојеве средње и високе резолуције за креирање висококвалитетних уметничких портрета заснованих на карактеристикама садржаја у више размера које преузима енкодер како би задржао детаље оквира.

Резултирајућа потпуно конволуциона архитектура узима не-поравнана лица у филмовима променљиве величине као улаз, што резултира регионима целог лица са реалистичним покретима на излазу.

Втоонифи

Овај оквир је компатибилан са тренутним моделима тоонификације слика заснованим на СтилеГАН-у, омогућавајући им да се прошире на тоонизацију видеа, и наслеђује атрактивне карактеристике као што су подесива боја и прилагођавање интензитета.

ovo студирати уводи две инстанције ВТоонифи-а засноване на Тоонифи-у и ДуалСтилеГАН-у за пренос портретног видео стила заснованог на колекцији и узорку.

Опсежни експериментални налази показују да предложени оквир ВТоонифи надмашује постојеће приступе у прављењу висококвалитетних, временски кохерентних уметничких портретних филмова са променљивим параметрима стила.

Истраживачи пружају Гоогле Цолаб бележница, тако да можете упрљати руке на њему.

Како то функционише?

Да би се постигао подесиви пренос портретног видео стила високе резолуције, ВТоонифи комбинује предности оквира за превођење слика са оквиром заснованим на СтилеГАН-у.

Втоонифи Воркинг

Да би се прилагодио различитим величинама улаза, систем за превођење слика користи потпуно конволуционе мреже. Обука од нуле, с друге стране, онемогућава пренос високе резолуције и контролисаног стила.

Претходно обучени СтилеГАН модел се користи у оквиру заснованом на СтилеГАН-у за високу резолуцију и контролисан пренос стилова, иако је ограничен на фиксну величину слике и губитке детаља.

СтилеГАН је модификован у хибридном оквиру брисањем његове улазне карактеристике фиксне величине и слојева ниске резолуције, што резултира потпуно конволуционом архитектуром енкодер-генератор сличном оној у оквиру за превођење слика.

Да бисте задржали детаље оквира, обучите енкодер да издвоји карактеристике садржаја више скале из улазног оквира као додатни захтев за садржај за генератор. Втоонифи наслеђује флексибилност контроле стила СтилеГАН модела тако што га ставља у генератор да дестилује и своје податке и модел.

Ограничења СтилеГАН-а и предложеног Втоонифија

Уметнички портрети су уобичајени у нашем свакодневном животу, као иу креативним пословима као што су уметност, друштвени медији аватари, филмови, реклама за забаву и тако даље.

Са развојем дубоко учење технологије, сада је могуће креирати висококвалитетне уметничке портрете од стварних фотографија лица коришћењем аутоматизованог преноса стила портрета.

Постоји низ успешних начина креираних за пренос стилова заснованих на сликама, од којих су многи лако доступни корисницима почетницима у облику мобилних апликација. Видео материјал је брзо постао главни ослонац на нашим друштвеним мрежама током последњих неколико година.

Пораст друштвених медија и ефемерних филмова повећао је потражњу за иновативним видео монтажом, као што је пренос стилова портретног видеа, како би се створили успешни и занимљиви видео снимци.

Постојеће технике оријентисане на слику имају значајне недостатке када се примењују на филмове, ограничавајући њихову корисност у аутоматизованој стилизацији портретног видеа.

СтилеГАН је уобичајена окосница за развој модела преноса стила портретне слике због свог капацитета да креира лица високог квалитета са подесивим управљањем стилом.

Систем заснован на СтилеГАН-у (такође познат као тоонификација слике) кодира право лице у СтилеГАН латентни простор, а затим примењује резултујући стилски код на други СтилеГАН фино подешен на скупу података уметничког портрета да би направио стилизовану верзију.

СтилеГАН креира слике са поравнатим лицима и фиксне величине, што не фаворизује динамична лица на снимцима из стварног света. Опсецање и поравнавање лица у видео снимку понекад доводе до делимичног лица и непријатних покрета. Истраживачи ово питање називају СтилеГАН-овим „ограничењем фиксног усева“.

За лица која нису поравната, предложен је СтилеГАН3; међутим, подржава само подешену величину слике.

Штавише, недавна студија је открила да је кодирање неусклађених лица изазовније од поравнатих лица. Нетачно кодирање лица је штетно за пренос стила портрета, што доводи до проблема као што су промена идентитета и недостајуће компоненте у реконструисаним и стилизованим оквирима.

Као што је дискутовано, ефикасна техника за пренос портретног видео стила мора да реши следеће проблеме:

Да би се очували реалистични покрети, приступ мора бити у стању да се носи са неусклађеним лицима и различитим величинама видео записа. Велика величина видео снимка или широк угао гледања могу да схвате више информација док се лице не помера из оквира.
Да бисмо се такмичили са данашњим често коришћеним ХД уређајима, видео високе резолуције је неопходан.
Флексибилну контролу стила треба понудити корисницима да измене и изаберу свој избор када развијају реалистичан систем интеракције корисника.

У ту сврху, истраживачи предлажу ВТоонифи, нови хибридни оквир за видео тоонизацију. Да би превазишли ограничење фиксног усева, истраживачи прво проучавају еквиваријансу превода у СтилеГАН-у.

ВТоонифи комбинује предности архитектуре засноване на СтилеГАН-у и оквира за превођење слика да би се постигао подесиви пренос портретног видео стила високе резолуције.

Следећи су главни доприноси:

Истраживачи истражују СтилеГАН-ово ограничење фиксног усева и предлажу решење засновано на еквиваријанси превода.
Истраживачи представљају јединствени потпуно конволутивни ВТоонифи оквир за контролисани пренос портретног видео стила високе резолуције који подржава непоравнана лица и различите величине видео записа.
Истраживачи конструишу ВТоонифи на окосницама Тоонифија и ДуалСтилеГАН-а и кондензују окоснице у смислу података и модела како би омогућили пренос портретног видео стила заснованог на прикупљању и узору.

Поређење Втоонифија са другим најсавременијим моделима

Тоонифи

Служи као основа за пренос стилова заснован на колекцији на поравнатим лицима помоћу СтилеГАН-а. Да би преузели кодове стилова, истраживачи морају да поравнају лица и исеку 256256 фотографија за ПСП. Тоонифи се користи за генерисање стилизованог исхода са стилским кодовима 1024*1024.

Коначно, они поново поравнавају резултат у видеу са првобитном локацијом. Нестилизована област је постављена на црно.

Поређење Втоонифија са другим најсавременијим моделима

ДуалСтилеГАН

То је окосница за пренос стилова заснованог на узору заснованом на СтилеГАН-у. Они користе исте технике пре и накнадне обраде података као Тоонифи.

Пик2пикХД

То је модел превођења слике у слику који се обично користи за кондензацију унапред обучених модела за уређивање у високој резолуцији. Обучава се коришћењем упарених података.

Истраживачи користе пик2пикХД као додатне улазе за мапу инстанце пошто користи екстраховану мапу за рашчлањивање.

Захтев првог реда

ФОМ је типичан модел анимације слике. Обучен је на 256256 слика и лоше ради са другим величинама слика. Као последица тога, истраживачи прво скалирају видео оквире на 256*256 за ФОМ за анимацију, а затим мењају величину резултата на њихову оригиналну величину.

За поштено поређење, ФОМ користи први стилизовани оквир свог приступа као своју референтну стилску слику.

ДаГАН

То је 3Д модел анимације лица. Они користе исте методе припреме и накнадне обраде података као и ФОМ.

Цомарисион

Предности

Може се користити у уметности, аватарима на друштвеним мрежама, филмовима, рекламама за забаву и тако даље.
Втоонифи се такође може користити у метаверзуму.

Ограничења

Ова методологија издваја и податке и модел из окосница заснованих на СтилеГАН-у, што резултира пристрасношћу података и модела.
Артефакти су углавном узроковани разликама у величини између региона стилизованог лица и осталих делова.
Ова стратегија је мање успешна када се ради о стварима у региону лица.

Zakljucak

Коначно, ВТоонифи је оквир за тоонизацију видеа високе резолуције контролисане стилом.

Овај оквир постиже одличне перформансе у руковању видео записима и омогућава широку контролу над структурним стилом, стилом боје и степеном стила кондензацијом модела тоонификације слика заснованих на СтилеГАН-у у смислу њиховог синтетички подаци и мрежне структуре.

Втоонифи: Пренос видео стилова портрета високе резолуције који се може контролисати

Шта је Втоонифи?

Како то функционише?

Ограничења СтилеГАН-а и предложеног Втоонифија