Vtoonify: Басқарылатын жоғары ажыратымдылықтағы портреттік бейне стилін тасымалдау

Мазмұны[Жасыру][Көрсету]

Vtoonify дегеніміз не?
Бұл қалай жұмыс істейді?
StyleGAN және ұсынылған Vtoonify шектеулері
Vtoonify басқа заманауи үлгілермен салыстыру+-
артықшылықтары+-
- шектеулер
қорытынды

Компьютерлік көру және графикадағы ең жоғары калибрлі шығармашылық портреттік фильмдерді шығару өте маңызды және қалаулы міндет.

Күшті StyleGAN негізінде портреттік кескінді тонификациялаудың бірнеше тиімді үлгілері ұсынылғанымен, бұл кескінге бағытталған әдістер бейнелермен пайдаланылған кезде нақты кемшіліктерге ие, мысалы, бекітілген кадр өлшемі, бетті туралау талабы, бет-әлпетсіз бөлшектердің болмауы. , және уақытша сәйкессіздік.

Төңкерісшіл VToonify құрылымы қиын басқарылатын жоғары ажыратымдылықтағы портреттік бейне стилін тасымалдауды шешу үшін пайдаланылады.

Біз осы мақалада VToonify туралы ең соңғы зерттеуді, оның ішінде оның функционалдығын, кемшіліктерін және басқа факторларды қарастырамыз.

Vtoonify дегеніміз не?

VToonify құрылымы теңшелетін жоғары ажыратымдылықтағы портреттік бейне стилін жіберуге мүмкіндік береді.

VToonify кадр мәліметтерін сақтау үшін кодтауыш арқылы алынған көп масштабты мазмұн сипаттамаларына негізделген жоғары сапалы көркем портреттер жасау үшін StyleGAN орта және жоғары ажыратымдылықтағы қабаттарын пайдаланады.

Нәтижедегі толық конвульсиялық архитектура айнымалы өлшемді фильмдердегі тураланбаған беттерді кіріс ретінде қабылдайды, нәтижесінде шығыста шынайы қозғалыстары бар бүкіл бет аймақтары пайда болады.

Vtoonify

Бұл құрылым қазіргі StyleGAN негізіндегі кескінді тонификациялау үлгілерімен үйлесімді, оларды бейне тонификациясына кеңейтуге мүмкіндік береді және реттелетін түс пен қарқындылықты теңшеу сияқты тартымды сипаттарды мұра етеді.

осы оқу тиісінше коллекцияға негізделген және үлгі негізіндегі портреттік бейне стилін тасымалдау үшін Toonify және DualStyleGAN негізіндегі VToonify екі данасын ұсынады.

Кең ауқымды эксперименттік қорытындылар ұсынылған VToonify құрылымы айнымалы мәнер параметрлері бар жоғары сапалы, уақытша үйлесімді көркем портреттік фильмдерді жасаудағы бар тәсілдерден асып түсетінін көрсетеді.

Зерттеушілер ұсынады Google Colab жазу кітапшасы, сондықтан қолдарыңызды ластауға болады.

Бұл қалай жұмыс істейді?

Реттелетін жоғары ажыратымдылықтағы портреттік бейне стилін тасымалдауды орындау үшін VToonify кескінді аудару құрылымының артықшылықтарын StyleGAN негізіндегі құрылыммен біріктіреді.

Vtoonify жұмыс істейді

Әртүрлі енгізу өлшемдерін орналастыру үшін кескінді аудару жүйесі толығымен конволюционды желілерді пайдаланады. Екінші жағынан, нөлден бастап оқыту жоғары ажыратымдылықты және басқарылатын стильді беруді мүмкін емес етеді.

Алдын ала дайындалған StyleGAN үлгісі жоғары ажыратымдылық пен бақыланатын мәнерді тасымалдау үшін StyleGAN негізіндегі құрылымда пайдаланылады, бірақ ол бекітілген сурет өлшемімен және егжей-тегжейлі жоғалтулармен шектеледі.

StyleGAN гибридті құрылымда оның бекітілген өлшемді енгізу мүмкіндігін және ажыратымдылығы төмен қабаттарды жою арқылы өзгертілген, нәтижесінде кескінді аудару құрылымына ұқсас толық конволюциялық кодтаушы-генератор архитектурасы пайда болады.

Жақтау мәліметтерін сақтау үшін, генераторға қосымша мазмұн талабы ретінде кіріс кадрының көп масштабты мазмұн сипаттамаларын шығару үшін кодтағышты жаттықтырыңыз. Vtoonify StyleGAN үлгісінің стильді басқару икемділігін оның деректерін де, үлгісін де тазарту үшін генераторға қою арқылы мұра етеді.

StyleGAN және ұсынылған Vtoonify шектеулері

Көркем портреттер біздің күнделікті өмірімізде де, өнер сияқты шығармашылық бизнесте де жиі кездеседі. әлеуметтік медиа аватарлар, фильмдер, ойын-сауық жарнамалары және т.б.

Дамуымен терең білім алу технологияның көмегімен енді автоматтандырылған портрет стилін тасымалдау арқылы шынайы өмірдегі бет фотоларынан жоғары сапалы көркем портреттер жасауға болады.

Кескінге негізделген стильді тасымалдау үшін жасалған көптеген сәтті жолдар бар, олардың көпшілігіне мобильді қосымшалар түрінде жаңадан бастаған пайдаланушылар оңай қол жетімді. Бейнематериал соңғы бірнеше жыл ішінде біздің әлеуметтік медиа арналарымыздың негізгі тірегіне айналды.

Әлеуметтік медиа мен эфемерлі фильмдердің өсуі сәтті және қызықты бейнелерді жасау үшін портреттік бейне стилін тасымалдау сияқты инновациялық бейне өңдеуге сұранысты арттырды.

Қолданыстағы кескінге бағытталған әдістер фильмдерге қолданылғанда елеулі кемшіліктерге ие, олардың автоматтандырылған портреттік бейне стилизациясында пайдалылығын шектейді.

StyleGAN — стильді басқару мүмкіндігімен жоғары сапалы беттерді жасау мүмкіндігіне байланысты портреттік сурет мәнерін тасымалдау үлгісін әзірлеуге арналған жалпы негіз.

StyleGAN негізіндегі жүйе (сондай-ақ суретті тонификация ретінде белгілі) нақты бетті StyleGAN жасырын кеңістігіне кодтайды, содан кейін стильдендірілген нұсқаны жасау үшін алынған мәнер кодын көркем портрет деректер жинағында дәл реттелген басқа StyleGAN-ға қолданады.

StyleGAN беттері тураланған және бекітілген өлшемдегі суреттерді жасайды, бұл нақты әлемдегі кадрларда динамикалық беттерді ұнатпайды. Бейнедегі бетті қию және туралау кейде жартылай бет пен ыңғайсыз қимылдарға әкеледі. Зерттеушілер бұл мәселені StyleGAN-ның «тіркелген дақыл шектеуі» деп атайды.

Біркелкі емес беттер үшін StyleGAN3 ұсынылды; бірақ ол тек орнатылған сурет өлшемін қолдайды.

Сонымен қатар, жақында жүргізілген зерттеу тураланбаған беттерді кодтау тураланған беттерге қарағанда қиынырақ екенін анықтады. Бетті қате кодтау портрет мәнерін тасымалдауға зиян келтіреді, нәтижесінде қайта құрастырылған және стильдендірілген кадрларда сәйкестікті өзгерту және жетіспейтін құрамдас бөліктер сияқты мәселелер туындайды.

Талқыланғандай, портреттік бейне стилін тасымалдаудың тиімді әдісі келесі мәселелерді шешуі керек:

Реалистік қозғалыстарды сақтау үшін тәсіл тураланбаған беттермен және әртүрлі бейне өлшемдерімен жұмыс істей алуы керек. Бейненің үлкен өлшемі немесе кең көру бұрышы бетті кадрдан жылжытпастан көбірек ақпаратты түсіре алады.
Бүгінгі жиі қолданылатын HD гаджеттерімен бәсекелесу үшін жоғары ажыратымдылықтағы бейне қажет.
Икемді стильді басқару пайдаланушыларға нақты пайдаланушы өзара әрекеттесу жүйесін әзірлеу кезінде таңдауын өзгертуге және таңдауға ұсынылуы керек.

Осы мақсатта зерттеушілер VToonify, бейне тонификацияға арналған жаңа гибридті негізді ұсынады. Бекітілген дақыл шектеуін еңсеру үшін зерттеушілер алдымен StyleGAN-да аударма эквивариациясын зерттейді.

VToonify реттелетін жоғары ажыратымдылықтағы портреттік бейне стилін тасымалдауға қол жеткізу үшін StyleGAN негізіндегі архитектураның және кескінді аудару негізінің артықшылықтарын біріктіреді.

Төмендегі негізгі үлестер:

Зерттеушілер StyleGAN-ның бекітілген дақыл шектеуін зерттейді және аударма эквиварианты негізінде шешім ұсынады.
Зерттеушілер теңестірілмеген беттерді және әртүрлі бейне өлшемдерін қолдайтын басқарылатын жоғары ажыратымдылықтағы портреттік бейне стилін тасымалдауға арналған бірегей толық конвульсиялық VToonify құрылымын ұсынады.
Зерттеушілер VToonify жүйесін Toonify және DualStyleGAN жүйелерінде құрастырады және коллекцияға негізделген және үлгі негізіндегі портреттік бейне мәнерін тасымалдауға мүмкіндік беру үшін деректер мен үлгі тұрғысынан магистральдарды қысқартады.

Vtoonify басқа заманауи үлгілермен салыстыру

Ақтау

Ол StyleGAN көмегімен тураланған беттерде жинақ негізінде мәнерді тасымалдау үшін негіз ретінде қызмет етеді. Стиль кодтарын шығарып алу үшін зерттеушілер беттерді туралап, PSP үшін 256256 фотосуретті қиюы керек. Toonify 1024*1024 мәнерлер кодтарымен стильдендірілген нәтижені жасау үшін пайдаланылады.

Соңында олар бейнедегі нәтижені бастапқы орнына қайта туралайды. Стильденбеген аймақ қара түске орнатылды.

Vtoonify басқа заманауи үлгілермен салыстыру

DualStyleGAN

Бұл StyleGAN негізінде үлгіге негізделген стильді тасымалдаудың негізі болып табылады. Олар Toonify сияқты деректерді алдын ала және кейінгі өңдеу әдістерін пайдаланады.

Pix2pixHD

Бұл жоғары ажыратымдылықтағы өңдеу үшін алдын ала дайындалған үлгілерді қысқарту үшін әдетте қолданылатын кескіннен кескінге аудару үлгісі. Ол жұптастырылған деректер арқылы оқытылады.

Зерттеушілер pix2pixHD картасын қосымша даналық кірістер ретінде пайдаланады, өйткені ол шығарылған талдау картасын пайдаланады.

Бірінші реттік қозғалыс

FOM типтік кескін анимациясының үлгісі болып табылады. Ол 256256 сурет бойынша оқытылды және басқа кескін өлшемдерімен нашар жұмыс істейді. Нәтижесінде зерттеушілер алдымен бейне кадрларды FOM үшін анимациялау үшін 256*256 дейін масштабтайды, содан кейін нәтижелерді бастапқы өлшеміне дейін өзгертеді.

Әділ салыстыру үшін, FOM анықтамалық стиль кескіні ретінде өз көзқарасының бірінші стильдендірілген жақтауын пайдаланады.

ДаГАН

Бұл бет анимациясының 3D үлгісі. Олар FOM сияқты деректерді дайындау және кейінгі өңдеу әдістерін пайдаланады.

Салыстыру

артықшылықтары

Оны өнерде, әлеуметтік медиа аватарларында, фильмдерде, ойын-сауық жарнамасында және т.б. пайдалануға болады.
Vtoonify метаверсте де пайдаланылуы мүмкін.

шектеулер

Бұл әдістеме StyleGAN негізіндегі магистральдардан деректерді де, үлгіні де шығарады, нәтижесінде деректер мен үлгінің ауытқуы болады.
Артефактілер негізінен стильдендірілген бет аймағы мен басқа бөлімдер арасындағы өлшем айырмашылықтарынан туындаған.
Бұл стратегия бет аймағындағы нәрселермен айналысқанда сәтті болмайды.

қорытынды

Соңында, VToonify - бұл стильмен басқарылатын жоғары ажыратымдылықтағы бейнені тонификациялауға арналған негіз.

Бұл құрылым бейнелерді өңдеуде керемет өнімділікке қол жеткізеді және StyleGAN негізіндегі кескінді тонификациялау үлгілерін екі жағынан да конденсациялау арқылы құрылымдық стильді, түс стилін және стиль дәрежесін кең бақылауға мүмкіндік береді. синтетикалық деректер және желілік құрылымдар.

Vtoonify: Басқарылатын жоғары ажыратымдылықтағы портреттік бейне мәнерін тасымалдау

Vtoonify дегеніміз не?

Бұл қалай жұмыс істейді?

StyleGAN және ұсынылған Vtoonify шектеулері