Vtoonify: управляемая передача стиля портретного видео с высоким разрешением

Содержание[Скрывать][Показывать]

Что такое Vtoonify?
Как это работает?
Ограничения StyleGAN и предлагаемого Vtoonify
Сравнение Vtoonify с другими современными моделями+-
Преимущества+-
- ограничения
Заключение

В компьютерном зрении и графике создание творческих портретных фильмов высочайшего уровня является важной и желательной задачей.

Хотя было предложено несколько эффективных моделей тонификации портретных изображений на основе мощного StyleGAN, эти методы, ориентированные на изображение, имеют явные недостатки при использовании с видео, такие как фиксированный размер кадра, требование выравнивания лица, отсутствие деталей, не связанных с лицом. и временное несоответствие.

Революционная структура VToonify используется для решения сложной контролируемой передачи портретного видео в высоком разрешении.

В этой статье мы рассмотрим самое последнее исследование VToonify, включая его функциональность, недостатки и другие факторы.

Что такое Vtoonify?

Фреймворк VToonify позволяет настраивать передачу видео в портретном стиле с высоким разрешением.

VToonify использует слои среднего и высокого разрешения StyleGAN для создания высококачественных художественных портретов на основе мультимасштабных характеристик контента, извлеченных кодировщиком для сохранения деталей кадра.

Полученная в результате полностью сверточная архитектура принимает в качестве входных данных невыровненные лица в фильмах переменного размера, в результате чего на выходе получаются области всего лица с реалистичными движениями.

Vtoonify

Эта структура совместима с текущими моделями тонирования изображений на основе StyleGAN, что позволяет расширять их до тонификации видео и наследует привлекательные характеристики, такие как регулируемая настройка цвета и интенсивности.

Эта Исследование представляет два экземпляра VToonify на основе Toonify и DualStyleGAN для передачи стиля портретного видео на основе коллекции и образца соответственно.

Обширные экспериментальные результаты показывают, что предлагаемая структура VToonify превосходит существующие подходы в создании высококачественных, согласованных во времени художественных портретных фильмов с переменными параметрами стиля.

Исследователи предоставляют Блокнот Google Colab, так что можно испачкать руки.

Как это работает?

Для выполнения регулируемой передачи стиля портретного видео с высоким разрешением VToonify сочетает в себе преимущества платформы перевода изображений с платформой на основе StyleGAN.

Vtoonify работает

Чтобы приспособиться к различным размерам входных данных, система перевода изображений использует полностью сверточные сети. Обучение с нуля, с другой стороны, делает передачу с высоким разрешением и контролируемым стилем невозможной.

Предварительно обученная модель StyleGAN используется в основанной на StyleGAN среде для передачи стилей с высоким разрешением и контролируемой передачей, хотя она ограничена фиксированным размером изображения и потерей деталей.

StyleGAN модифицируется в гибридной среде путем удаления его входной функции фиксированного размера и слоев с низким разрешением, что приводит к полностью сверточной архитектуре кодировщика-генератора, аналогичной архитектуре преобразования изображений.

Чтобы сохранить детали кадра, научите кодировщик извлекать многомасштабные характеристики содержимого входного кадра в качестве дополнительного требования к содержимому для генератора. Vtoonify наследует гибкость управления стилем модели StyleGAN, помещая его в генератор для очистки как своих данных, так и модели.

Ограничения StyleGAN и предлагаемого Vtoonify

Художественные портреты распространены в нашей повседневной жизни, а также в таких творческих сферах, как искусство, социальные сети аватары, фильмы, развлекательная реклама и так далее.

С развитием глубокое обучение технологии, теперь можно создавать высококачественные художественные портреты из реальных фотографий лиц с помощью автоматической передачи портретного стиля.

Существует множество успешных способов передачи стиля на основе изображений, многие из которых легко доступны начинающим пользователям в виде мобильных приложений. За последние несколько лет видеоматериалы быстро стали основой наших лент в социальных сетях.

Рост социальных сетей и эфемерных фильмов увеличил спрос на инновационное редактирование видео, такое как передача портретного стиля видео, для создания успешных и интересных видеороликов.

Существующие методы, ориентированные на изображения, имеют существенные недостатки применительно к фильмам, что ограничивает их полезность при автоматизированной стилизации портретных видео.

StyleGAN является общей основой для разработки модели передачи стиля портретного изображения благодаря своей способности создавать высококачественные лица с регулируемым управлением стилем.

Система на основе StyleGAN (также известная как тонификация изображения) кодирует реальное лицо в скрытое пространство StyleGAN, а затем применяет полученный код стиля к другому StyleGAN, точно настроенному на наборе данных художественного портрета, для создания стилизованной версии.

StyleGAN создает изображения с выровненными лицами и фиксированным размером, что не способствует динамическим лицам в кадрах реального мира. Обрезка и выравнивание лица в видео иногда приводят к частичному изображению лица и неловким жестам. Исследователи называют эту проблему «фиксированным ограничением урожая» StyleGAN.

Для невыровненных граней был предложен StyleGAN3; однако он поддерживает только установленный размер изображения.

Кроме того, недавнее исследование показало, что кодирование невыровненных лиц сложнее, чем выровненных. Неправильное кодирование лица вредно для передачи портретного стиля, что приводит к таким проблемам, как изменение личности и отсутствие компонентов в реконструированных и стилизованных кадрах.

Как уже говорилось, эффективная техника передачи портретного стиля видео должна решать следующие проблемы:

Чтобы сохранить реалистичные движения, подход должен быть в состоянии работать с невыровненными лицами и различными размерами видео. Большой размер видео или широкий угол обзора позволяют захватить больше информации, не позволяя лицу выйти за пределы кадра.
Чтобы конкурировать с сегодняшними широко используемыми HD-гаджетами, необходимо видео высокого разрешения.
Гибкое управление стилем должно быть предложено пользователям для изменения и выбора при разработке реалистичной системы взаимодействия с пользователем.

С этой целью исследователи предлагают VToonify, новый гибридный фреймворк для мультипликации видео. Чтобы преодолеть фиксированное ограничение обрезки, исследователи сначала изучают эквивалентность перевода в StyleGAN.

VToonify сочетает в себе преимущества архитектуры на основе StyleGAN и платформы преобразования изображений для достижения регулируемой передачи стиля портретного видео с высоким разрешением.

Ниже приведены основные вклады:

Исследователи изучают ограничение фиксированной обрезки StyleGAN и предлагают решение, основанное на переводческой эквивариантности.
Исследователи представляют уникальную полностью свернутую структуру VToonify для контролируемой передачи портретного стиля видео с высоким разрешением, которая поддерживает невыровненные лица и разные размеры видео.
Исследователи создают VToonify на основе Toonify и DualStyleGAN и уплотняют основы с точки зрения как данных, так и модели, чтобы обеспечить передачу стиля портретного видео на основе коллекций и образцов.

Сравнение Vtoonify с другими современными моделями

Toonify

Он служит основой для переноса стиля на основе коллекции на выровненные грани с помощью StyleGAN. Чтобы получить коды стиля, исследователи должны выровнять лица и обрезать 256256 фотографий для PSP. Toonify используется для создания стилизованного результата с кодами стиля 1024*1024.

Наконец, они повторно выравнивают результат в видео по его исходному местоположению. Нестилизованная область была настроена на черный цвет.

Сравнение Vtoonify с другими современными моделями

Двойной стильGAN

Это основа для передачи стиля на основе образцов на основе StyleGAN. Они используют те же методы предварительной и последующей обработки данных, что и Toonify.

Пикс2pixHD

Это модель преобразования изображения в изображение, которая обычно используется для сжатия предварительно обученных моделей для редактирования с высоким разрешением. Он обучается на парных данных.

Исследователи используют pix2pixHD в качестве дополнительных входных данных карты экземпляра, поскольку он использует извлеченную карту синтаксического анализа.

Движение первого порядка

FOM — типичная модель анимации изображения. Он был обучен на 256256 изображениях и плохо работает с изображениями других размеров. Как следствие, исследователи сначала масштабируют видеокадры до 256 * 256 для FOM для анимации, а затем изменяют размер результатов до их исходного размера.

Для честного сравнения FOM использует первый стилизованный кадр своего подхода в качестве изображения эталонного стиля.

ДАГАН

Это 3D-анимационная модель лица. Они используют те же методы подготовки и постобработки данных, что и FOM.

Сравнение

Преимущества

Его можно использовать в искусстве, аватарах в социальных сетях, фильмах, развлекательной рекламе и так далее.
Vtoonify также можно использовать в метавселенной.

ограничения

Эта методология извлекает как данные, так и модель из магистралей на основе StyleGAN, что приводит к смещению данных и модели.
Артефакты в основном вызваны разницей в размерах между областью стилизованного лица и другими частями.
Эта стратегия менее успешна при работе с вещами в области лица.

Заключение

Наконец, VToonify — это фреймворк для тонификации видео с высоким разрешением с контролируемым стилем.

Этот фреймворк обеспечивает высокую производительность при обработке видео и обеспечивает широкий контроль над структурным стилем, цветовым стилем и степенью стиля за счет объединения моделей тонификации изображений на основе StyleGAN с точки зрения их синтетические данные и сетевые структуры.

Vtoonify: управляемая передача стиля портретного видео с высоким разрешением

Что такое Vtoonify?

Как это работает?

Ограничения StyleGAN и предлагаемого Vtoonify