В компьютерном зрении и графике создание творческих портретных фильмов высочайшего уровня является важной и желательной задачей.
Хотя было предложено несколько эффективных моделей тонификации портретных изображений на основе мощного StyleGAN, эти методы, ориентированные на изображение, имеют явные недостатки при использовании с видео, такие как фиксированный размер кадра, требование выравнивания лица, отсутствие деталей, не связанных с лицом. и временное несоответствие.
Революционная структура VToonify используется для решения сложной контролируемой передачи портретного видео в высоком разрешении.
В этой статье мы рассмотрим самое последнее исследование VToonify, включая его функциональность, недостатки и другие факторы.
Что такое Vtoonify?
Фреймворк VToonify позволяет настраивать передачу видео в портретном стиле с высоким разрешением.
VToonify использует слои среднего и высокого разрешения StyleGAN для создания высококачественных художественных портретов на основе мультимасштабных характеристик контента, извлеченных кодировщиком для сохранения деталей кадра.
Полученная в результате полностью сверточная архитектура принимает в качестве входных данных невыровненные лица в фильмах переменного размера, в результате чего на выходе получаются области всего лица с реалистичными движениями.
Эта структура совместима с текущими моделями тонирования изображений на основе StyleGAN, что позволяет расширять их до тонификации видео и наследует привлекательные характеристики, такие как регулируемая настройка цвета и интенсивности.
Эта Исследование представляет два экземпляра VToonify на основе Toonify и DualStyleGAN для передачи стиля портретного видео на основе коллекции и образца соответственно.
Обширные экспериментальные результаты показывают, что предлагаемая структура VToonify превосходит существующие подходы в создании высококачественных, согласованных во времени художественных портретных фильмов с переменными параметрами стиля.
Исследователи предоставляют Блокнот Google Colab, так что можно испачкать руки.
Как это работает?
Для выполнения регулируемой передачи стиля портретного видео с высоким разрешением VToonify сочетает в себе преимущества платформы перевода изображений с платформой на основе StyleGAN.
Чтобы приспособиться к различным размерам входных данных, система перевода изображений использует полностью сверточные сети. Обучение с нуля, с другой стороны, делает передачу с высоким разрешением и контролируемым стилем невозможной.
Предварительно обученная модель StyleGAN используется в основанной на StyleGAN среде для передачи стилей с высоким разрешением и контролируемой передачей, хотя она ограничена фиксированным размером изображения и потерей деталей.
StyleGAN модифицируется в гибридной среде путем удаления его входной функции фиксированного размера и слоев с низким разрешением, что приводит к полностью сверточной архитектуре кодировщика-генератора, аналогичной архитектуре преобразования изображений.
Чтобы сохранить детали кадра, научите кодировщик извлекать многомасштабные характеристики содержимого входного кадра в качестве дополнительного требования к содержимому для генератора. Vtoonify наследует гибкость управления стилем модели StyleGAN, помещая его в генератор для очистки как своих данных, так и модели.
Ограничения StyleGAN и предлагаемого Vtoonify
Художественные портреты распространены в нашей повседневной жизни, а также в таких творческих сферах, как искусство, социальные сети аватары, фильмы, развлекательная реклама и так далее.
С развитием глубокое обучение технологии, теперь можно создавать высококачественные художественные портреты из реальных фотографий лиц с помощью автоматической передачи портретного стиля.
Существует множество успешных способов передачи стиля на основе изображений, многие из которых легко доступны начинающим пользователям в виде мобильных приложений. За последние несколько лет видеоматериалы быстро стали основой наших лент в социальных сетях.
Рост социальных сетей и эфемерных фильмов увеличил спрос на инновационное редактирование видео, такое как передача портретного стиля видео, для создания успешных и интересных видеороликов.
Существующие методы, ориентированные на изображения, имеют существенные недостатки применительно к фильмам, что ограничивает их полезность при автоматизированной стилизации портретных видео.
StyleGAN является общей основой для разработки модели передачи стиля портретного изображения благодаря своей способности создавать высококачественные лица с регулируемым управлением стилем.
Система на основе StyleGAN (также известная как тонификация изображения) кодирует реальное лицо в скрытое пространство StyleGAN, а затем применяет полученный код стиля к другому StyleGAN, точно настроенному на наборе данных художественного портрета, для создания стилизованной версии.
StyleGAN создает изображения с выровненными лицами и фиксированным размером, что не способствует динамическим лицам в кадрах реального мира. Обрезка и выравнивание лица в видео иногда приводят к частичному изображению лица и неловким жестам. Исследователи называют эту проблему «фиксированным ограничением урожая» StyleGAN.
Для невыровненных граней был предложен StyleGAN3; однако он поддерживает только установленный размер изображения.
Кроме того, недавнее исследование показало, что кодирование невыровненных лиц сложнее, чем выровненных. Неправильное кодирование лица вредно для передачи портретного стиля, что приводит к таким проблемам, как изменение личности и отсутствие компонентов в реконструированных и стилизованных кадрах.
Как уже говорилось, эффективная техника передачи портретного стиля видео должна решать следующие проблемы:
- Чтобы сохранить реалистичные движения, подход должен быть в состоянии работать с невыровненными лицами и различными размерами видео. Большой размер видео или широкий угол обзора позволяют захватить больше информации, не позволяя лицу выйти за пределы кадра.
- Чтобы конкурировать с сегодняшними широко используемыми HD-гаджетами, необходимо видео высокого разрешения.
- Гибкое управление стилем должно быть предложено пользователям для изменения и выбора при разработке реалистичной системы взаимодействия с пользователем.
С этой целью исследователи предлагают VToonify, новый гибридный фреймворк для мультипликации видео. Чтобы преодолеть фиксированное ограничение обрезки, исследователи сначала изучают эквивалентность перевода в StyleGAN.
VToonify сочетает в себе преимущества архитектуры на основе StyleGAN и платформы преобразования изображений для достижения регулируемой передачи стиля портретного видео с высоким разрешением.
Ниже приведены основные вклады:
- Исследователи изучают ограничение фиксированной обрезки StyleGAN и предлагают решение, основанное на переводческой эквивариантности.
- Исследователи представляют уникальную полностью свернутую структуру VToonify для контролируемой передачи портретного стиля видео с высоким разрешением, которая поддерживает невыровненные лица и разные размеры видео.
- Исследователи создают VToonify на основе Toonify и DualStyleGAN и уплотняют основы с точки зрения как данных, так и модели, чтобы обеспечить передачу стиля портретного видео на основе коллекций и образцов.
Сравнение Vtoonify с другими современными моделями
Toonify
Он служит основой для переноса стиля на основе коллекции на выровненные грани с помощью StyleGAN. Чтобы получить коды стиля, исследователи должны выровнять лица и обрезать 256256 фотографий для PSP. Toonify используется для создания стилизованного результата с кодами стиля 1024*1024.
Наконец, они повторно выравнивают результат в видео по его исходному местоположению. Нестилизованная область была настроена на черный цвет.
Двойной стильGAN
Это основа для передачи стиля на основе образцов на основе StyleGAN. Они используют те же методы предварительной и последующей обработки данных, что и Toonify.
Пикс2pixHD
Это модель преобразования изображения в изображение, которая обычно используется для сжатия предварительно обученных моделей для редактирования с высоким разрешением. Он обучается на парных данных.
Исследователи используют pix2pixHD в качестве дополнительных входных данных карты экземпляра, поскольку он использует извлеченную карту синтаксического анализа.
Движение первого порядка
FOM — типичная модель анимации изображения. Он был обучен на 256256 изображениях и плохо работает с изображениями других размеров. Как следствие, исследователи сначала масштабируют видеокадры до 256 * 256 для FOM для анимации, а затем изменяют размер результатов до их исходного размера.
Для честного сравнения FOM использует первый стилизованный кадр своего подхода в качестве изображения эталонного стиля.
ДАГАН
Это 3D-анимационная модель лица. Они используют те же методы подготовки и постобработки данных, что и FOM.
Преимущества
- Его можно использовать в искусстве, аватарах в социальных сетях, фильмах, развлекательной рекламе и так далее.
- Vtoonify также можно использовать в метавселенной.
ограничения
- Эта методология извлекает как данные, так и модель из магистралей на основе StyleGAN, что приводит к смещению данных и модели.
- Артефакты в основном вызваны разницей в размерах между областью стилизованного лица и другими частями.
- Эта стратегия менее успешна при работе с вещами в области лица.
Заключение
Наконец, VToonify — это фреймворк для тонификации видео с высоким разрешением с контролируемым стилем.
Этот фреймворк обеспечивает высокую производительность при обработке видео и обеспечивает широкий контроль над структурным стилем, цветовым стилем и степенью стиля за счет объединения моделей тонификации изображений на основе StyleGAN с точки зрения их синтетические данные и сетевые структуры.
Оставьте комментарий