Vtoonify: контрольована передача портретного стилю відео високої роздільної здатності

Зміст[Сховати][Показати]

Що таке Vtoonify?
Як це працює?
Обмеження StyleGAN і запропонованого Vtoonify
Порівняння Vtoonify з іншими найсучаснішими моделями+-
Переваги+-
- Недоліки
Висновок

Вирішальним і бажаним завданням комп’ютерного зору та графіки є створення творчих портретних фільмів найвищого рівня.

Хоча було запропоновано декілька ефективних моделей тоніфікації портретних зображень на основі потужного StyleGAN, ці орієнтовані на зображення методи мають явні недоліки при використанні з відео, наприклад фіксований розмір кадру, вимога до вирівнювання обличчя, відсутність деталей, не пов’язаних з обличчям. і тимчасова невідповідність.

Революційний фреймворк VToonify використовується для вирішення складної контрольованої передачі портретного відео високої роздільної здатності.

У цій статті ми розглянемо останнє дослідження VToonify, зокрема його функціональність, недоліки та інші фактори.

Що таке Vtoonify?

Платформа VToonify дозволяє налаштовувати передачу портретного відео високої роздільної здатності.

VToonify використовує шари середньої та високої роздільної здатності StyleGAN для створення високоякісних художніх портретів на основі багатомасштабних характеристик вмісту, отриманих кодувальником для збереження деталей кадру.

Отримана повністю згорточна архітектура використовує невирівняні обличчя у фільмах змінного розміру як вхідні дані, у результаті чого на виході з’являються області повного обличчя з реалістичними рухами.

Vtoonify

Цей фреймворк сумісний із поточними моделями тоніфікації зображень на основі StyleGAN, дозволяючи розширити їх до тоніфікації відео, і успадковує такі привабливі характеристики, як налаштування кольору та інтенсивності.

це вчитися представляє два екземпляри VToonify на основі Toonify і DualStyleGAN для передачі портретного стилю відео на основі колекції та зразка відповідно.

Масштабні експериментальні результати показують, що запропонована структура VToonify перевершує існуючі підходи до створення високоякісних, узгоджених у часі художніх портретних фільмів зі змінними параметрами стилю.

Дослідники надають Блокнот Google Colab, щоб ви могли забруднити руки.

Як це працює?

Для виконання регульованої передачі портретного стилю відео високої роздільної здатності VToonify поєднує переваги системи перекладу зображень із структурою на основі StyleGAN.

Vtoonify працює

Щоб адаптувати різні розміри вхідних даних, система перекладу зображень використовує повністю згорточні мережі. З іншого боку, навчання з нуля унеможливлює передачу високої роздільної здатності та контрольованого стилю.

Попередньо підготовлена модель StyleGAN використовується у структурі на основі StyleGAN для високої роздільної здатності та контрольованої передачі стилю, хоча вона обмежена фіксованим розміром зображення та втратою деталей.

StyleGAN модифіковано в гібридній структурі шляхом видалення її функції введення фіксованого розміру та шарів із низькою роздільною здатністю, що призводить до створення повністю згорткової архітектури кодера-генератора, подібної до структури трансляції зображень.

Щоб підтримувати деталі кадру, навчіть кодер отримувати багатомасштабні характеристики вмісту вхідного кадру як додаткову вимогу до вмісту для генератора. Vtoonify успадковує гнучкість керування стилем моделі StyleGAN, поміщаючи її в генератор для дистиляції як своїх даних, так і моделі.

Обмеження StyleGAN і запропонованого Vtoonify

Художні портрети поширені в нашому повсякденному житті, а також у таких творчих сферах, як мистецтво, соціальні медіа аватари, фільми, розважальна реклама тощо.

З розвитком о глибоке навчання тепер можна створювати високоякісні художні портрети з реальних фотографій обличчя за допомогою автоматизованої передачі стилю портрета.

Існує безліч успішних способів передачі стилю на основі зображень, багато з яких легко доступні для початківців у формі мобільних додатків. За останні кілька років відеоматеріали швидко стали основою наших стрічок у соціальних мережах.

Розвиток соціальних медіа та ефемерних фільмів збільшив попит на інноваційне редагування відео, наприклад передачу портретного стилю відео, для створення успішних і цікавих відео.

Існуючі методи, орієнтовані на зображення, мають значні недоліки при застосуванні до фільмів, що обмежує їхню корисність у автоматизованій стилізації портретного відео.

StyleGAN є загальноприйнятою основою для розробки моделі передачі стилю портретного зображення завдяки своїй здатності створювати високоякісні обличчя з регульованим керуванням стилем.

Система на основі StyleGAN (також відома як тоніфікація зображення) кодує реальне обличчя в прихований простір StyleGAN, а потім застосовує отриманий код стилю до іншого StyleGAN, налаштованого на наборі даних художнього портрета, для створення стилізованої версії.

StyleGAN створює зображення з вирівняними обличчями та фіксованим розміром, що не сприяє динамічним обличчям у реальному відео. Обрізання обличчя та вирівнювання у відео іноді призводять до часткового обличчя та незграбних жестів. Дослідники називають цю проблему StyleGAN «обмеженням фіксованого врожаю».

Для невирівняних граней запропоновано StyleGAN3; однак він підтримує лише встановлений розмір зображення.

Крім того, нещодавнє дослідження виявило, що кодувати невирівняні грані складніше, ніж вирівняні грані. Неправильне кодування обличчя шкодить передачі портретного стилю, що призводить до таких проблем, як зміна ідентичності та відсутність компонентів у реконструйованих і стилізованих кадрах.

Як обговорювалося, ефективна техніка для передачі стилю портретного відео має вирішувати такі проблеми:

Щоб зберегти реалістичність рухів, цей підхід повинен бути здатний працювати з невирівняними обличчями та різними розмірами відео. Великий розмір відео або широкий кут огляду можуть захопити більше інформації, не даючи обличчю вийти з кадру.
Щоб конкурувати з широко використовуваними сьогодні HD-гаджетами, потрібне відео високої роздільної здатності.
Слід запропонувати користувачам гнучке керування стилем, щоб вони могли змінювати та вибирати свій вибір під час розробки реалістичної системи взаємодії з користувачем.

З цією метою дослідники пропонують VToonify, нову гібридну структуру для тоніфікації відео. Щоб подолати обмеження фіксованого обрізання, дослідники спочатку вивчають еквіваріантність перекладу в StyleGAN.

VToonify поєднує в собі переваги архітектури на основі StyleGAN і фреймворку перекладу зображень для досягнення регульованої передачі портретного стилю відео високої роздільної здатності.

Нижче наведено основні внески:

Дослідники досліджують обмеження фіксованого обрізання StyleGAN і пропонують рішення, засноване на еквіваріантності перекладу.
Дослідники представляють унікальну повністю згорнуту структуру VToonify для контрольованої передачі портретного відео високої роздільної здатності, яка підтримує невирівняні обличчя та різні розміри відео.
Дослідники будують VToonify на основі Toonify і DualStyleGAN і згущують магістралі з точки зору як даних, так і моделі, щоб забезпечити передачу портретного стилю відео на основі колекції та зразка.

Порівняння Vtoonify з іншими найсучаснішими моделями

Toonify

Він служить основою для передачі стилю на основі колекції на вирівняних гранях за допомогою StyleGAN. Щоб отримати коди стилів, дослідники повинні вирівняти обличчя та обрізати 256256 фотографій для PSP. Toonify використовується для створення стилізованого результату з кодами стилів 1024*1024.

Нарешті, вони повторно вирівнюють результат у відео у вихідному місці. Нестилізовану область було встановлено на чорний колір.

Порівняння Vtoonify з іншими сучасними моделями

DualStyleGAN

Це основа для передачі стилю на основі зразків на основі StyleGAN. Вони використовують ті самі методи попередньої та постобробки даних, що й Toonify.

Pix2pixHD

Це модель перекладу зображення в зображення, яка зазвичай використовується для згортання попередньо навчених моделей для редагування з високою роздільною здатністю. Він навчається за допомогою парних даних.

Дослідники використовують pix2pixHD як додаткові вхідні дані карти екземплярів, оскільки він використовує видобуту карту аналізу.

Рух першого порядку

FOM — типова модель анімації зображення. Він був навчений на 256256 зображеннях і погано працює з іншими розмірами зображень. Як наслідок, дослідники спочатку масштабують кадри відео до 256*256 для FOM для анімації, а потім змінюють розмір результатів до оригінального розміру.

Для справедливого порівняння FOM використовує перший стилізований кадр свого підходу як еталонне стильове зображення.

ДаГАН

Це 3D-модель анімації обличчя. Вони використовують ті самі методи підготовки та постобробки даних, що й FOM.

Співставлення

Переваги

Його можна використовувати в мистецтві, аватарах у соціальних мережах, фільмах, розважальній рекламі тощо.
Vtoonify також можна використовувати в метавсесвіті.

Недоліки

Ця методологія витягує як дані, так і модель із магістралей на основі StyleGAN, що призводить до зміщення даних і моделі.
Артефакти спричинені здебільшого різницею розмірів між стилізованою областю обличчя та іншими частинами.
Ця стратегія менш успішна при роботі з речами в області обличчя.

Висновок

Нарешті, VToonify — це платформа для тоніфікації відео високої роздільної здатності, що керується стилем.

Цей фреймворк забезпечує високу продуктивність у обробці відео та забезпечує широкий контроль над структурним стилем, стилем кольору та ступенем стилю шляхом ущільнення моделей тоніфікації зображень на основі StyleGAN з точки зору обох синтетичні дані і мережевих структур.

Vtoonify: контрольована передача портретного відео високої роздільної здатності

Що таке Vtoonify?

Як це працює?

Обмеження StyleGAN і запропонованого Vtoonify