Es una tarea crucial y deseable en la visión por computadora y los gráficos producir películas de retratos creativas del más alto calibre.
Aunque se han propuesto varios modelos efectivos para la toonificación de imágenes de retratos basados en el potente StyleGAN, estas técnicas orientadas a la imagen tienen claros inconvenientes cuando se usan con videos, como el tamaño de cuadro fijo, el requisito de alineación facial, la ausencia de detalles no faciales. y la inconsistencia temporal.
Se utiliza un marco VToonify revolucionario para abordar la transferencia de estilo de video de retrato de alta resolución difícilmente controlada.
Examinaremos el estudio más reciente sobre VToonify en este artículo, incluida su funcionalidad, inconvenientes y otros factores.
¿Qué es Vtoonify?
El marco VToonify permite una transmisión personalizable de estilo de video de retrato de alta resolución.
VToonify utiliza las capas de resolución media y alta de StyleGAN para crear retratos artísticos de alta calidad basados en características de contenido de varias escalas recuperadas por un codificador para retener los detalles del marco.
La arquitectura totalmente convolucional resultante toma caras no alineadas en películas de tamaño variable como entrada, lo que da como resultado regiones de cara completa con movimientos realistas en la salida.
Este marco es compatible con los modelos actuales de toonificación de imágenes basados en StyleGAN, lo que les permite extenderse a la toonificación de video, y hereda características atractivas como la personalización de intensidad y color ajustable.
Este estudio presenta dos instancias de VToonify basadas en Toonify y DualStyleGAN para la transferencia de estilo de video de retratos basada en colecciones y ejemplares, respectivamente.
Amplios hallazgos experimentales muestran que el marco VToonify propuesto supera los enfoques existentes en la creación de películas de retratos artísticos de alta calidad y coherencia temporal con parámetros de estilo variables.
Los investigadores proporcionan la Bloc de notas de Google Colab, para que puedas ensuciarte las manos.
¿Cómo funciona?
Para lograr una transferencia de estilo de video de retrato de alta resolución ajustable, VToonify combina las ventajas del marco de traducción de imágenes con el marco basado en StyleGAN.
Para adaptarse a diferentes tamaños de entrada, el sistema de traducción de imágenes emplea redes totalmente convolucionales. El entrenamiento desde cero, por otro lado, hace que la transmisión de estilo controlado y de alta resolución sea imposible.
El modelo StyleGAN preentrenado se utiliza en el marco basado en StyleGAN para la transferencia de estilo controlado y de alta resolución, aunque está limitado a un tamaño de imagen fijo y pérdidas de detalles.
StyleGAN se modifica en el marco híbrido al eliminar su función de entrada de tamaño fijo y las capas de baja resolución, lo que da como resultado una arquitectura de generador de codificador totalmente convolucional similar a la del marco de traducción de imágenes.
Para mantener los detalles del marco, entrene un codificador para extraer características de contenido de escala múltiple del marco de entrada como un requisito de contenido adicional para el generador. Vtoonify hereda la flexibilidad de control de estilo del modelo StyleGAN al colocarlo en el generador para destilar tanto sus datos como su modelo.
Limitaciones de StyleGAN y Vtoonify propuesto
Los retratos artísticos son comunes en nuestra vida diaria, así como en negocios creativos como el arte, redes sociales avatares, películas, publicidad de entretenimiento, etc.
Con el desarrollo de deep learning tecnología, ahora es posible crear retratos artísticos de alta calidad a partir de fotos de rostros de la vida real mediante la transferencia automatizada de estilos de retratos.
Hay una variedad de formas exitosas creadas para la transferencia de estilo basada en imágenes, muchas de las cuales son fácilmente accesibles para los usuarios principiantes en forma de aplicaciones móviles. El material de video se ha convertido rápidamente en un pilar de nuestras redes sociales en los últimos años.
El auge de las redes sociales y las películas efímeras ha aumentado la demanda de edición de video innovadora, como la transferencia de estilo de video vertical, para generar videos exitosos e interesantes.
Las técnicas orientadas a la imagen existentes tienen desventajas significativas cuando se aplican a las películas, lo que limita su utilidad en la estilización automática de videos de retratos.
StyleGAN es una columna vertebral común para desarrollar un modelo de transferencia de estilo de imagen de retrato debido a su capacidad para crear caras de alta calidad con gestión de estilo ajustable.
Un sistema basado en StyleGAN (también conocido como toonificación de imágenes) codifica una cara real en el espacio latente de StyleGAN y luego aplica el código de estilo resultante a otro StyleGAN ajustado en el conjunto de datos de retratos artísticos para crear una versión estilizada.
StyleGAN crea imágenes con caras alineadas y en un tamaño fijo, lo que no favorece las caras dinámicas en las imágenes del mundo real. El recorte y la alineación de la cara en el video a veces dan como resultado una cara parcial y gestos incómodos. Los investigadores llaman a este problema la "restricción de cultivos fijos" de StyleGAN.
Para caras no alineadas, se ha propuesto StyleGAN3; sin embargo, solo admite un tamaño de imagen determinado.
Además, un estudio reciente descubrió que codificar caras no alineadas es más desafiante que codificar caras alineadas. La codificación facial incorrecta es perjudicial para la transferencia del estilo de retrato, lo que genera problemas como la alteración de la identidad y la falta de componentes en los marcos reconstruidos y estilizados.
Como se discutió, una técnica eficiente para la transferencia de estilo de video vertical debe manejar los siguientes problemas:
- Para preservar los movimientos realistas, el enfoque debe ser capaz de manejar caras no alineadas y tamaños de video variados. Un video de gran tamaño, o un ángulo de visión amplio, puede capturar más información y evitar que la cara se salga del marco.
- Para competir con los dispositivos HD comúnmente utilizados en la actualidad, se necesita video de alta resolución.
- Se debe ofrecer un control de estilo flexible para que los usuarios modifiquen y elijan su elección al desarrollar un sistema de interacción de usuario realista.
Con ese propósito, los investigadores sugieren VToonify, un marco híbrido novedoso para la toonificación de videos. Para superar la restricción de recorte fijo, los investigadores primero estudian la equivalencia de traducción en StyleGAN.
VToonify combina los beneficios de la arquitectura basada en StyleGAN y el marco de traducción de imágenes para lograr una transferencia de estilo de video de retrato de alta resolución ajustable.
Las siguientes son las principales contribuciones:
- Los investigadores investigan la restricción de cultivo fijo de StyleGAN y proponen una solución basada en la equivalencia de traducción.
- Los investigadores presentan un marco VToonify totalmente convolucional único para la transferencia controlada de estilo de video de retrato de alta resolución que admite caras no alineadas y diferentes tamaños de video.
- Los investigadores construyen VToonify sobre las columnas vertebrales de Toonify y DualStyleGAN y condensan las columnas vertebrales en términos de datos y modelo para permitir la transferencia de estilo de video de retrato basada en colecciones y ejemplares.
Comparando Vtoonify con otros modelos de última generación
toonificar
Sirve como base para la transferencia de estilo basada en colecciones en caras alineadas usando StyleGAN. Para recuperar los códigos de estilo, los investigadores deben alinear caras y recortar 256256 fotos para PSP. Toonify se utiliza para generar un resultado estilizado con códigos de estilo de 1024*1024.
Finalmente, vuelven a alinear el resultado en el video a su ubicación original. El área no estilizada se ha configurado en negro.
Estilo dualGAN
Es una columna vertebral para la transferencia de estilo basada en ejemplares basada en StyleGAN. Utilizan las mismas técnicas de procesamiento previo y posterior de datos que Toonify.
pix2pixHD
Es un modelo de traducción de imagen a imagen que se usa comúnmente para condensar modelos previamente entrenados para la edición de alta resolución. Se entrena utilizando datos apareados.
Los investigadores utilizan pix2pixHD como sus entradas de mapa de instancia adicionales, ya que utiliza un mapa de análisis extraído.
Movimiento de primer orden
FOM es un modelo típico de animación de imágenes. Se entrenó en 256256 imágenes y funciona mal con otros tamaños de imagen. Como consecuencia, los investigadores primero escalan los cuadros de video a 256 x 256 para FOM a animación y luego redimensionan los resultados a su tamaño original.
Para una comparación justa, FOM emplea el primer marco estilizado de su enfoque como su imagen de estilo de referencia.
DaGAN
Es un modelo de animación facial en 3D. Utilizan los mismos métodos de preparación y posprocesamiento de datos que FOM.
Ventajas
- Se puede emplear en las artes, avatares de redes sociales, películas, publicidad de entretenimiento, etc.
- Vtoonify también se puede utilizar en el metaverso.
Limitaciones
- Esta metodología extrae tanto los datos como el modelo de las redes troncales basadas en StyleGAN, lo que da como resultado un sesgo en los datos y el modelo.
- Los artefactos son causados principalmente por diferencias de tamaño entre la región de la cara estilizada y las otras secciones.
- Esta estrategia es menos exitosa cuando se trata de cosas en la región de la cara.
Conclusión
Finalmente, VToonify es un marco para la toonificación de video de alta resolución controlada por estilo.
Este marco logra un gran rendimiento en el manejo de videos y permite un amplio control sobre el estilo estructural, el estilo de color y el grado de estilo al condensar los modelos de toonificación de imágenes basados en StyleGAN en términos de sus datos sintéticos y estructuras de red.
Deje un comentario