É unha tarefa crucial e desexable en visión por ordenador e gráficos producir películas creativas de retratos do máis alto calibre.
Aínda que se propuxeron varios modelos eficaces para a tonificación de imaxes de retratos baseados no potente StyleGAN, estas técnicas orientadas á imaxe teñen claros inconvenientes cando se usan con vídeos, como o tamaño do cadro fixo, o requisito de aliñamento facial, a ausencia de detalles non faciais. , e inconsistencia temporal.
Utilízase un marco revolucionario VToonify para facer fronte á difícil transferencia controlada de estilo de vídeo de retrato de alta resolución.
Imos examinar o estudo máis recente sobre VToonify neste artigo, incluíndo a súa funcionalidade, inconvenientes e outros factores.
Que é Vtoonify?
O marco VToonify permite a transmisión personalizable de estilo de vídeo de retrato de alta resolución.
VToonify usa as capas de media e alta resolución de StyleGAN para crear retratos artísticos de alta calidade baseados en características de contido multiescala recuperadas por un codificador para conservar os detalles do cadro.
A arquitectura totalmente convolucional resultante toma caras non aliñadas en películas de tamaño variable como entrada, o que resulta en rexións de cara completa con movementos realistas na saída.
Este marco é compatible cos modelos actuais de tonificación de imaxes baseados en StyleGAN, o que permite estenderlos á tonificación de vídeo e herda características atractivas como a personalización axustable da cor e da intensidade.
esta estudar introduce dúas instancias de VToonify baseadas en Toonify e DualStyleGAN para a transferencia de estilos de vídeo de retrato baseada en coleccións e en modelos, respectivamente.
Amplos descubrimentos experimentais mostran que o marco VToonify proposto supera os enfoques existentes para facer películas de retratos artísticos de alta calidade e coherentes temporalmente con parámetros de estilo variables.
Os investigadores proporcionan o Caderno de Google Colab, para que poidas ensuciar as mans.
Como funciona?
Para conseguir unha transferencia axustable de estilo de vídeo de retrato de alta resolución, VToonify combina as vantaxes do marco de tradución de imaxes co marco baseado en StyleGAN.
Para acomodar diferentes tamaños de entrada, o sistema de tradución de imaxes emprega redes totalmente convolucionais. O adestramento desde cero, por outra banda, fai imposible a transmisión de estilo controlado e de alta resolución.
O modelo StyleGAN adestrado previamente utilízase no marco baseado en StyleGAN para a transferencia de estilos controlada e de alta resolución, aínda que se limita a perdas de tamaño e detalles fixos da imaxe.
StyleGAN modifícase no marco híbrido eliminando a súa característica de entrada de tamaño fixo e as capas de baixa resolución, o que resulta nunha arquitectura xeradora de codificador totalmente convolucional similar á do marco de tradución de imaxes.
Para manter os detalles do cadro, adestra un codificador para extraer as características de contido multiescala do cadro de entrada como requisito de contido adicional para o xerador. Vtoonify herda a flexibilidade de control de estilo do modelo StyleGAN colocándoo no xerador para destilar tanto os seus datos como o modelo.
Limitacións de StyleGAN e Vtoonify proposto
Os retratos artísticos son habituais na nosa vida diaria, así como en empresas creativas como a arte, medios sociais avatares, películas, publicidade de entretemento, etc.
Co desenvolvemento de aprendizaxe profunda tecnoloxía, agora é posible crear retratos artísticos de alta calidade a partir de fotos de caras reais mediante a transferencia automática de estilos de retrato.
Hai unha variedade de formas exitosas creadas para a transferencia de estilos baseados en imaxes, moitas das cales son facilmente accesibles para os usuarios principiantes en forma de aplicacións móbiles. O material de vídeo converteuse rapidamente nun pilar das nosas redes sociais nos últimos anos.
O auxe das redes sociais e das películas efémeras aumentou a demanda de edición de vídeo innovadora, como a transferencia de estilo de vídeo de retrato, para xerar vídeos exitosos e interesantes.
As técnicas existentes orientadas á imaxe teñen desvantaxes importantes cando se aplican ás películas, o que limita a súa utilidade na estilización automática de vídeos de retratos.
StyleGAN é unha columna vertebral común para desenvolver un modelo de transferencia de estilo de imaxe de retrato debido á súa capacidade para crear caras de alta calidade cunha xestión de estilo axustable.
Un sistema baseado en StyleGAN (tamén coñecido como toonificación de imaxes) codifica unha cara real no espazo latente de StyleGAN e despois aplica o código de estilo resultante a outro StyleGAN afinado no conxunto de datos de retratos artísticos para crear unha versión estilizada.
StyleGAN crea imaxes con caras aliñadas e cun tamaño fixo, o que non favorece as caras dinámicas nas imaxes do mundo real. O recorte e o aliñamento da cara no vídeo ás veces producen unha cara parcial e xestos incómodos. Os investigadores chaman a este problema de "restrición de cultivos fixos" de StyleGAN.
Para as caras non aliñadas, propúxose StyleGAN3; non obstante, só admite un tamaño de imaxe establecido.
Ademais, un estudo recente descubriu que codificar caras non aliñadas é máis difícil que as caras aliñadas. A codificación incorrecta da cara é prexudicial para a transferencia do estilo de retrato, o que provoca problemas como a alteración da identidade e a falta de compoñentes nos cadros reconstruídos e estilizados.
Como se comentou, unha técnica eficiente para a transferencia de estilo de vídeo de retrato debe xestionar os seguintes problemas:
- Para preservar movementos realistas, o enfoque debe ser capaz de tratar con caras non aliñadas e tamaños de vídeo variados. Un gran tamaño de vídeo ou un gran ángulo de visión pode capturar máis información mentres evita que a cara se saia do cadro.
- Para competir cos aparellos HD de uso habitual, é necesario un vídeo de alta resolución.
- Debe ofrecerse un control de estilo flexible para que os usuarios poidan modificar e escoller a súa elección ao desenvolver un sistema de interacción do usuario realista.
Para iso, os investigadores suxiren VToonify, un novo marco híbrido para a tonificación de vídeo. Para superar a limitación de cultivo fixa, os investigadores estudan primeiro a equivarianza de tradución en StyleGAN.
VToonify combina os beneficios da arquitectura baseada en StyleGAN e o marco de tradución de imaxes para conseguir unha transferencia de estilo de vídeo retrato de alta resolución axustable.
As seguintes son as principais contribucións:
- Os investigadores investigan a restrición de cultivo fixo de StyleGAN e propoñen unha solución baseada na equivarianza de tradución.
- Os investigadores presentan un marco VToonify totalmente convolucional único para a transferencia controlada de estilos de vídeo de retrato de alta resolución que admite caras non aliñadas e diferentes tamaños de vídeo.
- Os investigadores constrúen VToonify nas bases de Toonify e DualStyleGAN e condensan as columnas en termos de datos e modelos para permitir a transferencia de estilos de vídeo de retrato baseada en coleccións e en modelos.
Comparando Vtoonify con outros modelos de última xeración
Toonificar
Serve como base para a transferencia de estilo baseada na colección en caras aliñadas usando StyleGAN. Para recuperar os códigos de estilo, os investigadores deben aliñar as caras e recortar 256256 fotos para PSP. Toonify úsase para xerar un resultado estilizado con códigos de estilo 1024*1024.
Finalmente, realiñan o resultado do vídeo coa súa localización orixinal. A área non estilizada estableceuse en negro.
DualStyleGAN
É unha columna vertebral para a transferencia de estilo baseada en exemplares baseada en StyleGAN. Usan as mesmas técnicas de pre e post-procesamento de datos que Toonify.
Pix2pixHD
É un modelo de tradución de imaxe a imaxe que se usa habitualmente para condensar modelos previamente adestrados para a edición en alta resolución. Adestrase usando datos emparellados.
Os investigadores utilizan pix2pixHD como entradas de mapas de instancia adicionais xa que usa o mapa de análise extraído.
Moción de Primeira Orde
FOM é un modelo típico de animación de imaxes. Adestrause en 256256 imaxes e ten un mal rendemento con outros tamaños de imaxe. Como consecuencia, os investigadores primeiro escalan os fotogramas de vídeo a 256 * 256 para FOM á animación e despois redimensionan os resultados ao seu tamaño orixinal.
Para unha comparación xusta, FOM emprega o primeiro marco estilizado do seu enfoque como a súa imaxe de estilo de referencia.
DaGAN
É un modelo de animación facial en 3D. Usan os mesmos métodos de preparación e posprocesamento de datos que FOM.
vantaxes
- Pódese empregar en artes, avatares de redes sociais, películas, publicidade de entretemento, etc.
- Vtoonify tamén se pode utilizar no metaverso.
Limitacións
- Esta metodoloxía extrae tanto os datos como o modelo das bases baseadas en StyleGAN, dando como resultado un sesgo de datos e modelos.
- Os artefactos son causados principalmente por diferenzas de tamaño entre a rexión estilizada da cara e as outras seccións.
- Esta estratexia ten menos éxito cando se trata de cousas na rexión da cara.
Conclusión
Finalmente, VToonify é un marco para a tonificación de vídeo de alta resolución controlada polo estilo.
Este cadro consegue un gran rendemento no manexo de vídeos e permite un control amplo sobre o estilo estrutural, o estilo de cor e o grao de estilo condensando os modelos de tonificación de imaxe baseados en StyleGAN en termos tanto dos seus datos sintéticos e estruturas de rede.
Deixe unha resposta