Vtoonify: 제어 가능한 고해상도 인물 동영상 스타일 전송

차례[숨다][보여 주다]

Vtoonify는 무엇입니까?
어떻게 진행합니까?
StyleGAN 및 제안 Vtoonify의 한계
다른 최첨단 모델과 Vtoonify 비교+-
장점+-
- 제한 사항
결론

최고 수준의 창의적인 인물 사진을 제작하는 것은 컴퓨터 비전 및 그래픽 분야에서 중요하고 바람직한 작업입니다.

강력한 StyleGAN을 기반으로 한 인물 이미지 변형을 위한 몇 가지 효과적인 모델이 제안되었지만 이러한 이미지 지향 기술은 고정 프레임 크기, 얼굴 정렬 요구 사항, 비얼굴 세부 사항의 부재와 같이 비디오와 함께 사용할 때 명백한 단점이 있습니다. , 그리고 시간적 불일치.

혁신적인 VToonify 프레임워크는 제어하기 어려운 고해상도 세로 비디오 스타일 전송을 처리하는 데 사용됩니다.

기능, 단점 및 기타 요소를 포함하여 이 기사에서 VToonify에 대한 가장 최근 연구를 검토할 것입니다.

Vtoonify는 무엇입니까?

VToonify 프레임워크는 사용자 정의 가능한 고해상도 세로 비디오 스타일 전송을 허용합니다.

VToonify는 StyleGAN의 중간 및 고해상도 레이어를 사용하여 프레임 세부 정보를 유지하기 위해 인코더에서 검색한 다중 스케일 콘텐츠 특성을 기반으로 고품질 예술적 초상화를 만듭니다.

결과적으로 완전한 컨볼루션 아키텍처는 가변 크기 영화에서 정렬되지 않은 얼굴을 입력으로 사용하여 출력에서 사실적인 움직임이 있는 전체 얼굴 영역을 생성합니다.

브이툰파이

이 프레임워크는 현재 StyleGAN 기반 이미지 만화화 모델과 호환되므로 비디오 만화화로 확장할 수 있으며 조정 가능한 색상 및 강도 사용자 지정과 같은 매력적인 특성을 상속합니다.

이 공부 컬렉션 기반 및 예시 기반 세로 비디오 스타일 전송을 위해 각각 Toonify 및 DualStyleGAN 기반 VToonify의 두 가지 인스턴스화를 소개합니다.

광범위한 실험 결과에 따르면 제안된 VToonify 프레임워크는 다양한 스타일 매개변수를 사용하여 시간적으로 일관된 고품질 예술적 초상화 영화를 만드는 데 기존 접근 방식을 능가합니다.

연구원들은 제공 Google Colab 노트북, 손이 더러워질 수 있습니다.

어떻게 진행합니까?

조정 가능한 고해상도 세로 비디오 스타일 전송을 달성하기 위해 VToonify는 이미지 번역 프레임워크의 장점을 StyleGAN 기반 프레임워크와 결합합니다.

Vtoonify 작업

다양한 입력 크기를 수용하기 위해 이미지 번역 시스템은 완전한 컨볼루션 네트워크를 사용합니다. 반면에 처음부터 훈련하면 고해상도 및 제어된 스타일 전송이 불가능합니다.

사전 훈련된 StyleGAN 모델은 고해상도 및 제어된 스타일 전송을 위해 StyleGAN 기반 프레임워크에서 사용되지만 고정된 사진 크기 및 세부 손실로 제한됩니다.

StyleGAN은 고정 크기의 입력 기능과 저해상도 레이어를 삭제하여 하이브리드 프레임워크에서 수정되어 이미지 번역 프레임워크와 유사한 완전한 컨볼루션 인코더 생성기 아키텍처가 됩니다.

프레임 세부 정보를 유지하려면 인코더를 훈련하여 입력 프레임의 다중 스케일 콘텐츠 특성을 생성기에 대한 추가 콘텐츠 요구 사항으로 추출합니다. Vtoonify는 데이터와 모델을 모두 추출하기 위해 생성기에 넣어 StyleGAN 모델의 스타일 제어 유연성을 상속합니다.

StyleGAN 및 제안 Vtoonify의 한계

예술적 초상화는 우리의 일상은 물론 예술, 소셜 미디어 아바타, 영화, 엔터테인먼트 광고 등.

의 개발과 함께 깊은 학습 기술 덕분에 이제 자동 인물 스타일 전송을 사용하여 실제 얼굴 사진에서 고품질 예술적 인물 사진을 만들 수 있습니다.

이미지 기반 스타일 전송을 위해 만들어진 다양한 성공적인 방법이 있으며, 그 중 다수는 모바일 응용 프로그램의 형태로 초보 사용자가 쉽게 액세스할 수 있습니다. 비디오 자료는 지난 몇 년 동안 빠르게 소셜 미디어 피드의 주류가 되었습니다.

소셜 미디어와 임시 영화의 등장으로 성공적이고 흥미로운 비디오를 생성하기 위해 세로 비디오 스타일 전송과 같은 혁신적인 비디오 편집에 대한 요구가 증가했습니다.

기존의 이미지 지향 기술은 영화에 적용할 때 큰 단점이 있어 자동 인물 동영상 스타일화에서 유용성이 제한됩니다.

StyleGAN은 조정 가능한 스타일 관리로 고품질 얼굴을 생성할 수 있는 기능으로 인해 인물 사진 스타일 전송 모델을 개발하기 위한 공통 백본입니다.

StyleGAN 기반 시스템(picture toonification이라고도 함)은 실제 얼굴을 StyleGAN 잠재 공간으로 인코딩한 다음 결과 스타일 코드를 예술적 초상화 데이터 세트에서 미세 조정된 다른 StyleGAN에 적용하여 양식화된 버전을 생성합니다.

StyleGAN은 얼굴이 정렬되어 있고 고정된 크기로 사진을 생성하므로 실제 장면에서 역동적인 얼굴을 선호하지 않습니다. 비디오의 얼굴 자르기 및 정렬로 인해 얼굴이 부분적으로 표시되고 몸짓이 어색하게 되는 경우가 있습니다. 연구원들은 이 문제를 StyleGAN의 '고정 작물 제한'이라고 부릅니다.

정렬되지 않은 면의 경우 StyleGAN3이 제안되었습니다. 그러나 설정된 사진 크기만 지원합니다.

또한 최근 연구에서는 정렬되지 않은 얼굴을 인코딩하는 것이 정렬된 얼굴보다 더 어렵다는 사실을 발견했습니다. 잘못된 얼굴 인코딩은 세로 스타일 전송에 유해하며, 재구성 및 스타일이 지정된 프레임에서 ID 변경 및 누락된 구성 요소와 같은 문제가 발생합니다.

논의된 바와 같이 세로 비디오 스타일 전송을 위한 효율적인 기술은 다음 문제를 처리해야 합니다.

사실적인 움직임을 유지하려면 정렬되지 않은 얼굴과 다양한 비디오 크기를 처리할 수 있어야 합니다. 비디오 크기가 크거나 화각이 넓으면 얼굴이 프레임에서 벗어나지 않도록 하면서 더 많은 정보를 캡처할 수 있습니다.
오늘날 일반적으로 사용되는 HD 장치와 경쟁하려면 고해상도 비디오가 필요합니다.
현실적인 사용자 상호 작용 시스템을 개발할 때 사용자가 선택을 변경하고 선택할 수 있도록 유연한 스타일 제어가 제공되어야 합니다.

이를 위해 연구자들은 비디오 만화화를 위한 새로운 하이브리드 프레임워크인 VToonify를 제안합니다. 고정 작물 제약을 극복하기 위해 연구원들은 먼저 StyleGAN에서 번역 등분산을 연구합니다.

VToonify는 StyleGAN 기반 아키텍처와 이미지 번역 프레임워크의 이점을 결합하여 조정 가능한 고해상도 세로 비디오 스타일 전송을 달성합니다.

다음은 주요 기여 사항입니다.

연구원들은 StyleGAN의 고정 자르기 제약 조건을 조사하고 번역 등분산에 기반한 솔루션을 제안합니다.
연구원들은 정렬되지 않은 얼굴과 다양한 비디오 크기를 지원하는 제어된 고해상도 세로 비디오 스타일 전송을 위한 고유한 완전 컨볼루션 VToonify 프레임워크를 제시합니다.
연구원은 Toonify 및 DualStyleGAN의 백본에 VToonify를 구성하고 컬렉션 기반 및 모범 기반 초상화 비디오 스타일 전송을 가능하게 하기 위해 데이터 및 모델 측면에서 백본을 압축합니다.

다른 최첨단 모델과 Vtoonify 비교

투니파이

StyleGAN을 사용하여 정렬된 면에서 컬렉션 기반 스타일 전송의 기초 역할을 합니다. 스타일 코드를 검색하려면 연구원이 얼굴을 정렬하고 PSP용 사진 256256장을 잘라야 합니다. Toonify는 1024*1024 스타일 코드로 양식화된 결과를 생성하는 데 사용됩니다.

마지막으로 비디오의 결과를 원래 위치에 다시 정렬합니다. 스타일이 지정되지 않은 영역은 검은색으로 설정되었습니다.

Vtoonify를 다른 최첨단 모델과 비교하기

듀얼스타일GAN

StyleGAN을 기반으로 한 예제 기반 스타일 전송의 백본입니다. 그들은 Toonify와 동일한 데이터 사전 및 사후 처리 기술을 사용합니다.

Pix2pixHD

고해상도 편집을 위해 사전 훈련된 모델을 압축하는 데 일반적으로 사용되는 이미지-이미지 변환 모델입니다. 쌍을 이루는 데이터를 사용하여 학습됩니다.

연구원은 추출된 파싱 맵을 사용하기 때문에 추가 인스턴스 맵 입력으로 pix2pixHD를 사용합니다.

퍼스트 오더 모션

FOM은 전형적인 이미지 애니메이션 모델입니다. 256256개의 사진에 대해 학습되었으며 다른 이미지 크기에서는 제대로 작동하지 않습니다. 결과적으로 연구원들은 먼저 FOM에서 애니메이션으로 비디오 프레임의 크기를 256*256으로 조정한 다음 결과 크기를 원래 크기로 조정합니다.

공정한 비교를 위해 FOM은 접근 방식의 첫 번째 양식화된 프레임을 참조 스타일 이미지로 사용합니다.

다간

3D 얼굴 애니메이션 모델입니다. 그들은 FOM과 동일한 데이터 준비 및 후처리 방법을 사용합니다.

장점

예술, 소셜 미디어 아바타, 영화, 엔터테인먼트 광고 등에 사용할 수 있습니다.
Vtoonify는 메타버스에서도 활용할 수 있습니다.

제한 사항

이 방법론은 StyleGAN 기반 백본에서 데이터와 모델을 모두 추출하므로 데이터와 모델 편향이 발생합니다.
아티팩트는 대부분 양식화된 얼굴 영역과 다른 섹션 간의 크기 차이로 인해 발생합니다.
이 전략은 얼굴 영역을 다룰 때 덜 성공적입니다.

결론

마지막으로, VToonify는 스타일로 제어되는 고해상도 비디오 Toonification을 위한 프레임워크입니다.

이 프레임워크는 비디오 처리에서 뛰어난 성능을 달성하고 두 가지 측면에서 StyleGAN 기반 이미지 toonification 모델을 압축하여 구조적 스타일, 색상 스타일 및 스타일 정도를 광범위하게 제어할 수 있습니다. 합성 데이터 및 네트워크 구조.

Vtoonify: 제어 가능한 고해상도 인물 비디오 스타일 전송

Vtoonify는 무엇입니까?

어떻게 진행합니까?

StyleGAN 및 제안 Vtoonify의 한계

다른 최첨단 모델과 Vtoonify 비교