Vtoonify: 制御可能な高解像度ポートレートビデオスタイル転送

目次[隠す][見せる]

Vtoonifyとは？
システムを教えてください。
StyleGANと提案されたVtoonifyの制限
Vtoonify と他の最新モデルとの比較+ -
Advantages+ -
- 制限事項
まとめ

コンピュータービジョンとグラフィックスにおいて、最高レベルのクリエイティブなポートレートフィルムを作成することは、重要かつ望ましいタスクです。

強力な StyleGAN に基づくポートレート画像のトゥーン化のためのいくつかの効果的なモデルが提案されていますが、これらの画像指向の技術は、固定フレームサイズ、顔の位置合わせの要件、顔以外の詳細の欠如など、ビデオで使用する場合に明らかな欠点があります。、および一時的な矛盾。

革新的な VToonify フレームワークを使用して、制御が困難な高解像度のポートレートビデオスタイル転送に取り組みます。

この記事では、機能、欠点、およびその他の要因を含め、VToonify に関する最新の調査を検討します。

Vtoonifyとは？

VToonify フレームワークにより、カスタマイズ可能な高解像度のポートレートビデオスタイルの送信が可能になります。

VToonify は、StyleGAN の中解像度レイヤーと高解像度レイヤーを使用して、エンコーダーによって取得されたマルチスケールのコンテンツ特性に基づいて高品質の芸術的なポートレートを作成し、フレームの詳細を保持します。

結果として得られる完全な畳み込みアーキテクチャは、可変サイズのムービー内の位置合わせされていない顔を入力として受け取り、顔全体の領域が現実的な動きで出力されます。

Vtoonify

このフレームワークは、現在の StyleGAN ベースの画像トゥーン化モデルと互換性があるため、ビデオのトゥーン化に拡張でき、調整可能な色や強度のカスタマイズなどの魅力的な特性を継承しています。

この研究は、Toonify と DualStyleGAN に基づく VToonify の XNUMX つのインスタンス化を導入し、それぞれコレクションベースと見本ベースのポートレートビデオスタイル転送を行います。

広範な実験結果は、提案された VToonify フレームワークが、可変スタイルパラメーターを使用して、高品質で時間的に一貫性のある芸術的なポートレートムービーを作成する既存のアプローチよりも優れていることを示しています。

研究者は、 GoogleColabノートブック、だから手を汚すことができます。

システムを教えてください。

調整可能な高解像度のポートレートビデオスタイル転送を実現するために、VToonify は画像変換フレームワークの利点と StyleGAN ベースのフレームワークを組み合わせます。

Vtoonify作業中

さまざまな入力サイズに対応するために、画像変換システムは完全な畳み込みネットワークを採用しています。一方、ゼロからのトレーニングでは、高解像度で制御されたスタイルの送信が不可能になります。

事前トレーニング済みの StyleGAN モデルは、StyleGAN ベースのフレームワークで使用され、高解像度で制御されたスタイル転送を行いますが、固定の画像サイズと細部の損失に制限されます。

StyleGAN は、固定サイズの入力機能と低解像度レイヤーを削除することによってハイブリッドフレームワークで変更され、画像変換フレームワークと同様の完全な畳み込みエンコーダージェネレーターアーキテクチャになります。

フレームの詳細を維持するには、入力フレームのマルチスケールコンテンツ特性をジェネレーターへの追加コンテンツ要件として抽出するようにエンコーダーをトレーニングします。 Vtoonify は、StyleGAN モデルのスタイルコントロールの柔軟性を継承し、データとモデルの両方を抽出するジェネレーターに配置します。

StyleGANと提案されたVtoonifyの制限

芸術的なポートレートは、私たちの日常生活だけでなく、アートなどのクリエイティブビジネスでも一般的です。ソーシャルメディアアバター、映画、娯楽広告など。

の開発で深い学習テクノロジーにより、自動ポートレートスタイル転送を使用して、実際の顔写真から高品質で芸術的なポートレートを作成できるようになりました。

画像ベースのスタイル転送のために作成されたさまざまな成功した方法があり、その多くはモバイルアプリケーションの形で初心者ユーザーが簡単にアクセスできます。動画素材は、ここ数年で急速にソーシャルメディアフィードの主力になりました。

ソーシャルメディアや短編映画の台頭により、効果的で興味深い動画を生成するために、ポートレート動画スタイルの転送などの革新的な動画編集の需要が高まっています。

既存の画像指向の手法は、映画に適用すると重大な欠点があり、自動化されたポートレートビデオスタイル設定での有用性が制限されます。

StyleGAN は、調整可能なスタイル管理で高品質の顔を作成できるため、ポートレート写真スタイル転送モデルを開発するための一般的なバックボーンです。

StyleGAN ベースのシステム (画像のトゥーン化とも呼ばれます) は、実際の顔を StyleGAN 潜在空間にエンコードし、結果のスタイルコードを芸術的なポートレートデータセットで微調整された別の StyleGAN に適用して、様式化されたバージョンを作成します。

StyleGAN は、顔が整列した固定サイズの写真を作成します。ビデオでの顔の切り取りと位置合わせにより、顔が部分的になり、ぎこちないジェスチャーになることがあります。研究者は、この問題をStyleGANの「固定作物制限」と呼んでいます。

位置合わせされていない面については、StyleGAN3 が提案されています。ただし、設定された画像サイズのみをサポートします。

さらに、最近の研究では、位置合わせされていない顔のエンコードは、位置合わせされた顔よりも困難であることが発見されました。顔のエンコーディングが正しくないと、ポートレートスタイルの転送に悪影響を及ぼし、再構築およびスタイル設定されたフレームでのアイデンティティの変更やコンポーネントの欠落などの問題が発生します。

説明したように、縦向きのビデオスタイルを効率的に転送するには、次の問題を処理する必要があります。

現実的な動きを維持するために、アプローチは、位置合わせされていない顔とさまざまなビデオサイズを処理できる必要があります。ビデオのサイズが大きい、または画角が広いと、顔がフレームからはみ出さないようにしながら、より多くの情報をキャプチャできます。
現在一般的に使用されている HD ガジェットと競合するには、高解像度のビデオが必要です。
現実的なユーザーインタラクションシステムを開発する際に、ユーザーが選択を変更したり選択したりできるように、柔軟なスタイルコントロールを提供する必要があります。

その目的のために、研究者はビデオトゥーン化のための新しいハイブリッドフレームワークである VToonify を提案しています。固定作物の制約を克服するために、研究者はまず StyleGAN で翻訳の等価性を研究します。

VToonify は、StyleGAN ベースのアーキテクチャと画像変換フレームワークの利点を組み合わせて、調整可能な高解像度のポートレートビデオスタイル転送を実現します。

主な貢献は次のとおりです。

研究者は、StyleGAN の固定クロップ制約を調査し、翻訳の等価性に基づく解決策を提案します。
研究者は、位置合わせされていない顔とさまざまなビデオサイズをサポートする、制御された高解像度のポートレートビデオスタイル転送のための独自の完全畳み込み VToonify フレームワークを提示します。
研究者は、Toonify と DualStyleGAN のバックボーン上に VToonify を構築し、データとモデルの両方の観点からバックボーンを凝縮して、コレクションベースおよび見本ベースのポートレートビデオスタイルの転送を可能にします。

Vtoonify と他の最新モデルとの比較

トゥーニファイ

これは、StyleGAN を使用して、位置合わせされた面でのコレクションベースのスタイル転送の基盤として機能します。スタイルコードを取得するには、研究者は顔を揃え、PSP 用に 256256 枚の写真をトリミングする必要があります。 Toonify は、1024*1024 スタイルコードで定型化された結果を生成するために使用されます。

最後に、ビデオの結果を元の場所に再配置します。スタイル化されていない領域は黒に設定されています。

Vtoonify と他の最新モデルとの比較

デュアルスタイルGAN

これは、StyleGAN に基づく手本ベースのスタイル転送のバックボーンです。 Toonify と同じデータの前処理および後処理技術を使用します。

Pix2pixHD

これは、高解像度編集用に事前トレーニング済みのモデルを圧縮するために一般的に使用される画像から画像への変換モデルです。ペアデータを使用してトレーニングされます。

研究者は、抽出された解析マップを使用するため、追加のインスタンスマップ入力として pix2pixHD を利用します。

一次運動

FOM は典型的なイメージアニメーションモデルです。これは 256256 枚の画像でトレーニングされており、他の画像サイズではうまく機能しません。その結果、研究者は最初にビデオフレームを 256*256 にスケーリングして FOM をアニメーション化し、次に結果を元のサイズにサイズ変更します。

公正な比較のために、FOM はそのアプローチの最初の様式化されたフレームを参照スタイルイメージとして採用しています。

ダガン

3Dフェイスアニメーションモデルです。 FOM と同じデータ準備および後処理方法を使用します。

Advantages

アート、ソーシャルメディアのアバター、映画、エンターテイメント広告などで使用できます。
Vtoonify はメタバースでも利用できます。

制限事項

この方法論は、StyleGAN ベースのバックボーンからデータとモデルの両方を抽出するため、データとモデルに偏りが生じます。
アーティファクトは、主に、様式化された顔領域と他のセクションとのサイズの違いによって発生します。
この戦略は、顔の領域にあるものを扱う場合、あまり成功しません。

まとめ

最後に、VToonify は、スタイル制御された高解像度ビデオのトゥーン化のためのフレームワークです。

このフレームワークは、動画の処理において優れたパフォーマンスを実現し、StyleGAN ベースの画像トゥーン化モデルをその合成データそしてネットワーク構造。

Vtoonify: 制御可能な高解像度ポートレートビデオスタイル転送

Vtoonifyとは？

システムを教えてください。

StyleGANと提案されたVtoonifyの制限