コンピューター ビジョンとグラフィックスにおいて、最高レベルのクリエイティブなポートレート フィルムを作成することは、重要かつ望ましいタスクです。
強力な StyleGAN に基づくポートレート画像のトゥーン化のためのいくつかの効果的なモデルが提案されていますが、これらの画像指向の技術は、固定フレーム サイズ、顔の位置合わせの要件、顔以外の詳細の欠如など、ビデオで使用する場合に明らかな欠点があります。 、および一時的な矛盾。
革新的な VToonify フレームワークを使用して、制御が困難な高解像度のポートレート ビデオ スタイル転送に取り組みます。
この記事では、機能、欠点、およびその他の要因を含め、VToonify に関する最新の調査を検討します。
Vtoonifyとは?
VToonify フレームワークにより、カスタマイズ可能な高解像度のポートレート ビデオ スタイルの送信が可能になります。
VToonify は、StyleGAN の中解像度レイヤーと高解像度レイヤーを使用して、エンコーダーによって取得されたマルチスケールのコンテンツ特性に基づいて高品質の芸術的なポートレートを作成し、フレームの詳細を保持します。
結果として得られる完全な畳み込みアーキテクチャは、可変サイズのムービー内の位置合わせされていない顔を入力として受け取り、顔全体の領域が現実的な動きで出力されます。
このフレームワークは、現在の StyleGAN ベースの画像トゥーン化モデルと互換性があるため、ビデオのトゥーン化に拡張でき、調整可能な色や強度のカスタマイズなどの魅力的な特性を継承しています。
この 研究 は、Toonify と DualStyleGAN に基づく VToonify の XNUMX つのインスタンス化を導入し、それぞれコレクション ベースと見本ベースのポートレート ビデオ スタイル転送を行います。
広範な実験結果は、提案された VToonify フレームワークが、可変スタイル パラメーターを使用して、高品質で時間的に一貫性のある芸術的なポートレート ムービーを作成する既存のアプローチよりも優れていることを示しています。
研究者は、 GoogleColabノートブック、だから手を汚すことができます。
システムを教えてください。
調整可能な高解像度のポートレート ビデオ スタイル転送を実現するために、VToonify は画像変換フレームワークの利点と StyleGAN ベースのフレームワークを組み合わせます。
さまざまな入力サイズに対応するために、画像変換システムは完全な畳み込みネットワークを採用しています。 一方、ゼロからのトレーニングでは、高解像度で制御されたスタイルの送信が不可能になります。
事前トレーニング済みの StyleGAN モデルは、StyleGAN ベースのフレームワークで使用され、高解像度で制御されたスタイル転送を行いますが、固定の画像サイズと細部の損失に制限されます。
StyleGAN は、固定サイズの入力機能と低解像度レイヤーを削除することによってハイブリッド フレームワークで変更され、画像変換フレームワークと同様の完全な畳み込みエンコーダー ジェネレーター アーキテクチャになります。
フレームの詳細を維持するには、入力フレームのマルチスケール コンテンツ特性をジェネレーターへの追加コンテンツ要件として抽出するようにエンコーダーをトレーニングします。 Vtoonify は、StyleGAN モデルのスタイル コントロールの柔軟性を継承し、データとモデルの両方を抽出するジェネレーターに配置します。
StyleGANと提案されたVtoonifyの制限
芸術的なポートレートは、私たちの日常生活だけでなく、アートなどのクリエイティブ ビジネスでも一般的です。 ソーシャルメディア アバター、映画、娯楽広告など。
の開発で 深い学習 テクノロジーにより、自動ポートレート スタイル転送を使用して、実際の顔写真から高品質で芸術的なポートレートを作成できるようになりました。
画像ベースのスタイル転送のために作成されたさまざまな成功した方法があり、その多くはモバイル アプリケーションの形で初心者ユーザーが簡単にアクセスできます。 動画素材は、ここ数年で急速にソーシャル メディア フィードの主力になりました。
ソーシャル メディアや短編映画の台頭により、効果的で興味深い動画を生成するために、ポートレート動画スタイルの転送などの革新的な動画編集の需要が高まっています。
既存の画像指向の手法は、映画に適用すると重大な欠点があり、自動化されたポートレート ビデオ スタイル設定での有用性が制限されます。
StyleGAN は、調整可能なスタイル管理で高品質の顔を作成できるため、ポートレート写真スタイル転送モデルを開発するための一般的なバックボーンです。
StyleGAN ベースのシステム (画像のトゥーン化とも呼ばれます) は、実際の顔を StyleGAN 潜在空間にエンコードし、結果のスタイル コードを芸術的なポートレート データセットで微調整された別の StyleGAN に適用して、様式化されたバージョンを作成します。
StyleGAN は、顔が整列した固定サイズの写真を作成します。 ビデオでの顔の切り取りと位置合わせにより、顔が部分的になり、ぎこちないジェスチャーになることがあります。 研究者は、この問題をStyleGANの「固定作物制限」と呼んでいます。
位置合わせされていない面については、StyleGAN3 が提案されています。 ただし、設定された画像サイズのみをサポートします。
さらに、最近の研究では、位置合わせされていない顔のエンコードは、位置合わせされた顔よりも困難であることが発見されました。 顔のエンコーディングが正しくないと、ポートレート スタイルの転送に悪影響を及ぼし、再構築およびスタイル設定されたフレームでのアイデンティティの変更やコンポーネントの欠落などの問題が発生します。
説明したように、縦向きのビデオ スタイルを効率的に転送するには、次の問題を処理する必要があります。
- 現実的な動きを維持するために、アプローチは、位置合わせされていない顔とさまざまなビデオ サイズを処理できる必要があります。 ビデオのサイズが大きい、または画角が広いと、顔がフレームからはみ出さないようにしながら、より多くの情報をキャプチャできます。
- 現在一般的に使用されている HD ガジェットと競合するには、高解像度のビデオが必要です。
- 現実的なユーザー インタラクション システムを開発する際に、ユーザーが選択を変更したり選択したりできるように、柔軟なスタイル コントロールを提供する必要があります。
その目的のために、研究者はビデオトゥーン化のための新しいハイブリッドフレームワークである VToonify を提案しています。 固定作物の制約を克服するために、研究者はまず StyleGAN で翻訳の等価性を研究します。
VToonify は、StyleGAN ベースのアーキテクチャと画像変換フレームワークの利点を組み合わせて、調整可能な高解像度のポートレート ビデオ スタイル転送を実現します。
主な貢献は次のとおりです。
- 研究者は、StyleGAN の固定クロップ制約を調査し、翻訳の等価性に基づく解決策を提案します。
- 研究者は、位置合わせされていない顔とさまざまなビデオ サイズをサポートする、制御された高解像度のポートレート ビデオ スタイル転送のための独自の完全畳み込み VToonify フレームワークを提示します。
- 研究者は、Toonify と DualStyleGAN のバックボーン上に VToonify を構築し、データとモデルの両方の観点からバックボーンを凝縮して、コレクションベースおよび見本ベースのポートレート ビデオ スタイルの転送を可能にします。
Vtoonify と他の最新モデルとの比較
トゥーニファイ
これは、StyleGAN を使用して、位置合わせされた面でのコレクションベースのスタイル転送の基盤として機能します。 スタイル コードを取得するには、研究者は顔を揃え、PSP 用に 256256 枚の写真をトリミングする必要があります。 Toonify は、1024*1024 スタイル コードで定型化された結果を生成するために使用されます。
最後に、ビデオの結果を元の場所に再配置します。 スタイル化されていない領域は黒に設定されています。
デュアルスタイルGAN
これは、StyleGAN に基づく手本ベースのスタイル転送のバックボーンです。 Toonify と同じデータの前処理および後処理技術を使用します。
Pix2pixHD
これは、高解像度編集用に事前トレーニング済みのモデルを圧縮するために一般的に使用される画像から画像への変換モデルです。 ペアデータを使用してトレーニングされます。
研究者は、抽出された解析マップを使用するため、追加のインスタンス マップ入力として pix2pixHD を利用します。
一次運動
FOM は典型的なイメージ アニメーション モデルです。 これは 256256 枚の画像でトレーニングされており、他の画像サイズではうまく機能しません。 その結果、研究者は最初にビデオ フレームを 256*256 にスケーリングして FOM をアニメーション化し、次に結果を元のサイズにサイズ変更します。
公正な比較のために、FOM はそのアプローチの最初の様式化されたフレームを参照スタイル イメージとして採用しています。
ダガン
3Dフェイスアニメーションモデルです。 FOM と同じデータ準備および後処理方法を使用します。
Advantages
- アート、ソーシャル メディアのアバター、映画、エンターテイメント広告などで使用できます。
- Vtoonify はメタバースでも利用できます。
制限事項
- この方法論は、StyleGAN ベースのバックボーンからデータとモデルの両方を抽出するため、データとモデルに偏りが生じます。
- アーティファクトは、主に、様式化された顔領域と他のセクションとのサイズの違いによって発生します。
- この戦略は、顔の領域にあるものを扱う場合、あまり成功しません。
まとめ
最後に、VToonify は、スタイル制御された高解像度ビデオのトゥーン化のためのフレームワークです。
このフレームワークは、動画の処理において優れたパフォーマンスを実現し、StyleGAN ベースの画像トゥーン化モデルをその 合成データ そしてネットワーク構造。
コメントを残す