ここ数年で、テキストから画像への AI モデルがどれほど強力になったかについて聞いたことがあるかもしれません。 しかし、同じテクノロジーが 2D から 3D への飛躍に役立つことをご存知でしたか?
AI によって生成された 3D モデルは、今日のデジタル環境において幅広いユース ケースを持っています。 ビデオゲーム そして映画は、熟練した 3D アーティストと Blender などのモデリング ソフトウェアに依存して 3D アセットを作成し、コンピューターで生成されたシーンを取り込みます。
しかし、今日の 3D アーティストが DALL-E や ミッドジャーニー?
この記事では、既存のアルゴリズムを使用して効果的なテキストから 3D へのモデルを作成しようとする新しいアルゴリズムについて説明します。 拡散モデル.
何ですか ドリームフュージョン?
3D アセットを直接生成する拡散モデルを作成する際の大きな問題の 3 つは、利用できる 2D データがあまりないことです。 3D 拡散モデルは、インターネット上に膨大な画像データセットが存在するため、非常に強力になりました。 XNUMXD アセットでは同じことは言えません。
一部の 3D 生成技術は、この豊富な 2D データを利用して、このデータ不足を回避します。
ドリームフュージョン 提供されたテキストの説明に基づいて 3D モデルを作成できる生成モデルです。 DreamFusion モデルは、事前トレーニング済みのテキストから画像への拡散モデルを使用して、テキスト プロンプトからリアルな XNUMX 次元モデルを生成します。
3D トレーニング データがないにもかかわらず、このアプローチにより、忠実度の高い外観と深さを備えた首尾一貫した 3D アセットが生成されました。
それはどのように動作しますか?
DreamFusion アルゴリズムは、2D 拡散モデルと ニューラルネットワーク 2D 画像をまとまりのある 3D シーンに変換できます。
Google の Imagen Text-to-Image モデル
アルゴリズムの最初の部分は拡散モデルです。 このモデルは、テキストを画像に変換する役割を果たします。
画像 は、特定のオブジェクトのイメージ バリエーションの大規模なサンプルを生成できる拡散モデルです。 この場合、画像のバリエーションは、提供されたオブジェクトのすべての可能な角度をカバーする必要があります。 たとえば、馬の 3D モデルを生成する場合、考えられるあらゆる角度からの馬の 2D 画像が必要になります。 目標は、Imagen を使用して、アルゴリズムの次のモデルに可能な限り多くの情報 (色、反射、密度) を提供することです。
NeRF で 3D モデルを作成する
次に、Dreamfusion は、 神経放射輝度フィールド または NeRF を使用して、生成された画像セットから 3D モデルを実際に作成します。 NeRF は、3D 画像のデータセットから複雑な 2D シーンを作成できます。
NeRF がどのように機能するかを理解してみましょう。
このモデルは、提供された 2D 画像のデータセットから最適化された連続ボリューム シーン関数を作成することを目的としています。
モデルが関数を作成する場合、入力と出力は何ですか?
シーン関数は、3D 位置と 2D ビュー方向を入力として受け取ります。 この関数は、色 (RGB 形式) と特定の体積密度を出力します。
特定の視点から 2D 画像を生成するために、モデルは 3D ポイントのセットを生成し、それらのポイントをシーン関数で実行して、色と体積密度の値のセットを返します。 ボリューム レンダリング技術は、これらの値を 2D 画像出力に変換します。
NeRF と 2D 拡散モデルの併用
NeRF がどのように機能するかがわかったので、このモデルが生成された画像から正確な 3D モデルを生成する方法を見てみましょう。
提供されたテキスト プロンプトごとに、DreamFusion はランダムに初期化された NeRF をゼロからトレーニングします。 各反復では、一連の球面座標でランダムなカメラ位置が選択されます。 ガラス球に包まれたモデルを考えてみてください。 3D モデルの新しい画像を生成するたびに、出力の視点として球内のランダムなポイントを選択します。 また、DreamFusion はライトの位置をランダムに選択します l レンダリングに使用します。
カメラとライトの位置が決まると、NeRF モデルがレンダリングされます。 また、DreamFusion は、カラー レンダリング、テクスチャレス レンダリング、シェーディングなしのアルベド レンダリングからランダムに選択します。
テキストから画像へのモデル (Imagen) で、代表的なサンプルを作成するのに十分な画像を生成する必要があることは前に述べました。
Dreamfusion はこれをどのように実現しますか?
Dreamfusion は、意図した角度になるように、入力プロンプトをわずかに変更するだけです。 たとえば、プロンプトに「俯瞰」を追加することで、高い仰角を実現できます。 「正面図」、「側面図」、「背面図」などのフレーズを追加することで、別の角度を生成できます。
シーンは、ランダムなカメラ位置から繰り返しレンダリングされます。 これらのレンダリングは、スコア蒸留損失関数を通過します。 単純な勾配降下アプローチは、ゆっくりと改善します。 3Dモデル テキストで説明されているシーンに一致するまで。
NeRF を使用して 3D モデルをレンダリングしたら、 マーチング キューブ アルゴリズム モデルの 3D メッシュを出力します。 このメッシュは、一般的な 3D レンダラーまたはモデリング ソフトウェアにインポートできます。
制限事項
DreamFusion の出力は、既存のテキストから画像への拡散モデルを斬新な方法で使用しているため、十分に印象的ですが、研究者はいくつかの制限を指摘しています。
SDS 損失関数は、過飽和および過度に平滑化された結果を生成することが観察されています。 これは、出力に見られる不自然な色付けと正確な詳細の欠如で確認できます。
DreamFusion アルゴリズムは、Imagen モデル出力の解像度 (64 x 64 ピクセル) によっても制限されます。 これにより、合成されたモデルの詳細が失われます。
最後に、研究者は、3D データから 2D モデルを合成する際に固有の課題があることを指摘しています。 一連の 3D 画像から生成できる 2D モデルは多数あり、最適化は非常に難しく、あいまいですらあります。
まとめ
DreamFusion の 3D レンダリングは、テキストから画像への拡散モデルがあらゆるオブジェクトやシーンを作成できるため、非常にうまく機能します。 3D トレーニング データがなくても、ニューラル ネットワークが 3D 空間のシーンを理解できることは印象的です。 を読むことをお勧めします 紙全体 DreamFusion アルゴリズムの技術的な詳細については、こちらをご覧ください。
願わくば、この技術が最終的には写真のようにリアルな 3D モデルを作成できるように改善されることを願っています。 AI によって生成された環境を使用するビデオ ゲーム全体またはシミュレーションを想像してみてください。 ビデオゲーム開発者が没入型の 3D 世界を作成するための参入障壁を下げることができます!
テキストから 3D へのモデルは、将来どのような役割を果たすと思いますか?
コメントを残す