目次[隠す][見せる]
NVIDIA の Instant NeRF ニューラル レンダリング モデルを使用すると、3D データ入力から数秒で 2D シーンを作成でき、そのシーンの写真を数ミリ秒でレンダリングできることをご存知ですか?
インバース レンダリングと呼ばれる技術を使用して、静止画のコレクションをデジタル 3D 環境にすばやく変換することができます。これにより、AI は実際の世界で光がどのように機能するかを模倣できます。
これは、超高速のニューラル ネットワーク トレーニングとクイック レンダリングを組み合わせることができる、この種の最初のモデルの XNUMX つです。これは、NVIDIA の研究チームが考案した技術のおかげで、操作を信じられないほど迅速に (ほぼ瞬時に) 完了することができます。
この記事では、NVIDIA の NeRF について、その速度、使用例、その他の要因を含めて詳しく調べます。
だから、何ですか ナーフ?
NeRF はニューラル ラジアンス フィールドの略で、少数の入力ビューを使用して基礎となる連続ボリューム シーン関数を改良することにより、複雑なシーンの独自のビューを作成する手法を指します。
入力として 2D 写真のコレクションが与えられると、NVIDIA の NeRF は以下を採用します。 ニューラルネットワーク 3D シーンを表現および生成します。
地域のさまざまな角度からの少数の写真が必要です。 ニューラルネットワーク、各フレーム内のカメラの位置とともに。
これらの写真を撮るのが早ければ早いほど、特に俳優や物体が動いているシーンでは効果的です。
3D 画像のキャプチャ手順中に動きが多すぎると、AI が生成した 2D シーンがぼやけてしまいます。
3D 環境の任意の場所からあらゆる方向に放射される光の色を予測することにより、NeRF はこのデータによって残されたギャップを効果的に埋めて画像全体を構築します。
NeRF は、適切な入力を受け取ってから数ミリ秒で 3D シーンを生成できるため、これまでで最速の NeRF アプローチです。
NeRF は非常に高速に動作するため、ほぼ瞬時に動作するため、その名前が付けられました。 ポリゴン メッシュのような標準的な 3D 表現がベクター画像である場合、NeRF はビットマップ画像です。オブジェクトまたはシーン内から光が放射される方法を高密度にキャプチャします。
インスタントNeRF デジタル カメラと JPEG 圧縮が 3D 写真に使用されているように、2D には不可欠であり、3D キャプチャと共有の速度、利便性、範囲が劇的に向上しています。
Instant NeRF を使用して、仮想世界のアバターや風景全体を作成することもできます。
ポラロイド写真の黎明期に敬意を表するため、NVIDIA リサーチ チームは、アンディ ウォーホルがインスタント写真を撮った有名なショットを再現し、Instant NeRF を使用して 3D シーンに変換しました。
本当に1,000倍速いの?
3D シーンは、その複雑さと品質によっては、NeRF より前に作成するのに何時間もかかる場合がありました。
AI はこのプロセスを大幅に高速化しましたが、適切にトレーニングするにはまだ数時間かかる可能性があります。 Instant NeRF は、NVIDIA が開発したマルチ解像度ハッシュ エンコーディングと呼ばれる方法を使用して、レンダリング時間を 1,000 分の XNUMX に短縮します。
モデルの作成には、Tiny CUDA Neural Networks パッケージと NVIDIA CUDA Toolkit が使用されました。 NVIDIA によると、これは軽量のニューラル ネットワークであるため、単一の NVIDIA GPU でトレーニングして使用することができ、NVIDIA Tensor コア カードは最速で動作します。
Use Case
自動運転車は、この技術の最も重要なアプリケーションの XNUMX つです。 これらの乗り物は主に、走行中に周囲を想像して動作します。
しかし、今日のテクノロジーの問題点は、扱いにくく、時間がかかりすぎることです。
ただし、Instant NeRF を使用すると、自動運転車が現実世界のオブジェクトのサイズと形状を概算/理解するために必要なのは、静止写真をキャプチャして 3D に変換し、その情報を使用することだけです。
メタバースまたはメタバースにはまだ別の用途がある可能性があります ビデオゲーム 生産産業。
Instant NeRF を使用すると、アバターや仮想世界全体をすばやく構築できるため、これは真実です。
ほとんどない 3Dキャラクター ニューラル ネットワークを実行するだけで、キャラクターが生成されるため、モデリングが必要になります。
さらに、NVIDIA は、このテクノロジを追加の機械学習関連アプリケーションに適用することを引き続き検討しています。
たとえば、以前よりも正確に言語を翻訳し、汎用性を高めるために使用される可能性があります。 深い学習 アルゴリズムは現在、より幅広いタスクに使用されています。
まとめ
グラフィックの問題の多くは、タスク固有のデータ構造に依存して、問題の滑らかさやスパース性を利用しています。
NVIDIA のマルチ解像度ハッシュ エンコーディングによって提供される実用的な学習ベースの代替手段は、ワークロードに関係なく、関連する詳細に自動的に集中します。
物事が内部でどのように動作するかについて詳しく知りたい場合は、公式をチェックしてください GitHubの リポジトリ。
コメントを残す