QUICK REVIEW

[論文レビュー] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

Ben Mildenhall, Pratul P. Srinivasan|arXiv (Cornell University)|Mar 19, 2020

Advanced Vision and Imaging参考文献 51被引用数 523

ひとこと要約

この論文は NeRF を導入し、場景を連続的な5Dニューラル放射場として MLP を用いて表現し、微分可能な体積レンダリングを用いて新規ビューを合成し、入力画像のスパースな集合から最先端の結果を達成する。

ABSTRACT

We present a method that achieves state-of-the-art results for synthesizing novel views of complex scenes by optimizing an underlying continuous volumetric scene function using a sparse set of input views. Our algorithm represents a scene using a fully-connected (non-convolutional) deep network, whose input is a single continuous 5D coordinate (spatial location $(x,y,z)$ and viewing direction $(θ, ϕ)$) and whose output is the volume density and view-dependent emitted radiance at that spatial location. We synthesize views by querying 5D coordinates along camera rays and use classic volume rendering techniques to project the output colors and densities into an image. Because volume rendering is naturally differentiable, the only input required to optimize our representation is a set of images with known camera poses. We describe how to effectively optimize neural radiance fields to render photorealistic novel views of scenes with complicated geometry and appearance, and demonstrate results that outperform prior work on neural rendering and view synthesis. View synthesis results are best viewed as videos, so we urge readers to view our supplementary video for convincing comparisons.

研究の動機と目的

連続的な5Dシーン表現(x,y,z, theta, phi) を動機づけ、複雑な幾何とビュー依存の外観をモデルできるようにする。
5D座標を体積密度と放射輝度へマッピングする全結合ニューラルネットワークを用いてシーンを表現する。
RGB画像からニューラル放射場を最適化するための体積レンダリングに基づく微分可能レンダリングパイプラインを開発する。
位置エンコーディングと階層的サンプリングを用いて効率と高周波細部に対応し、高解像度のビューをレンダリングする。

提案手法

c, σ を出力する 5D 関数 FΘ(x,y,z,θ,φ) → (c, σ) を用いてシーンを表現する。ここで c は RGB 色、σ は体積密度。
畳み込みを用いないMLPを用いて (x,y,z) を密度 σ と 256 次元の特徴に処理し、次に視線方向 (θ,φ) と組み合わせてビュー依存色を出力する。
レイをキャストして、レイに沿って3D点をサンプリングし、MLPを照会し、微分可能な体積レンダリングを台形公式に基づく積分を用いた方法で適用して画像をレンダリングする。
各レイに沿って階層的サンプリングを適用して、カラーを推定するため Ĉ(r) = Σi Ti(1−exp(−σηiδi))ci を用い、Ti を透過率として微分可能性を可能にする。
高周波成分を捉えるための入力を高次元空間へ写像する位置エンコーディング γ(p) を導入する。
コンテンツが視認されやすい場所にサンプルを割り当てる粗いネットワークと細いネットワークの2段階階層サンプリングを採用し、効率を向上させる。

実験結果

リサーチクエスチョン

RQ1スパースなRGBビューの集合から複雑なシーン幾何とビュー依存の外観をモデルできる連続的な5Dニューラル放射場は可能か？
RQ2ニューラル放射場の微分可能な体積レンダリングは、従来のニューラルレンダリング手法を上回るフォトリアリスティックな新規ビューを生み出すか？
RQ3位置エンコーディングと階層的サンプリングは NeRF における安定した最適化と高周波の細部の捉えを可能にするか？
RQ4NeRF は合成データや実世界データ上で、既存のニューラルまたはボクセルベースのビュー合成手法とどのように比較されるか？

主な発見

NeRF は合成および実データの両方の新規ビュー合成において従来の手法を上回る。
位置エンコーディングと階層的サンプリングの組み合わせは、高周波の幾何と外観再構成にとって重要である。
NeRF は最適化に RGB 画像のみを必要とし、明示的な 3D 幾何監督を回避する。
ベースラインと比較して、NeRF はより高忠実度のレンダリングとより良いマルチビュー一貫性、欠陥が少ない。
このアプローチは比較的スパースな入力ビューから高解像度のフォトリアリスティックなビューをレンダリングできる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。