QUICK REVIEW

[論文レビュー] NeRF--: Neural Radiance Fields Without Known Camera Parameters

Zirui Wang, Shangzhe Wu|arXiv (Cornell University)|Feb 14, 2021

Advanced Vision and Imaging参考文献 54被引用数 256

ひとこと要約

NeRF-- は前方向きのRGB画像からカメラパラメータとNeRFモデルを同時に最適化し、COLMAP風のポーズ監視なしで新規視点合成を可能にし、BLEFF を導入してベンチマークを提供します。

ABSTRACT

Considering the problem of novel view synthesis (NVS) from only a set of 2D images, we simplify the training process of Neural Radiance Field (NeRF) on forward-facing scenes by removing the requirement of known or pre-computed camera parameters, including both intrinsics and 6DoF poses. To this end, we propose NeRF$--$, with three contributions: First, we show that the camera parameters can be jointly optimised as learnable parameters with NeRF training, through a photometric reconstruction; Second, to benchmark the camera parameter estimation and the quality of novel view renderings, we introduce a new dataset of path-traced synthetic scenes, termed as Blender Forward-Facing Dataset (BLEFF); Third, we conduct extensive analyses to understand the training behaviours under various camera motions, and show that in most scenarios, the joint optimisation pipeline can recover accurate camera parameters and achieve comparable novel view synthesis quality as those trained with COLMAP pre-computed camera parameters. Our code and data are available at https://nerfmm.active.vision.

研究の動機と目的

カメラ内パラメータと姿勢が利用できない場合の新規視点合成を動機づける。
COLMAP の前処理ステップを排除し、カメラパラメータとNeRFを共同最適化する。
エンドツーエンドのフォトメトリック再構成が正確なカメラパラメータを回復できることを示す。
カメラ推定とNVS性能をベンチマークするための合成BLEFFデータセットを提供する。
さまざまなカメラ運動下での頑健性を分析し、COLMAP-NeRFパイプラインと比較する。

提案手法

内部パラメータと6DoF姿勢を学習可能なパラメータとして扱い、フォトメトリック再構成損失を介してNeRFと共同で最適化する。
内部パラメータは焦点距離 f で表現し、主点は画像中心付近と仮定する。姿勢は回転にロドリゲス回転（軸-角）を用いたSE(3)パラメータで表現する。
現在のカメラパラメータを用いて光線を追跡し、光線に沿ってNeRF MLP FTheta を問い合わせ、ボリュームレンダリングで放射輝度を積分してピクセルをレンダリングする。
NeRFパラメータ Θ、カメラ姿勢 Π、焦点距離 f を同時に更新するエンドツーエンドの微分可能最適化を使用する。
各画像からランダムにサンプリングしたピクセルで再構成損失を地真のRGB画像に対して計算して訓練する。

実験結果

リサーチクエスチョン

RQ1カメラ内部パラメータと6DoF姿勢は、ポーズ監視なしの前方向き画像からNeRFを学習する際に信頼性を持って回復できるか？
RQ2現実的なカメラ運動下で、結合最適化はNVS品質とカメラパラメータの精度の点で2段階のCOLMAP-NeRFとどのように比較されるか？
RQ3前方向きシーンにおける回転および平行移動の摂動に対する結合アプローチの頑健性は？
RQ4前処理済みのカメラパラメータなしで、合成BLEFFベンチマークや現実世界風データ（RealEstate10K, LLFF）へ一般化できるか？

主な発見

シーン	SSIM_colmap	SSIM_ours	LPIPS_colmap	LPIPS_ours	PSNR_colmap	PSNR_ours	Delta_rot(deg)	Delta_tran	Delta_focal(pixel)
Fern	0.64	0.61	0.47	0.50	22.22	21.67	1.78	0.029	153.5
Flower	0.71	0.71	0.36	0.37	25.25	25.34	4.84	0.016	13.2
Fortress	0.73	0.63	0.38	0.49	27.60	26.20	1.36	0.025	144.1
Horns	0.68	0.61	0.44	0.50	24.25	22.53	5.55	0.044	156.2
Leaves	0.52	0.53	0.47	0.47	18.81	18.88	3.90	0.016	59.0
Orchids	0.51	0.39	0.46	0.55	19.09	16.73	4.96	0.051	199.3
Room	0.87	0.84	0.40	0.44	27.77	25.84	2.77	0.030	331.8
Trex	0.74	0.72	0.41	0.44	23.52	22.48	4.67	0.036	89.3
Mean	0.68	0.63	0.42	0.47	23.52	22.48	3.73	0.031	143.3

NeRF-- は COLMAP カメラパラメータを使用するベースライン NeRF と同等の新規視点合成品質を達成する。
共同最適化されたカメラパラメータは多くの条件下でCOLMAP推定に収束し、NVS性能は類似する。
BLEFF 実験では回転誤差が平均約5度、焦点距離誤差が平均約25ピクセルで、NVS品質はCOLMAPベースのNeRFに近い。
前方向きシーンでは結合アプローチがCOLMAPより平行移動摂動に対して頑健である場合がある一方、大きな回転には頑健でない場合がある。
トラック→オブジェクトや退化的な運動に直面した場合、COLMAPは失敗することがある一方、NeRF-- は多くのケースで意味のあるレンダリングを提供し、補完的な強みを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。