QUICK REVIEW

[論文レビュー] MVSNeRF: Fast Generalizable Radiance Field Reconstruction from Multi-View Stereo

Anpei Chen, Zexiang Xu|arXiv (Cornell University)|Mar 29, 2021

Advanced Vision and Imaging参考文献 51被引用数 31

ひとこと要約

MVSNeRFは、3つの近傍入力ビューだけからの視点合成を可能にする一般化可能な輻射場再構築ネットワークを学習します。それは平面走査コストボリュームを構築し、ニューラルエンコードボリュームを形成し、微分可能な体積レンダリングでレンダリングすることによって実現します。シーンごとに密集したビューでファインチューニングすると、NeRFに匹敵する性能を、はるかに短い最適化時間で得られます。

ABSTRACT

We present MVSNeRF, a novel neural rendering approach that can efficiently reconstruct neural radiance fields for view synthesis. Unlike prior works on neural radiance fields that consider per-scene optimization on densely captured images, we propose a generic deep neural network that can reconstruct radiance fields from only three nearby input views via fast network inference. Our approach leverages plane-swept cost volumes (widely used in multi-view stereo) for geometry-aware scene reasoning, and combines this with physically based volume rendering for neural radiance field reconstruction. We train our network on real objects in the DTU dataset, and test it on three different datasets to evaluate its effectiveness and generalizability. Our approach can generalize across scenes (even indoor scenes, completely different from our training scenes of objects) and generate realistic view synthesis results using only three input images, significantly outperforming concurrent works on generalizable radiance field reconstruction. Moreover, if dense images are captured, our estimated radiance field representation can be easily fine-tuned; this leads to fast per-scene reconstruction with higher rendering quality and substantially less optimization time than NeRF.

研究の動機と目的

Practicality limitation of per-scene NeRF optimizationを3ビュー程度からの一般化可能な輻射場再構築を可能にすることで addressing.
Deep MVSとニューラルレンディングを融合して、視点合成をサポートするシーン汎用のエンコードボリュームを作成する。
跨データセット一般化（室内シーンを含む）を実証し、密な画像が利用可能な場合には per-scene のファインチューニングを高速化して NeRF に対抗する。

提案手法

近傍ビューからの2D特徴を複数の深度平面へワープして参照ビューで平面走査コストボリュームを構築する。
3D CNN（UNet）を用いてコストボリュームをボクセルごとの特徴を持つニューラルエンコディングボリュームに変換する。
各ボクセルの密度とビュー依存放射を、入力ビューからのボクセル特徴とカラーを取り込むMLPでデコードする。
予測された輻射場（sigma, r）を用いた微分可能な光線走査で新規ビューをレンダリングする。
直接的な深度監視なしの画像ベースレンダリング損失でエンドツーエンドに訓練し、マルチビュー整合性とジオメトリ推論を可能にする。
密な入力画像が利用可能な場合には、シーンごとにニューラルエンコディングボリュームとデコーダをファインチューニングして、最適化時間を大幅に削減しつつ写真実在性の高い結果を得る。

実験結果

リサーチクエスチョン

RQ1多様なシーンに対して、少数の非構造的ビューだけから輻射場を再構成できる一般化可能なネットワークは存在するか？
RQ2平面走査コストボリュームの導入は、2D特徴ベースの手法と比べてジオメトリを意識した輻射場再構成を改善するか？
RQ3学習したエンコディングボリュームは、入力ビューを削除した後もレンダリングのための高速なシーン別ファインチューニングを可能にし、NeRFに匹敵する時間を要するか？

主な発見

Method	Settings	Synthetic Data PSNR	Synthetic Data SSIM	Synthetic Data LPIPS	Real Data PSNR	Real Data SSIM	Real Data LPIPS
PixelNeRF [54]	No per-scene optimization	7.39	0.658	0.411	19.31/11.24	0.789/0.486	0.382/0.671
IBRNet [46]	-	22.44	0.874	0.195	26.04/21.79	0.917/0.786	0.190/0.279
Ours	-	23.62	0.897	0.176	26.63 / 21.93	0.931 / 0.795	0.168 / 0.252
NeRF 10.2h [34]	Per-scene optimization	30.63	0.962	0.093	27.01/ 25.97	0.902/0.870	0.263/ 0.236
IBRNet ft-1.0h [46]	-	25.62	0.939	0.110	31.35 /24.88	0.956 /0.861	0.131 / 0.189
Ours ft-15min	-	27.07	0.931	0.168	28.50/25.45	0.933/ 0.877	0.179/0.192

本手法は3つの入力ビューから高品質な視点合成を実現し、データセット（DTU、Realistic Synthetic NeRF、Forward-Facing）を横断して一般化する。
PixelNeRFおよびIBRNetと比較して、3ビューでの全データセットにおいてPSNR、SSIM、LPIPSが一貫して優れている。
15分のファインチューニングで、密な画像のレンダリング品質は、シーンごとに学習したNeRFと同等かそれ以上に達するが、最適化時間は桁違いに短い。
輻射場から回収される深度は、レンダリング損失のみで訓練されたにもかかわらず、監督付きのMVS手法と競合性が高い。
ニューラルエンコディングボリュームとMLPデコーダが組み合わさると、入力ビューを失ってもレンダリング用の単独の輻射場表現として機能する。
モデルは、見知らぬ室内シーンを含む強いシーン間一般化を示し、快速なニューラルレンダリングの実用性を強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。