QUICK REVIEW

[論文レビュー] MVSNet: Depth Inference for Unstructured Multi-view Stereo

Yao Yao, Zixin Luo|arXiv (Cornell University)|Apr 7, 2018

Advanced Vision and Imaging参考文献 29被引用数 61

ひとこと要約

MVSNet は、非構造化のマルチビュー画像からの per-view 深度マップ推定のためのエンドツーエンド深層学習アプローチを提示します。コストボリューム構築には微分可能なホモグラフィ、3D CNN 正則化、深度の refinement を使用します。

ABSTRACT

We present an end-to-end deep learning architecture for depth map inference from multi-view images. In the network, we first extract deep visual image features, and then build the 3D cost volume upon the reference camera frustum via the differentiable homography warping. Next, we apply 3D convolutions to regularize and regress the initial depth map, which is then refined with the reference image to generate the final output. Our framework flexibly adapts arbitrary N-view inputs using a variance-based cost metric that maps multiple features into one cost feature. The proposed MVSNet is demonstrated on the large-scale indoor DTU dataset. With simple post-processing, our method not only significantly outperforms previous state-of-the-arts, but also is several times faster in runtime. We also evaluate MVSNet on the complex outdoor Tanks and Temples dataset, where our method ranks first before April 18, 2018 without any fine-tuning, showing the strong generalization ability of MVSNet.

研究の動機と目的

非構造化ビューを用いたMVSにおける深度マップ推定の改善を動機づける。
微分可能なホモグラフィを用いて2D特徴量から3Dコストボリュームを構築するエンドツーエンドのネットワークを提案する。
分散ベースのコスト指標を用いて任意のNビュー入力の柔軟な処理を可能にする。
各ビューの深度マップを回帰・ refine し、効率的な大規模再構成を実現する。

提案手法

共有された8層CNNを用いてマルチスケールの2D画像特徴を抽出する。
微分可能なホモグラフィワーピングを用いて参照カメラフラスム上に3Dコストボリュームを構築する。
分散ベースのコスト指標を用いてNビューのボリュームを集約し、最終的なコストボリュームを形成する。
多層スケールの3D CNNでコストボリュームを正則化し、深度方向に沿ってsoftmaxを適用して確率ボリュームを生成する。
深度仮説に対する微分可能なsoft argminとして初期深度を計算する。
参照画像を用いたガイダンスネットワークで初期深度を refined し、最終深度マップを生成する。
有効な真実値ピクセル上で、初期深度と refined 深度マップの誤差を組み合わせた損失で訓練する。

実験結果

リサーチクエスチョン

RQ1微分可能な射影機構を用いて、非構造化のマルチビュー入力を各ビューの深度マップ推定フレームワークに効果的に統合できるか？
RQ2分散ベースのマルチビューコスト指標は、平均ベースの手法と比較して深度推定の精度と頑健性を向上させるか？
RQ3参照画像を活用した各ビューの深度マップの精製は、境界精度と全体的な深度品質にどのように影響するか？
RQ4室内データDTUから屋外データTanks and Templesへの微調整なしでの一般化能力はどの程度か？

主な発見

手法	平均距離 (mm) 精度	平均距離 (mm) 完全性	平均距離 (mm) 総合	1mm 未満の割合) 精度	1mm 未満の割合) 完全性	1mm 未満の割合) f-score	2mm 未満の割合) 精度	2mm 未満の割合) 完全性	2mm 未満の割合) f-score
Gipuma [ 8 ]	0.283	0.873	0.578	94.65	59.93	70.64	96.42	63.81	74.16
SurfaceNet [ 14 ]	0.450	1.04	0.745	83.8	63.38	69.95	87.15	67.99	74.4
MVSNet (Ours)	0.396	0.527	0.462	86.46	71.13	75.69	91.06	75.31	80.25

DTUデータセットにおいて、完成度と総合品質で従来法を上回り、テクスチャがない領域や反射領域での頑健性も高い。
fine-tuningなしでTanks and Templesで最先端の結果を達成し、強い一般化性能を示す。
分散ベースのコスト指標は、平均ベースの手法より収束を早め、検証性能を向上させる。
深度マップの精練は境界精度と全体的な深度品質を向上させる。
実行時間は従来法より著しく速く、スキャンあたり約230秒、ビューあたり約4.7秒。
入力ビュー数Nを可変にサポートし、ビュー数が増えるほど性能が改善される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。