QUICK REVIEW

[論文レビュー] Learning a Multi-View Stereo Machine

Abhishek Kar, Christian Häne|arXiv (Cornell University)|Aug 17, 2017

Advanced Vision and Imaging参考文献 51被引用数 216

ひとこと要約

この論文は Learnt Stereo Machines (LSMs) を提案する：2D特徴を3D空間へ非投影して多視点立体視を実現し、再帰的グリッドと融合してボクセル占有または各視点の深度マップを生成するエンドツーエンド微分可能なネットワーク。少数視点からの幾何学的知識を活用した再構成と、未知カテゴリへの強い一般化を実証する。

ABSTRACT

We present a learnt system for multi-view stereopsis. In contrast to recent learning based methods for 3D reconstruction, we leverage the underlying 3D geometry of the problem through feature projection and unprojection along viewing rays. By formulating these operations in a differentiable manner, we are able to learn the system end-to-end for the task of metric 3D reconstruction. End-to-end learning allows us to jointly reason about shape priors while conforming geometric constraints, enabling reconstruction from much fewer images (even a single image) than required by classical approaches as well as completion of unseen surfaces. We thoroughly evaluate our approach on the ShapeNet dataset and demonstrate the benefits over classical approaches as well as recent learning based methods.

研究の動機と目的

エンドツーエンドの学習可能なフレームワーク内で3D幾何を活用した多視点ステレオ（MVS）を実現する。
幾何学的 priors と学習済み手がかりを組み合わせて、少数の視点、あるいは単一画像から3D幾何を再構成する。
2つの出力形式を有効化する：ボクセル占有グリッド（Voxel LSM）と各視点の深度マップ（Depth LSM）。
未知の物体カテゴリへの一般化を評価し、古典的および学習ベースのベースラインと比較する。

提案手法

入力画像を共有2D特徴エンコーダで処理し密な特徴マップを得る。
ビューレイに沿って2D特徴を differentiable bilinear sampling を用いて3D特徴グリッドへ非投影する。
3D特徴グリッドを3D conv-GRUと融合し、局所的なマッチングコストの単一グリッドを生成する。
融合した3Dグリッドを3D UNetで推理し、占有または深度推定のための精錬された3Dグリッドを作る。
differentiable projection 演算を通じて3Dグリッドを2Dビューへ射影し、各視点の出力を得る。
Voxel occupancy（バイナリ交差エントロピー）またはDepth（L1）損失を用いて、それぞれ V-LSM と D-LSM を訓練する。

実験結果

リサーチクエスチョン

RQ1エンドツーエンドの学習は幾何制約を活用して、少数視点から3D幾何を再構成する際に古典的手法より効果的か？
RQ2カメラ姿勢情報と differentiable 3D 投影/非投影を取り入れると、姿勢非依存または純粋な画像ベースのベースラインと比べて再構成性能が向上するか？
RQ3LSM は未知の物体カテゴリへどれだけ一般化できるか。幾何学的手がかりへの依存は意味的 priors より強いか？
RQ4Voxel-LSM と Depth-LSM は視点間での精度と適用性をどのように比較できるか？
RQ5入力視点数の増加に対する LSM の性能はどうスケールし、平面スイーピングや視覚的ハルのベースラインとどう比較されるか？

主な発見

# 視点数	3D-R2N2	Visual Hull	3D-R2N2 w/pose	V-LSM	V-LSM w/bg
1	55.6	18.0	55.1	61.5	60.5
2	59.6	36.9	59.4	72.1	69.8
3	61.3	47.0	61.2	76.2	73.7
4	62.0	52.4	62.1	78.2	75.6

視点数が増えるとVoxel IoUが改善し、1視点から4視点でそれぞれ 61.5、72.1、76.2、78.2 を達成。ベースラインと比較して顕著。
Visual Hull と R2N2 のベースラインは追加視点での改善が小さく、LSM が幾何学的多視点手がかりを活用できることを示す。
Depth-LSM は視点ごとの深度マップを生成し、整合的な非投影点群を可能にし、テクスチャが乏しい領域では平面スイーピングより優れることがある。
一般化テストはカテゴリに依存しない改善を示し、幾何学的手掛かりに基づく推定が意味的 priors を上回ることを示唆する。
D-LSM の深度予測はメトリクス的に意味ある幾何と困難なケース（例：椅子）で薄い構造を示し、3D体積出力と良く整合する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。