QUICK REVIEW

[論文レビュー] OctNetFusion: Learning Depth Fusion from Data

Gernot Riegler, Ali Osman Ulusoy|arXiv (Cornell University)|Apr 4, 2017

Advanced Vision and Imaging参考文献 50被引用数 27

ひとこと要約

OctNetFusionは、ノイズの多い入力を用いて、切断符号付き距離場（TSDF）を予測することで、複数の深度マップを融合し、正確で完全な3D再構築を学習する深層3D畳み込みニューラルネットワークを提案する。従来のボリュメトリックな統合とは異なり、大規模な3Dモデルリポジトリと適応的オクトリーベースのアーキテクチャを活用して、ノイズを低減し、外れ値を抑制し、隠れ領域を再構築する。これは、vanilla TSDFおよびTV-L1統合手法よりも精度と詳細の保持において優れている。

ABSTRACT

In this paper, we present a learning based approach to depth fusion, i.e., dense 3D reconstruction from multiple depth images. The most common approach to depth fusion is based on averaging truncated signed distance functions, which was originally proposed by Curless and Levoy in 1996. While this method is simple and provides great results, it is not able to reconstruct (partially) occluded surfaces and requires a large number frames to filter out sensor noise and outliers. Motivated by the availability of large 3D model repositories and recent advances in deep learning, we present a novel 3D CNN architecture that learns to predict an implicit surface representation from the input depth maps. Our learning based method significantly outperforms the traditional volumetric fusion approach in terms of noise reduction and outlier suppression. By learning the structure of real world 3D objects and scenes, our approach is further able to reconstruct occluded regions and to fill in gaps in the reconstruction. We demonstrate that our learning based approach outperforms both vanilla TSDF fusion as well as TV-L1 fusion on the task of volumetric fusion. Further, we demonstrate state-of-the-art 3D shape completion results.

研究の動機と目的

従来の深度統合手法の限界、例えばノイズ処理が不十分であることや、隠れ領域の再構築ができないことに対処すること。
大規模な3Dモデルリポジトリを活用して、複数の深度画像からのエンドツーエンドの3D再構築学習を可能にすること。
3D再構築とその最適な空間分割（オクトリーデータ構造）を同時に学習する3D CNNアーキテクチャの開発により、効率性と正確性を向上させること。
マルチビュー深度統合および単一ビュー3D形状補完の両面で最先端の性能を達成すること。
従来のOctNetモデルの固定オクトリーデザインの制限を克服し、出力ジオメトリに応じた動的かつ学習駆動のオクトリービルディングを可能にすること。

提案手法

本手法は、複数の深度画像を入力とし、学習された3D空間分割における切断符号付き距離場（TSDF）を予測する、新しい3D CNNアーキテクチャ、OctNetFusionを採用する。
入力に依存しない固定オクトリーブではなく、出力ジオメトリに最適化するためにトレーニング中に学習される適応的オクトリーレプリゼンテーションを用いる。
実世界の物体の構造的事前知識を学習できるように、大規模な3Dモデルリポジトリ上でトレーニングすることで、新しいカテゴリへの一般化を可能にする。
標準的なアルゴリズム（例：Marching Cubes）を用いてメッシュ化可能な実数値TSDFを予測する。
オクトリーデータ構造によるスパarsityの活用により、高解像度再構築（最大256³）を実現し、メモリコストを削減する。
予測されたTSDFと真値TSDFの差を最小化する再構築損失を用いて、エンドツーエンドでトレーニングする。

実験結果

リサーチクエスチョン

RQ1深層学習モデルは、ノイズと外れ値を抑制しながら、複数のノイズの多い深度マップを統合し、高品質な3D再構築を学習できるか？
RQ23D CNNは、複数の深度ビューから、隠れたり欠損したジオメトリを再構築でき、従来の統合手法を上回る性能を発揮できるか？
RQ3適応的オクトリーベースのネットワークアーキテクチャは、固定オクトリーベースの手法を上回る性能を発揮するか？
RQ4提案手法は、トレーニング時に見られなかった新しいオブジェクトカテゴリにも一般化できるか？
RQ5学習ベースの統合手法は、vanilla TSDFおよびTV-L1正則化といった古典的手法と比較して、性能が優れているか？

主な発見

ModelNetデータセットでは、256³解像度、20ビュー条件下で平均角偏差（MAD）が4.806 mmにまで低下し、vanilla TSDF（31.707 mm）およびTV-L1（5.372 mm）を上回った。
Kinect Object Scansデータセットでは、256³解像度、20ビュー条件下でMADが4.110 mmにまで低下し、両基準手法を顕著に上回った。
vanilla TSDFよりもノイズと外れ値の低減が顕著であり、TV-L1正則化の収縮バイアスを回避した。
単一ビュー3D形状補完において、TabletopデータセットでIoUが0.650を達成し、Voxlets（0.585）およびZhengら（0.528）を上回った。
K80 GPU上での推論時間は256³解像度で10.1秒であり、TV-L1（24.66秒）よりも顕著に高速で、vanilla TSDFと同等の性能を示した。
定性的な結果では、OctNetFusionが細かなディテールを再構築し、大きな穴を埋めることができたが、従来手法はそのような特徴をぼやけさせたり、欠落させたりしていた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。