Skip to main content
QUICK REVIEW

[論文レビュー] Hierarchical Surface Prediction for 3D Object Reconstruction

Christian Häne, Shubham Tulsiani|arXiv (Cornell University)|Apr 3, 2017
3D Shape Modeling and Analysis参考文献 31被引用数 29
ひとこと要約

本稿では、3次元ボクセルグリッドの高解像度予測を、表面隣接ボクセルに計算を集中させることで実現する階層的表面予測(HSP)フレームワークを提案する。複数レベルのオクトリーに基づく階層構造を用い、解像度を段階的に向上させながら境界ボクセルのみを予測することで、256³解像度を達成し、低解像度ベースラインよりも高い精度を実現。単一画像および部分入力の再構成タスクにおいて、優れた幾何的詳細と表面品質を示した。

ABSTRACT

Recently, Convolutional Neural Networks have shown promising results for 3D geometry prediction. They can make predictions from very little input data such as a single color image. A major limitation of such approaches is that they only predict a coarse resolution voxel grid, which does not capture the surface of the objects well. We propose a general framework, called hierarchical surface prediction (HSP), which facilitates prediction of high resolution voxel grids. The main insight is that it is sufficient to predict high resolution voxels around the predicted surfaces. The exterior and interior of the objects can be represented with coarse resolution voxels. Our approach is not dependent on a specific input type. We show results for geometry prediction from color images, depth images and shape completion from partial voxel grids. Our analysis shows that our high resolution predictions are more accurate than low resolution predictions.

研究の動機と目的

  • 畳み込みニューラルネットワーク(CNN)ベースの手法における高解像度3次元ボクセル予測の計算不能性に対処すること。
  • 全ボクセルではなく表面に隣接するボクセルに予測を集中させることで、幾何的精度を向上させること。
  • 単一のRGBまたは深度画像などの最小限の入力から、高解像度(最大256³)の3次元再構成を可能にすること。
  • 高解像度予測が低解像度出力のアップサンプリングよりも、より正確な結果をもたらすことを示すこと。
  • 階層的リファインメントを用いて、部分的で低解像度のボクセルグリッドから形状補完を実現すること。

提案手法

  • 本手法は、粗い解像度から細かい解像度へと段階的にボクセルブロックを予測する階層的オクトリー構造を用いる。初期解像度は16³で、最終的に256³に到達する。
  • 各レベルで、自由空間、境界、占有空間の3ラベル出力を予測し、境界ラベルは解像度を向上させる必要がある領域を示す。
  • 「境界」としてラベル付けされたボクセルのみを再帰的に分割・精錬し、計算コストを削減する。
  • 各レベルの特徴マップを次のレベルの入力として使用することで、マルチスケールの監督と階層的特徴学習を可能にする。
  • 最終的な高解像度ボクセルグリッドは、バリデーションセット最適化により選択されたしきい値を用いたマーチング・キューブス法により抽出される。
  • 3クラス分類のための交差エントロピー損失と、再構成指標のための微分可能な損失を用いて、エンドツーエンドで訓練される。

実験結果

リサーチクエスチョン

  • RQ1最小限の入力データで、深層学習を用いて効率的に高解像度3次元再構成を達成できるか?
  • RQ2表面に隣接するボクセルに予測を集中させることで、均一な高解像度予測と比較して、再構成精度が顕著に向上するか?
  • RQ3幾何的忠実度の観点から、低解像度予測の単純なアップサンプリングに比べ、階層的リファインメントが優れているか?
  • RQ4本手法は、トレーニング分布外の実世界の画像(例:インターネット上の画像)にも一般化できるか?
  • RQ5部分的で低解像度のボクセル入力から、完全な形状を高忠実度で再構成できるか?

主な発見

  • HSPは256³解像度の再構成を達成し、通常のベースラインが32³や64³に制限されるのに対し、顕著に高い解像度を実現した。
  • バリデーションセットにおいて、64³解像度で椅子のIoUが43.12%を達成し、LR Hardベースラインと同等の性能を示した。
  • 256³解像度において、HSPは全カテゴリ(航空機、椅子、車両)において、IoUと対称チェンバーディスタンスの両面で両ベースラインを上回った。
  • 定性的な結果から、HSPは低解像度ベースラインと比較して、表面品質と幾何的詳細性に優れており、特に細い構造物において顕著であった。
  • 本モデルは、インターネット上の実世界の画像(白い背景の単色画像など)に対しても一般化でき、車両を効果的に再構成した。
  • 本手法は、部分的で低解像度のボクセルグリッドからも、高忠実度で完全な物体を再構成する能力を有していた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。