Skip to main content
QUICK REVIEW

[論文レビュー] Complete 3D Scene Parsing from Single RGBD Image.

Chuhang Zou, Zhizhong Li|arXiv (Cornell University)|Oct 25, 2017
Advanced Image and Video Retrieval Techniques被引用数 7
ひとこと要約

本論文では、CNNを用いた形状検索とサポート推論を用いて、領域提案と一致させる詳細なCADモデルを検索・整列させることで、1枚のRGBD画像から完全な3Dシーン解析を生成する手法を提案する。本手法は、すべての物体に対して半自動的にラベル付けされた3D形状を備えた新規にアノテートされたNYUv2データセットにおいて、最先端の性能を達成した。

ABSTRACT

Inferring the location, shape, and class of each object in a single image is an important task in computer vision. In this paper, we aim to predict the full 3D parse of both visible and occluded portions of the scene from one RGBD image. We parse the scene by modeling objects as detailed CAD models with class labels and layouts as 3D planes. Such an interpretation is useful for visual reasoning and robotics, but difficult to produce due to the high degree of occlusion and the diversity of object classes. We follow the recent approaches that retrieve shape candidates for each RGBD region proposal, transfer and align associated 3D models to compose a scene that is consistent with observations. We propose to use support inference to aid interpretation and propose a retrieval scheme that uses convolutional neural networks (CNNs) to classify regions and retrieve objects with similar shapes. We demonstrate the performance of our method compared with the state-of-the-art on our new NYUd v2 dataset annotations which are semi-automatically labelled with detailed 3D shapes for all the objects.

研究の動機と目的

  • 1枚のRGBD画像から、可視領域および隠れ領域を含む完全な3Dシーン解析を可能にすること。
  • 物体をクラスラベルとレイアウトを伴う3D平面としての詳細なCADモデルとしてモデル化し、より豊かなシーン理解を実現すること。
  • 3Dシーン解釈における高いオクルージョンと多様な物体クラスに起因する課題に対処すること。
  • サポート推論と形状検索を活用することで、シーンの整合性と正確性を向上させること。

提案手法

  • 本手法は、RGBD画像からの領域提案を用いて、潜在的な物体位置を同定する。
  • 畳み込みニューラルネットワーク(CNN)を適用し、領域を分類し、類似した幾何形状を持つ形状候補を検索する。
  • サポート推論を用いて、学習データからの関連形状を活用することで、解釈プロセスをガイドする。
  • 検索された3D CADモデルを、観測されたシーンの幾何構造と制約に適合させるために、整列および変換する。
  • 物体のクラス、形状、空間的レイアウトを同時に最適化することで、RGBD観測と整合性を保証する。
  • 評価のため、詳細な3D形状を備えた半自動的にアノテートされた新しいNYUv2データセットを導入する。

実験結果

リサーチクエスチョン

  • RQ11枚のRGBD画像を用いて、可視領域および隠れ領域の両方の物体パーツの3Dシーン解析をどのように改善できるか?
  • RQ2CNNを用いた形状検索が、3Dシーンの整合性と正確性をどのように向上させるか?
  • RQ3サポート推論は、複雑で高度にオクルージョンが生じたシーンにおいて、3D CADモデルの選択と整列を効果的にガイドできるか?
  • RQ4単純な幾何的プリミティブと比較して、詳細なCADモデルの統合は、シーン解析にどのように寄与するか?
  • RQ5豊富な3Dアノテーションを備えたデータセットにおいて、本手法は最先端のアプローチをどの程度上回るか?

主な発見

  • 提案手法は、詳細な3D形状を備えた新規にアノテートされたNYUv2データセットにおいて、最先端の性能を達成した。
  • CNNを用いた形状検索は、物体モデルの選択と整列の正確性を顕著に向上させた。
  • サポート推論は、特に高度にオクルージョンが生じた領域において、シーン解析のロバスト性を向上させた。
  • 詳細なCADモデルの使用は、より正確で意味論的に整合性のある3Dシーン解釈を実現した。
  • 半自動的にアノテートされたNYUv2データセットは、今後の3Dシーン解析研究のための貴重なベンチマークを提供した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。