QUICK REVIEW

[論文レビュー] Inferring 3D Object Pose in RGB-D Images

Saurabh Gupta, Pablo Arbeláez|arXiv (Cornell University)|Feb 16, 2015

Advanced Neural Network Applications参考文献 18被引用数 30

ひとこと要約

本論文では、ピクセル法線を用いて合成データ上で畳み込みニューラルネットワーク（CNN）を訓練することで、RGB-D画像における3Dオブジェクトポーズ推定のための新規手法を提案する。この手法は、実データで訓練されたモデルを上回る性能を発揮する。本手法は、インスタンスセグメンテーション、CNNベースのポーズ推定、およびICPベースのモデルアライメントを組み合わせることで、最先端手法と比較して3D検出性能が48%向上し、かつ10倍以上高速である。

ABSTRACT

The goal of this work is to replace objects in an RGB-D scene with corresponding 3D models from a library. We approach this problem by first detecting and segmenting object instances in the scene using the approach from Gupta et al. [13]. We use a convolutional neural network (CNN) to predict the pose of the object. This CNN is trained using pixel normals in images containing rendered synthetic objects. When tested on real data, it outperforms alternative algorithms trained on real data. We then use this coarse pose estimate along with the inferred pixel support to align a small number of prototypical models to the data, and place the model that fits the best into the scene. We observe a 48% relative improvement in performance at the task of 3D detection over the current state-of-the-art [33], while being an order of magnitude faster at the same time.

研究の動機と目的

ロボットがごちゃついた屋内シーンで相互作用できるように、検出されたオブジェクトを正確な3D CADモデルに置き換えること。
バウンディングボックスやセグメンテーションマスクといった従来の出力形式では、グリップ計画やモーション最適化などのロボットタスクに不十分であるため、その限界を克服すること。
合成データで訓練されたCNNから得られる粗いポーズ推定値を用いて3Dモデルアライメントを活用することで、3D検出性能を向上させること。
合成データで訓練した際、法線画像を入力とすることで、実データで訓練した場合よりも一般化性能が向上することを示すこと。

提案手法

Guptaら[13]の事前学習済みのオブジェクト検出およびインスタンスセグメンテーションシステムを用い、オブジェクト候補とピクセルレベルのマスクを生成する。
ピクセル法線を入力とし、深度マップではなく、合成RGB-D画像を用いてCNNを訓練し、3Dオブジェクトポーズを予測する。
CNNの上位2つのポーズ仮説を、反復的最近接点（ICP）最適化を用いたモデルアライメント段階の初期化に用いる。
セグメンテーションされたオブジェクトに最も適合する3D CADモデル、そのスケール、空間的配置を、小さな3D CADモデルライブラリ内で探索することでモデルフィッティングを実行する。
粗いポーズ予測（CNNによる）とその後のICPベースのアライメントという2段階の精錬を用い、精度を向上させる。
セグメンテーションマスクの2Dアノテーションと深度情報を利用して、3Dアノテーションを必要とせずに豊富な3Dシーン表現を生成する。

実験結果

リサーチクエスチョン

RQ1法線画像を入力として合成RGB-Dデータで訓練したCNNは、実データで訓練した場合と比較して、現実世界の3Dポーズ推定により一般化しやすいか？
RQ2特にインスタンスレベルではなくカテゴリレベルでのポーズ推定を初期化として用いた場合、ICPベースのモデルアライメントはどの程度効果的か？
RQ3不完全またはノイズの多いインスタンスセグメンテーションが行われた場合、3Dモデル配置の性能はどの程度低下するか？
RQ42Dアノテーションと深度情報から3Dモデルを推定するシステムは、既存手法と比較して優れた3D検出性能を達成できるか？
RQ5初期化の品質、ポーズ仮説の数、モデルライブラリの多様性が、最終的な3Dモデルアライメント精度に与える影響はどの程度か？

主な発見

法線画像を入力として合成データで訓練したCNNは、実データで訓練したモデルを上回り、最先端手法と比較して3D検出性能が48%向上した。
検出設定において、t_agree = ∞のとき平均精度（AP）が28.2%に達し、t_agree = 7のときには14.4%に低下するが、セグメンテーションノイズに対して高いロバスト性を示した。
真値のセグメンテーションが与えられた場合でも、モデル配置タスクのAP^mは48.5%にとどまり、実データへの3Dモデルフィッティングの難易度を示している。
本手法は、1画像あたり1カテゴリあたり25分を要する現在の最先端手法[33]と比較して、少なくとも10倍以上高速である。
1つのポーズ仮説ではなく2つの仮説を用いることで性能が6ポイント向上し、適切な初期化はICP収束を著しく向上させる。
手動で選択された、多様な形状変動を捉えたモデルライブラリは、ランダム選択よりも優れた結果をもたらし、モデル数が増えるほど性能が向上するが、その効果は次第に減少する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。