[論文レビュー] Deep-6DPose: Recovering 6D Object Pose from a Single RGB Image
Deep-6DPose は、端から端までのフレームワークで単一のRGB画像からオブジェクトインスタンスの6Dポーズを同時に検出・セグメント・回帰します。回転の表現として Lie アルジェブラ so(3) を用いることで、後処理なしに直接ポーズ回帰を可能にします。
Detecting objects and their 6D poses from only RGB images is an important task for many robotic applications. While deep learning methods have made significant progress in visual object detection and segmentation, the object pose estimation task is still challenging. In this paper, we introduce an end-toend deep learning framework, named Deep-6DPose, that jointly detects, segments, and most importantly recovers 6D poses of object instances from a single RGB image. In particular, we extend the recent state-of-the-art instance segmentation network Mask R-CNN with a novel pose estimation branch to directly regress 6D object poses without any post-refinements. Our key technical contribution is the decoupling of pose parameters into translation and rotation so that the rotation can be regressed via a Lie algebra representation. The resulting pose regression loss is differential and unconstrained, making the training tractable. The experiments on two standard pose benchmarking datasets show that our proposed approach compares favorably with the state-of-the-art RGB-based multi-stage pose estimation methods. Importantly, due to the end-to-end architecture, Deep-6DPose is considerably faster than competing multi-stage methods, offers an inference speed of 10 fps that is well suited for robotic applications.
研究の動機と目的
- RGB画像からの後処理なしで直接6Dオブジェクトポ Poseのエンドツーエンド推定を動機づける。
- Mask R-CNN を活用・拡張し、RoI 内の 6D ポーズ回帰ヘッドを用いて 6D ポーズを復元する。
- 回転表現を so(3) の Lie アルジェブラを導入し、回転の拘束なし回帰を可能にする。
- 推定された z 成分と投影幾何に基づく画像の手掛かりを用いて、平行移動を t_x と t_y を intrinsics から得て復元する。
- 標準のRGBベースのポーズベンチマークにおいて最先端または競争力のある性能を示しつつ、推論を高速化する。
提案手法
- Mask R-CNN/Faster R-CNN のバックボーンと Region Proposal Network を用いて RoI を生成する。
- RoI ごとに 4 次元ベクトルを回帰する新規の 6D ポーズヘッドを追加する:最初の3成分は so(3) 回転(Lie アルジェブラ)、最後の成分は z 移動。
- 回転を Rodrigues 変換を用いて so(3) から回転行列へ表現する。
- 推定された z 成分とバウンディングボックスを用いた射影幾何により完全な平移(t_x および t_y)を復元する(t_z から t_x/t_y を intrinsics で計算)。
- 分類・ボックス回帰・マスクセグメンテーション・ポーズ回帰の損失を組み合わせたマルチタスク損失で訓練する。
- ポーズ分岐はクラス非依存だが、クラス別出力へ拡張可能。
実験結果
リサーチクエスチョン
- RQ1エンドツーエンドの RGB のみのネットワークで、後処理なしに同時に検出・セグメント・6Dオブジェクトポーズを推定できるか。
- RQ2回転表現を Lie アルジェブラ so(3) で行うことは、CNN における安定な拘束なし回帰を促進するか。
- RQ3z-平移分のみ回帰し、x/y は投影から回復するという影響はどうか。
- RQ4エンドツーエンドの Deep-6DPose は、標準データセット上の精度と速度の点で最先端のRGBベース手法と比較してどうか。
主な発見
- Deep-6DPose は LINEMOD および Tejani らのデータセットで 2D 検出・セグメンテーションの精度が競争力を持ち、検出とセグメンテーションの IoU 0.5 でほぼ完璧なスコアを示す。
- 5cm/5° のポーズ精度の下で、Deep-6DPose は Brachmann らを上回り BB8 と競合する一方、SSD-6D は合成データ訓練で強くなる場合があるが、Deep-6DPose は refinement なしのエンドツーポーズ出力を提供する。
- LINEMOD で Deep-6DPose は 2D ポーズ指標が SSD-6D に近く、Brachmann らよりも良い結果を示し、ADD 指標は BB8 より約 2.5% 上回る。
- Tejani らデータセットの複数インスタンスにおいて、Deep-6DPose は IoU 0.5 でほぼ完璧な 2D 検出/セグメンテーションを達成し、平均的には 5cm/5° および ADD スコアが妥当で、ほぼ対称物で若干の劣化がある。
- 推論速度は Titan X 上で画像あたり約 0.1 秒であり、多段階手法より数倍速く、BB8 より速く、SSD-6D にも競争力がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。