Skip to main content
QUICK REVIEW

[論文レビュー] HybridPose: 6D Object Pose Estimation under Hybrid Representations

Chen Song, Jiaru Song|arXiv (Cornell University)|Jan 7, 2020
Robotics and Sensor-Based Localization参考文献 1被引用数 20
ひとこと要約

HybridPoseは、オクルージョン下でも頑健性を高めるために、キーポints、エッジベクトル、対称性対応を組み合わせたハイブリッド中間表現を用いた6次元オブジェクトポーズ推定手法を提案する。複数の幾何的信号を統合して一括でポーズを回帰するロバスト最適化モジュールを用いることで、30 fpsで動作する状態でOcclusion Linemodベンチマークにおいて47.5%の最先端の精度を達成し、DPODを含む先行手法を上回る性能を発揮する。

ABSTRACT

We introduce HybridPose, a novel 6D object pose estimation approach. HybridPose utilizes a hybrid intermediate representation to express different geometric information in the input image, including keypoints, edge vectors, and symmetry correspondences. Compared to a unitary representation, our hybrid representation allows pose regression to exploit more and diverse features when one type of predicted representation is inaccurate (e.g., because of occlusion). Different intermediate representations used by HybridPose can all be predicted by the same simple neural network, and outliers in predicted intermediate representations are filtered by a robust regression module. Compared to state-of-the-art pose estimation approaches, HybridPose is comparable in running time and accuracy. For example, on Occlusion Linemod dataset, our method achieves a prediction speed of 30 fps with a mean ADD(-S) accuracy of 47.5%, representing a state-of-the-art performance. The implementation of HybridPose is available at https://github.com/chensong1995/HybridPose.

研究の動機と目的

  • オクルージョン下での単一表現ポーズ推定の限界を解消すること。
  • キーポイント、エッジベクトル、対称性対応といった多様な幾何的ヒントを統合した統一フレームワークによりポーズ精度を向上させること。
  • 予測された中間表現における外れ値をフィルタリングするトレーニング可能なロバストノルムを用いて、頑健なポーズ回帰を実現すること。
  • オクルージョンや困難なオブジェクトインスタンスにおいて、最先端の手法を上回る性能を維持しながらも、リアルタイムの推論速度(30 fps)を確保すること。

提案手法

  • HybridPoseは、1つのディープニューラルネットワークを用いて、2次元キーポイント、隣接キーポイント間のエッジベクトル、オブジェクトピクセルごとの密度対称性対応を予測する。
  • エッジベクトルは、予測されたすべてのキーポイントペア間の変位ベクトルとして定義され、空間的関係性と勾配情報がエンコードされる。
  • 対称性対応は、ピクセル単位のマッピングとして予測され、特に反射面に沿った回転推定の安定性を高める。
  • 2段階のポーズ回帰モジュールは、最初にすべての中间信号を用いた線形PnPに類似した定式化でポーズを初期化し、次にGeman-McClureのロバストノルムを用いて外れ値を抑制することで改善を行う。
  • トレーニングパイプラインは、中間表現のためのポーズ予測ヘッドと、ポーズ精錬のための別個のバリデーションセットを用い、効果的な自己教師付き学習を可能にする。
  • 外れ値フィルタリングは、最適化中に不一致な予測を低減する微分可能なロバストノルムにより実現される。

実験結果

リサーチクエスチョン

  • RQ1キーポイント、エッジベクトル、対称性対応といった複数の中間表現を組み合わせることで、オクルージョン下での6次元ポーズ推定の頑健性が向上するか?
  • RQ2エッジベクトルと対称性対応の統合は、キーポイントのみの手法を上回る幾何的制約を追加し、ポーズ精度を向上させるか?
  • RQ3単一でシンプルなネットワークアーキテクチャが、複数のハイブリッド表現を効果的に予測しつつ、リアルタイムの推論速度を維持できるか?
  • RQ4中間予測がノイジーまたは不完全な場合に、ロバストな回帰モジュールがどのようにポーズ精度を向上させるか?

主な発見

  • Occlusion Linemodベンチマークにおいて、HybridPoseは平均ADD(-S)精度47.5%を達成し、PVNet(40.8%)とDPOD(先行SOTA手法)を上回った。
  • 3つの表現をすべて含むフルモデルでは、回転誤差がキーポイントのみの場合の1.357°から1.104°へ、並進誤差が0.061から0.040へと低下し、顕著な向上が確認された。
  • エッジベクトルの追加により、回転誤差は18%、並進誤差は34%の大幅な低減が達成された。
  • 対称性対応の導入により、平均で0.5°の回転推定の改善が得られ、特に反射面に沿った予測の安定性が向上した。
  • HybridPoseは、一般のワークステーション上で30 fpsで動作し、中間表現の複雑さが増してもリアルタイム性能を維持した。
  • アブレーションスタディの結果、エッジベクトルは並進精度の向上に寄与が大きく、対称性対応は回転の安定性を高めることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。