[論文レビュー] EfficientPose: An efficient, accurate and scalable end-to-end 6D multi object pose estimation approach
EfficientPoseはEfficientDetを拡張して、単一ショットで多物体の2D検出と完全な6D姿勢を予測し、Linemod上でRGBベースの6D姿勢精度を最先端に達成すると同時に高い効率性とスケーラビリティを実現する。
In this paper we introduce EfficientPose, a new approach for 6D object pose estimation. Our method is highly accurate, efficient and scalable over a wide range of computational resources. Moreover, it can detect the 2D bounding box of multiple objects and instances as well as estimate their full 6D poses in a single shot. This eliminates the significant increase in runtime when dealing with multiple objects other approaches suffer from. These approaches aim to first detect 2D targets, e.g. keypoints, and solve a Perspective-n-Point problem for their 6D pose for each object afterwards. We also propose a novel augmentation method for direct 6D pose estimation approaches to improve performance and generalization, called 6D augmentation. Our approach achieves a new state-of-the-art accuracy of 97.35% in terms of the ADD(-S) metric on the widely-used 6D pose estimation benchmark dataset Linemod using RGB input, while still running end-to-end at over 27 FPS. Through the inherent handling of multiple objects and instances and the fused single shot 2D object detection as well as 6D pose estimation, our approach runs even with multiple objects (eight) end-to-end at over 26 FPS, making it highly attractive to many real world scenarios. Code will be made publicly available at https://github.com/ybkscht/EfficientPose.
研究の動機と目的
- EfficientDetを拡張して、2D検出と完全な6D姿勢(回転と並進)の両方を単一ショットで予測する。
- 回転と並進のための軽量で共有されたサブネットワークを導入し、物体数にかかわらず効率を維持する。
- 学習データが限られている場合の汎化を改善するための6D拡張を提案する。
- 非対称・対称オブジェクトに対してADD(-S)指標を直接最適化する頑健な変換損失を開発する。
提案手法
- EfficientDetを拡張し、回転(R)と並進(t)予測のための追加サブネットワークを2つ追加する。
- 最終回転を予測するために、軸角表現と反復的な精修モジュールを使用する。
- 2D中心点と深度を予測して物体を平行移動させ、カメラ内部パラメータを用いて3D並進を復元する。
- 非対称・対称オブジェクトの姿勢精度を直接最適化するためにADD(-S)に基づく変換損失を適用する。
- 6D拡張を導入し、画像を回転・スケールさせ、対応する6D姿勢調整を行い、少量データセットでの汎化を改善する。
- 計算予算の範囲にわたってエンドツーエンドの姿勢推定を可能にするため、EfficientDetのphiスケーラブルなバックボーンを継承する。
実験結果
リサーチクエスチョン
- RQ1直接的なエンドツーエンドの6D姿勢推定が、PnPやRANSACのような後処理を用いずにRGB入力で最先端の精度を達成できるか。
- RQ26D姿勢推定をEfficientDetに統合することで、複数のインスタンスにまたがる単一ショットのマルチオブジェクト姿勢推定がスケーラブルに実現できるか。
- RQ36D拡張はRGBベースの6D姿勢推定の小規模データセットでの汎化にどう影響するか。
- RQ4ネットワークのスケーリング(phi)が、マルチオブジェクト6D姿勢推定の精度とスループットに与える影響はどの程度か。
主な発見
| Method | ape | benchvise | cam | can | cat | driller | duck | eggbox* | glue* | holepuncher | iron | lamp | phone | Average |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Ours φ=0 | 89.43 | 99.71 | 98.53 | 99.70 | 96.21 | 99.50 | 89.20 | 100 | 100 | 95.72 | 99.08 | 100 | 97.35 | |
| Ours φ=3 | 87.71 | 99.71 | 97.94 | 98.52 | 98.00 | 99.90 | 90.99 | 100 | 100 | 95.15 | 99.69 | 100 | 97.35 |
- Linemod上でRGB入力に対してADD(-S)が97.35%の精度を達成(後処理なし)。
- エンドツーエンドで27 FPS超、1画像あたり最大8オブジェクトで26 FPS超を達成。
- リファインメントを含む手法を含めたRGBのみの最先端手法をLinemodで上回る。
- 共有特徴マップとアンカーベースの予測により、単一ショットでのマルチオブジェクト・マルチインスタンス検出が効果的に実現。
- 提案した6D拡張が少量データセットでの姿勢推定性能を大幅に向上。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。