QUICK REVIEW

[論文レビュー] PoET: Pose Estimation Transformer for Single-View, Multi-Object 6D Pose Estimation

Thomas Jantos, Mohamed Amin Hamdad|arXiv (Cornell University)|Nov 25, 2022

Robot Manipulation and Learning被引用数 28

ひとこと要約

PoET は深度や3Dモデルを用いず、単一の画像で複数オブジェクトの6D姿勢を推定する、トランスフォーマーベースのRGBのみの手法であり、YCB-Vで最先端の結果を達成している。

ABSTRACT

Accurate 6D object pose estimation is an important task for a variety of robotic applications such as grasping or localization. It is a challenging task due to object symmetries, clutter and occlusion, but it becomes more challenging when additional information, such as depth and 3D models, is not provided. We present a transformer-based approach that takes an RGB image as input and predicts a 6D pose for each object in the image. Besides the image, our network does not require any additional information such as depth maps or 3D object models. First, the image is passed through an object detector to generate feature maps and to detect objects. Then, the feature maps are fed into a transformer with the detected bounding boxes as additional information. Afterwards, the output object queries are processed by a separate translation and rotation head. We achieve state-of-the-art results for RGB-only approaches on the challenging YCB-V dataset. We illustrate the suitability of the resulting model as pose sensor for a 6-DoF state estimation task. Code is available at https://github.com/aau-cns/poet.

研究の動機と目的

ロボットタスク（把持、自己位置推定）用の正確な6D姿勢推定を、RGB画像のみを用いて動機づける。
任意の2Dオブジェクト検出器の上に6D姿勢推定を追加できる、バックボーンに依存しないフレームワークを開発する。
追加入力なしで、トランスフォーマーを通じたグローバルな画像コンテキストを取り入れ、各オブジェクトの平行移動と回転を予測する。
YCB-Vデータセットでアプローチを評価し、6-DoF自己位置推定の姿勢センサとしての利用を示す。

提案手法

バックボーン検出器を用いてRGB画像を処理し、多段階の特徴マップとオブジェクトのバウンディングボックスを生成する。
境界ボックス情報がデコーダのオブジェクトクエリとなる、可変形トランスフォーマーのエンコーダ-デコーダを使用する。
トランスフォーマーの出力を別々の平行移動ヘッドと回転ヘッドに入力して、3D翻訳と6D回転を予測する（6D回転表現と測地損失を用いる）。
翻訳のL2損失と geodesic 回転損失を組み合わせた重み付き多タスク損失で訓練する。
出力次元をそれぞれ3n_clsと6n_clsに調整することで、クラス特化設定またはクラス非依存設定をサポートする。
深度、3Dモデル、対称性事前情報を使わずにRGBデータ上でエンドツーエンド訓練し、評価時には ground-truth ROIs をオプションで用いる。

実験結果

リサーチクエスチョン

RQ1トランスフォーマーが学習するグローバルな画像コンテキストは、単一の視点で複数オブジェクトのRGB専用6D姿勢推定を改善できるか？
RQ23Dモデルや深度マップなしで、境界ボックス情報だけをガイダンスとして使用して、RGBのみから各オブジェクトの3D翻訳と6D回転を予測することは可能か？
RQ3翻訳、回転、ADD-S指標に関して、YCB-VでRGBベースの最先端手法と比較してPoETはどう機能するか？
RQ4PoETは混乱したシーンで6-DoFカメラ自己位置推定の姿勢センサとして効果的に機能し得るか？

主な発見

PoET は YCB-V における RGB のみの手法の中で最先端の結果を達成（ADD-S 指標）。
本モデルは反復的な精練や3Dモデルを必要とせず、単一のRGB画像で複数オブジェクトを扱える。
境界ボックス情報をトランスフォーマー入力の一部として使用することで学習と性能が向上する。
平行移動ヘッドと回転ヘッドは競争力のある平行移動精度と回転精度を生み出し、回転は対称性事前情報なしでも競争力がある。
アブレーション研究は、境界ボックス誘導クエリと全画像コンテキストが最高の性能に重要であることを示した。
PoET は検出されたオブジェクトからの相対姿勢推定を統合してカメラ自己位置推定に使用できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。