Skip to main content
QUICK REVIEW

[논문 리뷰] PoET: Pose Estimation Transformer for Single-View, Multi-Object 6D Pose Estimation

Thomas Jantos, Mohamed Amin Hamdad|arXiv (Cornell University)|2022. 11. 25.
Robot Manipulation and Learning인용 수 28
한 줄 요약

PoET은 깊이 또는 3D 모델 없이 단일 이미지에서 다수 객체의 6D 포즈를 추정하는 변환기 기반의 RGB-전용 방법으로, YCB-V에서 최첨단 결과를 달성합니다.

ABSTRACT

Accurate 6D object pose estimation is an important task for a variety of robotic applications such as grasping or localization. It is a challenging task due to object symmetries, clutter and occlusion, but it becomes more challenging when additional information, such as depth and 3D models, is not provided. We present a transformer-based approach that takes an RGB image as input and predicts a 6D pose for each object in the image. Besides the image, our network does not require any additional information such as depth maps or 3D object models. First, the image is passed through an object detector to generate feature maps and to detect objects. Then, the feature maps are fed into a transformer with the detected bounding boxes as additional information. Afterwards, the output object queries are processed by a separate translation and rotation head. We achieve state-of-the-art results for RGB-only approaches on the challenging YCB-V dataset. We illustrate the suitability of the resulting model as pose sensor for a 6-DoF state estimation task. Code is available at https://github.com/aau-cns/poet.

연구 동기 및 목표

  • RGB 이미지만으로 로봇 작업(그립, 로컬라이제이션)을 위한 정확한 6D 포즈 추정을 촉진한다.
  • 어떤 백본(backbone)에도 구애받지 않는 프레임워크를 개발하여 모든 2D 객체 검출기 위에 6D 포즈 추정을 추가할 수 있도록 한다.
  • 추가 입력 없이 트랜스포머를 통해 전역 이미지 맥락을 통합하여 객체별 평행이동(translation)과 회전(rotation)을 예측한다.
  • YCB-V 데이터셋에서 접근법을 평가하고 6-DoF 로컬라이제이션을 위한 포즈 센서로서의 활용을 보여준다.

제안 방법

  • 백본 객체 검출기로 RGB 이미지를 처리하여 다중 스케일 특성 맵과 객체 경계 상자를 생성한다.
  • 경계 상자 정보가 디코더의 객체 쿼리가 되는 변형 가능한 트랜스포머 인코더-디코더를 사용한다.
  • 트랜스포머 출력은 각각의 translation 헤드와 rotation 헤드로 전달되어 3D translation과 6D rotation을 예측한다(6D 회전 표현과 geodesic 손실을 사용).
  • translation L2 loss와 geodesic rotation loss를 결합한 가중 다중 작업 손실로 학습한다.
  • 출력 차원을 각각 3n_cls 및 6n_cls로 조정하여 클래스-특정 또는 클래스-무관 설정을 지원한다.
  • 깊이, 3D 모델 또는 대칭 선험지식 없이 RGB 데이터에서 엔드-투-엔드로 학습하고, 평가 시에는 필요에 따라 ground-truth ROI를 사용할 수 있다.

실험 결과

연구 질문

  • RQ1트랜스포머가 학습한 전역 이미지 맥락이 단일 뷰에서 RGB-만으로 다중 객체의 6D 포즈 추정을 향상시킬 수 있는가?
  • RQ23D 모델이나 깊이 맵 없이 경계 상자 정보만을 가이드로 사용하여 RGB 만으로 객체별 3D translation과 6D rotation을 예측하는 것이 가능한가?
  • RQ3Translation, rotation 및 ADD-S 지표 측면에서 PoET이 YCB-V에서 RGB 기반 최첨단 방법과 비교해 어떻게 성능을 보이는가?
  • RQ4PoET이 혼잡한 환경에서 6-DoF 카메라 로컬라이제이션을 위한 포즈 센서로 효과적으로 작동할 수 있는가?

주요 결과

  • PoET은 YCB-V에서 RGB-전용 방법 중 최첨단 결과를 달성한다 (ADD-S 지표).
  • 모델은 반복 보정이나 3D 모델 없이 단일 RGB 이미지에서 다중 객체를 처리한다.
  • 경계 상자 정보를 트랜스포머 입력의 일부로 사용하는 것이 학습과 성능을 향상시킨다.
  • translation 헤드와 rotation 헤드가 경쟁력 있는 평행이동 정확도와 회전 정확도를 산출하며, 회전은 대칭 선험지식이 없어도 경쟁력이 있다.
  • 에일리언 연구(ablation studies)는 바운딩 박스 가이드 쿼리와 전체 이미지 맥락의 중요성을 보여준다.
  • PoET은 탐지된 객체들로부터 상대 포즈 추정을 융합하여 카메라 로컬라이제이션에 사용할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.