Skip to main content
QUICK REVIEW

[논문 리뷰] Deep-6DPose: Recovering 6D Object Pose from a Single RGB Image

Thanh-Toan Do, Ming Cai|arXiv (Cornell University)|2018. 02. 28.
Advanced Neural Network Applications참고 문헌 22인용 수 129
한 줄 요약

Deep-6DPose는 단일 RGB 이미지에서 객체 인스턴스의 6D 포즈를 엔드-투-엔드 프레임워크로 공동으로 감지, 분할, 회전 및 이동을 회귀하며, 회전을 Lie 대수 표현으로 이용해 후처리 없이 직접 포즈 회귀를 가능하게 한다.

ABSTRACT

Detecting objects and their 6D poses from only RGB images is an important task for many robotic applications. While deep learning methods have made significant progress in visual object detection and segmentation, the object pose estimation task is still challenging. In this paper, we introduce an end-toend deep learning framework, named Deep-6DPose, that jointly detects, segments, and most importantly recovers 6D poses of object instances from a single RGB image. In particular, we extend the recent state-of-the-art instance segmentation network Mask R-CNN with a novel pose estimation branch to directly regress 6D object poses without any post-refinements. Our key technical contribution is the decoupling of pose parameters into translation and rotation so that the rotation can be regressed via a Lie algebra representation. The resulting pose regression loss is differential and unconstrained, making the training tractable. The experiments on two standard pose benchmarking datasets show that our proposed approach compares favorably with the state-of-the-art RGB-based multi-stage pose estimation methods. Importantly, due to the end-to-end architecture, Deep-6DPose is considerably faster than competing multi-stage methods, offers an inference speed of 10 fps that is well suited for robotic applications.

연구 동기 및 목표

  • RGB 이미지에서 후처리 없이 6D 물체 포즈의 엔드-투-엔드 추정을 동기로 삼는다.
  • RoIs 내부에서 6D 포즈를 회귀하는 전용 포즈 회귀 헤드를 Mask R-CNN에 활용하고 확장한다.
  • 회전 표현을 so(3) 라이 대수로 도입하여 회전의 제약 없는 회귀를 가능하게 한다.
  • 예측된 2D 경계상자와 투사된 이미지 단서를 함께 사용하여 평면화된 t_x, t_y를 얻고 z 축의 변위를 이용해 전체 이동을 복원한다.
  • 표준 RGB 기반 포즈 벤치마크에서 최첨단 또는 경쟁력 있는 성능을 보여주면서 빠른 추론을 달성한다.

제안 방법

  • RoI를 생성하는 Region Proposal Network가 있는 Mask R-CNN/Faster R-CNN 백본에 기반한다.
  • 각 RoI마다 4D 벡터를 회귀하는 새로운 6D 포즈 헤드를 추가한다: 처음 세 구성요소는 so(3) 회전(라이 대수), 마지막 구성요소는 z 이동이다.
  • 회전은 so(3)를 사용하여 Rodrigues 매핑을 통해 회전 행렬을 구한다.
  • 예측된 z 구성요소와 경계 상자를 통해 투사 기하학을 이용해 전체 이동 벡터를 복원한다( Intrinsics로부터 t_z로부터 t_x, t_y를 얻는다).
  • 다중 작업 손실을 사용해 분류, 박스 회귀, 마스크 분할, 포즈 회귀 손실을 결합한 학습을 수행한다.
  • 포즈 분기는 클래스에 의존하지 않지만 클래스별 출력으로 확장 가능하다.

실험 결과

연구 질문

  • RQ1엔드-투-엔드 RGB 전용 네트워크가 후처리 없이 6D 물체 포즈를 공동으로 탐지, 분할, 추정할 수 있는가?
  • RQ2회전을 Lie 대수 so(3)로 표현하는 것이 CNN에서 안정적이고 제약 없는 회귀를 촉진하는가?
  • RQ3z 축 이동 분만 회귀하고 x/y를 투사로부터 복원하는 것이 어떤 영향을 미치는가?
  • RQ4표준 데이터셋에서 엔드-투-엔드 Deep-6DPose가 정확도와 속도 측면에서 최첨단 RGB 기반 포즈 방법과 어떻게 비교되는가?

주요 결과

  • Deep-6DPose는 LINEMOD 및 Tejani 등 데이터셋에서 2D 탐지/분할 정확도가 경쟁력 있으며, 탐지 및 분할에 대해 IoU 0.5에서 거의 완벽한 점수를 보인다.
  • 5cm/5° 포즈 정확도 하에서 Deep-6DPose는 Brachmann 등보다 우수하고 BB8과 경쟁력이 있으며, SSD-6D가 합성 학습 데이터로 더 강할 수 있지만 Deep-6DPose는 후처리 없이 끝단 포즈 출력을 제공한다.
  • LINEMOD에서 Deep-6DPose의 2D 포즈 지표는 SSD-6D에 비해 비슷하거나 더 낫고 Brachmann 등보다 우수하며 ADD 지표 성능은 BB8를 약 2.5%포인트 차이로 상회한다.
  • Tejani 등 다중 인스턴스 데이터셋에서 Deep-6DPose는 IoU 0.5에서 거의 완벽한 2D 탐지/분할을 달성하고 평균적으로 5cm/5° 및 ADD 점수도 양호하지만 거의 대칭 객체에서 일부 저하가 있다.
  • 추론 속도는 Titan X 기준 이미지당 약 0.1초로, 다단계 방법들보다 훨씬 빠르고 BB8보다 빠르며 SSD-6D와도 경쟁력이 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.