Skip to main content
QUICK REVIEW

[논문 리뷰] PoseRBPF: A Rao-Blackwellized Particle Filter for 6D Object Pose Tracking

Xinke Deng, Arsalan Mousavian|arXiv (Cornell University)|2019. 05. 22.
Advanced Neural Network Applications참고 문헌 40인용 수 52
한 줄 요약

PoseRBPF는 6D 객체 포즈 추적을 Rao-Blackwellized 입자 필터를 사용해 평행이동과 회전 분포로 분해하며, 회전은 자동인코더로 학습된 이산 코드북을 통해 처리합니다; 전체 포즈 후방분포를 추적하고 YCB-Video 및 T-LESS에서 최첨단 결과를 달성하며 객체 대칭성에 견고하게 대응합니다.

ABSTRACT

Tracking 6D poses of objects from videos provides rich information to a robot in performing different tasks such as manipulation and navigation. In this work, we formulate the 6D object pose tracking problem in the Rao-Blackwellized particle filtering framework, where the 3D rotation and the 3D translation of an object are decoupled. This factorization allows our approach, called PoseRBPF, to efficiently estimate the 3D translation of an object along with the full distribution over the 3D rotation. This is achieved by discretizing the rotation space in a fine-grained manner, and training an auto-encoder network to construct a codebook of feature embeddings for the discretized rotations. As a result, PoseRBPF can track objects with arbitrary symmetries while still maintaining adequate posterior distributions. Our approach achieves state-of-the-art results on two 6D pose estimation benchmarks. A video showing the experiments can be found at https://youtu.be/lE5gjzRKWuA

연구 동기 및 목표

  • 비디오에서 시간적 불확실성을 갖는 6D 객체 포즈 추적의 동기 부여 및 해결.
  • 3D 회전과 3D 병진에 대한 전체 포스트리어 분포를 표현하는 확률적 프레임워크를 개발한다.
  • 수동 대칭 표기 없이 임의의 대칭성을 가진 물체에 대해 견고한 추적을 가능하게 한다.
  • 학습된 표현을 활용해 프레임당 여러 방향 가설을 효율적으로 평가한다.

제안 방법

  • 6D 포즈 포스터를 번역 P(T_k|Z_1:k)와 회전 P(R_k|T_k, Z_1:k)으로 분해한다.
  • Rao-Blackwellized 입자 필터를 사용해 병진을 샘플링하고 입자당 이산 회전 분포를 유지한다(회전은 5도 해상도로 72x37x72 빈으로 이산화).
  • 일관된 변환에서 물체 뷰를 렌더링해 이산화된 회전용 특징 임베딩 코드북을 구축하기 위해 자동 인코더를 학습시켜 회전 가능도를 로이 코사인 유사성으로 RoIs와 매칭해 빠르게 계산하게 한다.
  • 실제 RGB 이미지를 자동 인코더를 통해 합성도 도메인 임베딩으로 변환하고 RoI 임베딩을 코드북과 매칭해 관측 가능도를 계산한다.
  • 고정 속도 모션 사전으로 병진을 전파하고, 이전 회전 분포에 대해 3D 가우시안 컨볼루션으로 회전을 전파한다.
  • 깊이 기반 깊이 불일치 점수와 가시성 마스킹을 도입해 각 입자의 가능도를 정제하도록 RGB-D로 확장한다.
  • 2D 검출기로부터 초기화하고 프레임별로 입자 번역 및 회전 분포를 반복적으로 업데이트하며 재샘플링과 코드북 매칭 품질에 의한 트래킹 실패 탐지 가능성을 가진다.

실험 결과

연구 질문

  • RQ16D 포즈 추적을 실시간으로 효율적으로 샘플링할 수 있는 포스터로 표현할 수 있는가?
  • RQ2학습된 회전 표현을 확률적 필터에 통합해 명시적 대칭 표기 없이 대칭성을 처리할 수 있는가?
  • RQ3병진과 회전을 분리하면 전체 포즈 후방분포의 정확한 추적과 대칭/비텍스처 물체에서의 견고한 성능이 가능하는가?
  • RQ4RGB-D 데이터를 회전된 코드북 매칭 접근법과 결합하면 포즈 추적이 개선되는가?
  • RQ5도전적인 데이터셋에서 입자 수가 실시간 성능과 정확도에 미치는 영향은 무엇인가?

주요 결과

  • PoseRBPF는 6D 포즈의 전체 포스트eri를 병진과 회전을 분리하고 입자마다 이산화된 회전 코드북을 사용함으로써 다중 모드 방향 추적을 가능하게 한다.
  • 입자당 회전 분포는 5도 해상도에서 191,808 빈(72x37x72)으로 유지되며, 다중 형태의 방향 추적이 가능하다.
  • 자동 인코더에서 도출한 코드북은 RoI 임베딩과 이산화된 회전 임베딩 간의 코사인 유사성을 통해 빠른 회전 가능도를 가능하게 한다.
  • 깊이 차이 및 가시성 마스크를 포함한 RGB-D 확장은 RGB만 사용했을 때보다 포즈 정확도를 향상시키며 YCB-Video 및 T-LESS 데이터셋에서 최첨단 결과를 달성한다.
  • RGB 버전에서 약 20fps로 실행되며, GPU 가속 코드북 매칭을 통한 RGB-D 구성에서도 최대 20fps에 이른다; 더 큰 입자 수일수록 정확도가 향상되며 PoseRBPF++ 변형은 PoseCNN 예측 주변에서 추가 이득을 준다.
  • PoseRBPF는 명시적 대칭 표기 없이도 물체의 대칭을 효과적으로 처리하고 직관적으로 해석 가능한 회전 후방분포를 제공한다.도전적인 대칭 및 비텍스처 물체에서의 성능을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.