[논문 리뷰] EfficientPose: An efficient, accurate and scalable end-to-end 6D multi object pose estimation approach
EfficientPose는 EfficientDet을 확장하여 단일 샷에서 다중 객체 2D 탐지와 전체 6D 포즈를 예측하고, Linemod에서 RGB 기반 6D 포즈 정확도에서 최상위 수준을 달성하며 높은 효율성과 확장성을 제공합니다.
In this paper we introduce EfficientPose, a new approach for 6D object pose estimation. Our method is highly accurate, efficient and scalable over a wide range of computational resources. Moreover, it can detect the 2D bounding box of multiple objects and instances as well as estimate their full 6D poses in a single shot. This eliminates the significant increase in runtime when dealing with multiple objects other approaches suffer from. These approaches aim to first detect 2D targets, e.g. keypoints, and solve a Perspective-n-Point problem for their 6D pose for each object afterwards. We also propose a novel augmentation method for direct 6D pose estimation approaches to improve performance and generalization, called 6D augmentation. Our approach achieves a new state-of-the-art accuracy of 97.35% in terms of the ADD(-S) metric on the widely-used 6D pose estimation benchmark dataset Linemod using RGB input, while still running end-to-end at over 27 FPS. Through the inherent handling of multiple objects and instances and the fused single shot 2D object detection as well as 6D pose estimation, our approach runs even with multiple objects (eight) end-to-end at over 26 FPS, making it highly attractive to many real world scenarios. Code will be made publicly available at https://github.com/ybkscht/EfficientPose.
연구 동기 및 목표
- EfficientDet을 확장하여 2D 탐지와 전체 6D 포즈(회전 및 이동)를 단일 샷으로 예측한다.
- 객체 수에 따라 효율성을 유지하기 위해 회전과 이동에 대해 가볍고 공유되는 서브네트워크를 도입한다.
- 제한된 학습 데이터에서 일반화 능력을 향상시키기 위해 6D 증강을 제안한다.
- 비대칭 및 대칭 객체에 대해 ADD(-S) 지표를 직접 최적화하는 강건한 변환 손실을 개발한다.
제안 방법
- 회전(R) 및 이동(t) 예측을 위한 두 개의 추가 서브네트워크를 포함하도록 EfficientDet을 확장한다.
- 축-각(r) 표현과 반복 보정 모듈을 사용하여 최종 회전을 예측한다.
- 물체를 2D 중심점과 깊이를 예측하여 이동을 추정한 후 카메라 내부 파라미터를 이용해 3D 이동 벡터를 복원한다.
- 비대칭 및 대칭 객체의 포즈 정확도를 직접 최적화하기 위해 ADD(-S) 기반의 변환 손실을 적용한다.
- 작은 데이터세트에서도 일반화 능력을 향상시키기 위해 6D 증강으로 이미지의 회전과 스케일링 및 대응하는 6D 포즈 조정을 도입한다.
- EfficientDet의 phi-확장 백본을 물려받아 다양한 계산 예산에서 엔드투엔드 포즈 추정이 가능하도록 한다.
실험 결과
연구 질문
- RQ1직접 엔드투엔드 6D 포즈 추정이 PnP나 RANSAC과 같은 후처리 없이 RGB 입력에서 최상위 정확도를 달성할 수 있는가?
- RQ2EfficientDet에 6D 포즈 추정을 통합하면 다중 인스턴스 다중 객체 포즈 추정이 단일 샷으로 확장 가능하게 되는가?
- RQ3RGB 기반 6D 포즈 추정에서 작은 데이터세트의 일반화에 6D 증강이 어떤 영향을 미치는가?
- RQ4네트워크 스케일링(phi)이 다중 객체 6D 포즈 추정의 정확도와 처리량에 미치는 영향은 무엇인가?
주요 결과
| 방법 | ape | benchvise | cam | can | cat | driller | duck | eggbox* | glue* | holepuncher | iron | lamp | phone | 평균 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Ours φ=0 | 89.43 | 99.71 | 98.53 | 99.70 | 96.21 | 99.50 | 89.20 | 100 | 100 | 95.72 | 99.08 | 100 | 97.35 | |
| Ours φ=3 | 87.71 | 99.71 | 97.94 | 98.52 | 98.00 | 99.90 | 90.99 | 100 | 100 | 95.15 | 99.69 | 100 | 97.35 |
- RGB 입력에 대해 Linemod에서 PnP나 후처리 없이 ADD(-S) 97.35%를 달성한다.
- 이미지당 최대 8개 객체까지의 경우에도 연산 전체를 엔드투엔드로 27 FPS 이상, 26 FPS 이상으로 작동한다.
- 후처리 없이도 Linemod에서 RGB-전용 최첨단 방법을 능가한다(개선 방법 포함).
- 공유 피처 맵과 앵커 기반 예측으로 단일 샷 내 다중 객체 및 다중 인스턴스 탐지가 효과적으로 가능하다는 것을 시연한다.
- 제안된 6D 증강으로 작은 데이터세트의 자세 추정 성능이 크게 향상된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.