QUICK REVIEW

[논문 리뷰] PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation

Sida Peng, Yuan Liu|arXiv (Cornell University)|2018. 12. 31.

Robotics and Sensor-Based Localization참고 문헌 41인용 수 44

한 줄 요약

PVNet은 각 픽셀로부터 2D 키포인트에 대한 단위 벡터를 회귀하고 픽셀 단위 투표 프레임워크를 도입하며, RANSAC 투표와 불확실성 인식 PnP를 사용해 단일 RGB 이미지로 6DoF 자세를 추정합니다. 가려짐과 잘려짐에 대해 강건합니다.

ABSTRACT

This paper addresses the challenge of 6DoF pose estimation from a single RGB image under severe occlusion or truncation. Many recent works have shown that a two-stage approach, which first detects keypoints and then solves a Perspective-n-Point (PnP) problem for pose estimation, achieves remarkable performance. However, most of these methods only localize a set of sparse keypoints by regressing their image coordinates or heatmaps, which are sensitive to occlusion and truncation. Instead, we introduce a Pixel-wise Voting Network (PVNet) to regress pixel-wise unit vectors pointing to the keypoints and use these vectors to vote for keypoint locations using RANSAC. This creates a flexible representation for localizing occluded or truncated keypoints. Another important feature of this representation is that it provides uncertainties of keypoint locations that can be further leveraged by the PnP solver. Experiments show that the proposed approach outperforms the state of the art on the LINEMOD, Occlusion LINEMOD and YCB-Video datasets by a large margin, while being efficient for real-time pose estimation. We further create a Truncation LINEMOD dataset to validate the robustness of our approach against truncation. The code will be avaliable at https://zju-3dv.github.io/pvnet/.

연구 동기 및 목표

심각한 가려짐이나 잘림이 있는 단일 RGB 이미지로부터의 6DoF 자세 추정을 다룬다.
희박한 키포인트 회귀를 밀집한 픽셀 단위 벡터 필드 예측으로 대체하여 강건성을 향상시킨다.
RANSAC 기반 투표를 활용해 키포인트를 위치시키고 자세 추정을 위한 위치 추정 불확실성을 정량화한다.

제안 방법

각 픽셀에서 각 키포인트로 향하는 픽셀 단위 의미 체계 라벨과 단위 벡터를 예측한다.
픽셀 단위 벡터들의 RANSAC 유사 교차를 통해 키포인트 위치 가설을 생성한다.
투표로부터 각 키포인트의 평균과 공분산을 추정해 공간 확률 분포를 형성한다.
키포인트의 평균과 공분산을 사용해 마할라노비스 거리 최소화로 6D 포즈를 추정한다(불확실성 기반 PnP).
Cut and Paste 증강을 포함한 합성 데이터로 PVNet을 학습하고 dilation 합성을 갖춘 ResNet-18 기반의 완전합성 백본을 사용한다.
표면 키포인트를 FPS 기반으로 선택( K=8 ) 및 객체 중심을 더해 사용하고; 포즈 추정에 불확실성 인식 PnP를 적용한다.

실험 결과

연구 질문

RQ1회귀/히트맵 방식과 비교했을 때, 밀집한 픽셀 단위 벡터 필드 표현이 가려짐이나 잘림 하에서 2D 키포인트 위치 추정의 정확도를 향상시킬 수 있는가?
RQ2키포인트 위치 불확실성을 PnP 해석기에 포함시키는 것이 6DoF 자세 정확도에 어떻게 영향을 미치는가?
RQ3키포인트 선택 전략과 키포인트 수가 자세 추정 성능에 미치는 영향은 무엇인가?
RQ4표준 벤치마크(LINEMOD, Occlusion LINEMOD, YCB-Video)에서 PVNet의 성능과 잘림 상황에서의 성능은 어떤가?

주요 결과

PVNet은 LINEMOD, Occlusion LINEMOD, YCB-Video 데이터셋에서 최첨단 성능을 달성한다.
불확실성 기반 PnP는 키포인트별 공분산을 활용해 EPnP보다 자세 정확도를 향상시킨다.
최대 거리 표추출 샘플링으로 선택된 8개의 표면 키포인트(센터 포함)를 사용하면 우수한 정확도와 좋은 효율성을 얻는다.
벡터 필드로 구현된 픽셀 단위 투표는 가려짐과 절단에 강건함을 보이며 회귀 기반 키포인트 방법을 능가한다.
본 방법은 GTX 1080 Ti에서 약 25 fps로 실행되어 실시간 응용에 적합하다.
본 논문은 잘림에 대한 강건성을 검증하기 위해 Truncation LINEMOD 데이터셋을 도입한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.