Skip to main content
QUICK REVIEW

[논문 리뷰] DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion

Chen Wang, Danfei Xu|arXiv (Cornell University)|2019. 01. 15.
Robot Manipulation and Learning참고 문헌 43인용 수 93
한 줄 요약

DenseFusion은 RGB-D 피처의 픽셀 단위 조밀한 융합과 알려진 물체의 6D 자세 추정을 위한 엔드투엔드 반복 정제를 도입하여 YCB-Video 및 LineMOD에서 최첨단 결과를 얻고 실시간 성능을 달성합니다. ADD-S<2cm에서 PoseCNN+ICP보다 3.5% 우수하고 약 200배 빠르게 수행됩니다.

ABSTRACT

A key technical challenge in performing 6D object pose estimation from RGB-D image is to fully leverage the two complementary data sources. Prior works either extract information from the RGB image and depth separately or use costly post-processing steps, limiting their performances in highly cluttered scenes and real-time applications. In this work, we present DenseFusion, a generic framework for estimating 6D pose of a set of known objects from RGB-D images. DenseFusion is a heterogeneous architecture that processes the two data sources individually and uses a novel dense fusion network to extract pixel-wise dense feature embedding, from which the pose is estimated. Furthermore, we integrate an end-to-end iterative pose refinement procedure that further improves the pose estimation while achieving near real-time inference. Our experiments show that our method outperforms state-of-the-art approaches in two datasets, YCB-Video and LineMOD. We also deploy our proposed method to a real robot to grasp and manipulate objects based on the estimated pose.

연구 동기 및 목표

  • 혼잡 및 가려짐 환경에서 RGB-D로부터 강건한 6D 자세 추정 동기 부여.
  • 로컬 기하학 및 외관 정보를 보존하기 위해 픽셀 단위 융합을 통한 색상과 깊이의 활용.
  • 느린 후처리 정제에 의존하지 않도록 엔드투엔드 반복 정제를 통합.
  • YCB-Video 및 LineMOD 데이터셋에서의 최첨단 정확도 시연.
  • 추정 자세를 이용한 실제 로봇 그리핑의 실시간 가능성 시연.

제안 방법

  • 컬러와 깊이를 각각 처리하여 밀집한 픽셀 단위 색상 및 기하 임베딩을 추출합니다.
  • 세분화된 깊이 픽셀을 3D 포인트 클라우드로 변환하고 PointNet과 유사한 기하 임베딩 네트워크를 적용합니다.
  • 픽셀 단위로 색상 및 기하를 조밀 융합 네트워크를 통해 퍼-픽셀 자세 가설 및 신뢰도 점수를 생성합니다.
  • 다중 항 목표로 학습하고, 픽셀 단위 자세 손실을 학습된 픽셀 신뢰도로 가중하는 정규화 항을 포함합니다.
  • 가장 높은 신뢰도의 자세를 최종 추정으로 사용하여 픽셀 단위 예측을 모읍니다.
  • 사전에 추정된 자세에 조건화된 자세 잔차를 예측하는 반복적이고 미분 가능한 자세 정제 모듈을 도입하여 다중 정제 반복이 가능하도록 합니다.

실험 결과

연구 질문

  • RQ1픽셀 단위의 RGB-D 피처 조밀 융합이 전역 융합 방식에 비해 가려짐에 대한 강건성을 향상시킬 수 있는가?
  • RQ2엔드투엔드 미분 가능 반복 정제가 느린 후처리 없이 6D 자세 정확도를 향상시키는가?
  • RQ3혼잡한 장면에서도 실시간 추론이 가능하며 실제 로봇 그리핑으로의 이식성이 있는가?

주요 결과

  • DenseFusion의 픽셀 단위 조밀 융합은 단순 연결(concatenation) 기반의 기초선(PointFusion 등)을 크게 능가합니다.
  • 반복 정제 모듈은 특히 질감이 없는 대칭 물체(예: 그릇, 바나나)에서 자세 정확도를 향상시킵니다.
  • 가려짐이 심한 경우에도 성능 저하가 최소화되며, 가려짐 하에서의 기초선보다 우수합니다.
  • YCB-Video에서 반복 변형이 최고의 ADD-S 성능을 달성하며 ADD-S<2cm에서 PoseCNN+ICP보다 3.5% 앞서고 실시간 속도(약 16 FPS)로 작동합니다.
  • LineMOD에서 방법이 깊이 정제를 사용하는 prior RGB 방법을 능가하며 정제가 두 차례 반복된 후 추가적인 정확도 향상(약 8%)이 나타납니다.
  • 로봇 그리핑 실험에서 추정된 자세를 사용한 60회 시도 중 73%의 성공을 보였습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.