QUICK REVIEW

[논문 리뷰] DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion

Chen Wang, Danfei Xu|arXiv (Cornell University)|2019. 01. 15.

Robot Manipulation and Learning참고 문헌 43인용 수 93

한 줄 요약

DenseFusion은 RGB-D 피처의 픽셀 단위 조밀한 융합과 알려진 물체의 6D 자세 추정을 위한 엔드투엔드 반복 정제를 도입하여 YCB-Video 및 LineMOD에서 최첨단 결과를 얻고 실시간 성능을 달성합니다. ADD-S<2cm에서 PoseCNN+ICP보다 3.5% 우수하고 약 200배 빠르게 수행됩니다.

ABSTRACT

A key technical challenge in performing 6D object pose estimation from RGB-D image is to fully leverage the two complementary data sources. Prior works either extract information from the RGB image and depth separately or use costly post-processing steps, limiting their performances in highly cluttered scenes and real-time applications. In this work, we present DenseFusion, a generic framework for estimating 6D pose of a set of known objects from RGB-D images. DenseFusion is a heterogeneous architecture that processes the two data sources individually and uses a novel dense fusion network to extract pixel-wise dense feature embedding, from which the pose is estimated. Furthermore, we integrate an end-to-end iterative pose refinement procedure that further improves the pose estimation while achieving near real-time inference. Our experiments show that our method outperforms state-of-the-art approaches in two datasets, YCB-Video and LineMOD. We also deploy our proposed method to a real robot to grasp and manipulate objects based on the estimated pose.

연구 동기 및 목표

혼잡 및 가려짐 환경에서 RGB-D로부터 강건한 6D 자세 추정 동기 부여.
로컬 기하학 및 외관 정보를 보존하기 위해 픽셀 단위 융합을 통한 색상과 깊이의 활용.
느린 후처리 정제에 의존하지 않도록 엔드투엔드 반복 정제를 통합.
YCB-Video 및 LineMOD 데이터셋에서의 최첨단 정확도 시연.
추정 자세를 이용한 실제 로봇 그리핑의 실시간 가능성 시연.

제안 방법

컬러와 깊이를 각각 처리하여 밀집한 픽셀 단위 색상 및 기하 임베딩을 추출합니다.
세분화된 깊이 픽셀을 3D 포인트 클라우드로 변환하고 PointNet과 유사한 기하 임베딩 네트워크를 적용합니다.
픽셀 단위로 색상 및 기하를 조밀 융합 네트워크를 통해 퍼-픽셀 자세 가설 및 신뢰도 점수를 생성합니다.
다중 항 목표로 학습하고, 픽셀 단위 자세 손실을 학습된 픽셀 신뢰도로 가중하는 정규화 항을 포함합니다.
가장 높은 신뢰도의 자세를 최종 추정으로 사용하여 픽셀 단위 예측을 모읍니다.
사전에 추정된 자세에 조건화된 자세 잔차를 예측하는 반복적이고 미분 가능한 자세 정제 모듈을 도입하여 다중 정제 반복이 가능하도록 합니다.

실험 결과

연구 질문

RQ1픽셀 단위의 RGB-D 피처 조밀 융합이 전역 융합 방식에 비해 가려짐에 대한 강건성을 향상시킬 수 있는가?
RQ2엔드투엔드 미분 가능 반복 정제가 느린 후처리 없이 6D 자세 정확도를 향상시키는가?
RQ3혼잡한 장면에서도 실시간 추론이 가능하며 실제 로봇 그리핑으로의 이식성이 있는가?

주요 결과

DenseFusion의 픽셀 단위 조밀 융합은 단순 연결(concatenation) 기반의 기초선(PointFusion 등)을 크게 능가합니다.
반복 정제 모듈은 특히 질감이 없는 대칭 물체(예: 그릇, 바나나)에서 자세 정확도를 향상시킵니다.
가려짐이 심한 경우에도 성능 저하가 최소화되며, 가려짐 하에서의 기초선보다 우수합니다.
YCB-Video에서 반복 변형이 최고의 ADD-S 성능을 달성하며 ADD-S<2cm에서 PoseCNN+ICP보다 3.5% 앞서고 실시간 속도(약 16 FPS)로 작동합니다.
LineMOD에서 방법이 깊이 정제를 사용하는 prior RGB 방법을 능가하며 정제가 두 차례 반복된 후 추가적인 정확도 향상(약 8%)이 나타납니다.
로봇 그리핑 실험에서 추정된 자세를 사용한 60회 시도 중 73%의 성공을 보였습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.