QUICK REVIEW

[논문 리뷰] T-LESS: An RGB-D Dataset for 6D Pose Estimation of Texture-less Objects

Tomáš Hodaň, Pavel Haluza|arXiv (Cornell University)|2017. 01. 19.

3D Surveying and Cultural Heritage인용 수 18

한 줄 요약

T-LESS는 30개의 무문자 산업용 물체에 대한 6자리 자세 추정을 위한 새로운 RGB-D 데이터셋을 소개한다. 이 데이터셋은 세 개의 동기화된 센서(구조광, 시간간격, RGB)에서 촬영한 39,000장의 학습 이미지와 10,000장의 테스트 이미지를 포함하며, 복잡하고 혼잡한 시나리오, 음영, 물체 유사성 등 실제 도전 과제를 반영한다. CAD 및 재구성된 3D 모델이 제공되며, 정확한 진짜 자세가 포함되어 있어 최신 6자리 자세 추정 방법의 향상 여지를 드러낸다. 특히 음영 조건에서의 성능 향상 여지가 크다.

ABSTRACT

We introduce T-LESS, a new public dataset for estimating the 6D pose, i.e. translation and rotation, of texture-less rigid objects. The dataset features thirty industry-relevant objects with no significant texture and no discriminative color or reflectance properties. The objects exhibit symmetries and mutual similarities in shape and/or size. Compared to other datasets, a unique property is that some of the objects are parts of others. The dataset includes training and test images that were captured with three synchronized sensors, specifically a structured-light and a time-of-flight RGB-D sensor and a high-resolution RGB camera. There are approximately 39K training and 10K test images from each sensor. Additionally, two types of 3D models are provided for each object, i.e. a manually created CAD model and a semi-automatically reconstructed one. Training images depict individual objects against a black background. Test images originate from twenty test scenes having varying complexity, which increases from simple scenes with several isolated objects to very challenging ones with multiple instances of several objects and with a high amount of clutter and occlusion. The images were captured from a systematically sampled view sphere around the object/scene, and are annotated with accurate ground truth 6D poses of all modeled objects. Initial evaluation results indicate that the state of the art in 6D object pose estimation has ample room for improvement, especially in difficult cases with significant occlusion. The T-LESS dataset is available online at cmp.felk.cvut.cz/t-less.

연구 동기 및 목표

무문자 산업용 물체에 대한 6자리 자세 추정 문제를 해결하기 위해, 특징이 뚜렷하지 않은 시각적 특징을 갖는 물체에 대응한다.
실제적이고 복잡한 시나리오(음영, 혼잡함, 유사한 물체)를 포함한 벤치마크 데이터셋을 제공한다.
부분적 가시성과 대칭성 또는 유사한 물체가 있는 조건에서 6자리 자세 추정 방법의 평가를 지원한다.
다양한 센서 모odalities(구조광, 시간간격, RGB)에서 유도된 정확한 기준 자세를 사용해 최신 기법의 체계적 비교를 가능하게 한다.
다양한 3D 모델(CAD 및 재구성된 모델)과 체계적으로 촬영된 대규모 이미지 컬렉션을 제공함으로써 RGB-D 기반 6자리 자세 추정 연구를 촉진한다.

제안 방법

데이터셋은 세 대의 동기화된 센서를 사용해 촬영되었으며, 각각 구조광(Primesense Carmine 1.09), 시간간격(Microsoft Kinect v2), 고해상도 RGB 카메라(Canon IXUS 950 IS)이다.
각 물체 주변의 시점 구름에서 체계적으로 이미지를 촬영하여 약 39,000장의 학습 이미지(검은 배경에 단독 물체)와 약 10,000장의 테스트 이미지(다중 물체, 음영, 혼잡함 포함)를 확보하였다.
각 물체에 대해 두 종류의 3D 모델을 제공: 수작업으로 제작한 CAD 모델과 학습용 RGB-D 데이터에서 반자동으로 재구성한 모델.
학습 및 테스트 이미지 내 모든 물체 인스턴스는 다중 시점 재구성 및 정렬 파이프라인을 통해 정밀한 6자리 기준 자세로 주석 처리되었다.
자세 평가에 거리 기반 오차 지표를 사용: $ e = \mathrm{avg}_{\mathbf{x}_1 \in \mathcal{M}} \min_{\mathbf{x}_2 \in \mathcal{M}} \| \bar{\mathbf{R}}\mathbf{x}_1 + \bar{\mathbf{t}} - (\hat{\mathbf{R}}\mathbf{x}_2 + \hat{\mathbf{t}}) \|_2 $, 정확도 기준은 $ e \leq 0.1 \cdot d $이며, $ d $는 물체의 직경이다.
평가에서는 최소 10%의 물체 표면이 가시한 자세에 대해 재현율을 중점적으로 분석하였으며, Hodaň et al. [24]의 방법을 기준선으로 사용하였다.

실험 결과

연구 질문

RQ1최신 6자리 자세 추정 방법은 심한 음영과 혼잡함 조건에서 무문자 물체에 대해 어떻게 성능을 발휘하는가?
RQ2다양한 센서 모달리티(구조광, 시간간격, RGB)는 어려운 시나리오에서 자세 추정 정확도에 어떤 영향을 미치는가?
RQ3물체 유사성과 대칭성은 6자리 자세 추정 성능을 얼마나 떨어뜨리는가?
RQ4CAD 모델과 반자동으로 재구성한 3D 모델 중 어느 것이 더 정확한 자세 추정을 지원하는가?
RQ5부분적 가시성은 6자리 자세 추정 방법의 재현율에 어떤 영향을 미치는가?

주요 결과

Hodaň et al. [24]의 최신 기법은 T-LESS 데이터셋에서 평균 재현율 67.2%를 기록하여 향상 여지가 크다는 것을 시사한다.
동일한 기법은 Hinterstoisser et al. [20] 데이터셋에서는 95.4%의 재현율을 기록하여, T-LESS가 음영과 물체 유사성로 인해 더 어려운 과제임을 입증한다.
유사한 외관을 가진 물체들(예: 물체 1과 2, 또는 20–22)은 자주 혼동되어 재현율이 낮아졌다.
많은 유사한 물체와 심한 음영을 포함한 시나리오 20은 모든 시나리오 중에서 가장 도전적이었으며, 가장 낮은 재현율을 기록하였다.
재현율은 가시 표면 비율에 비례하여 증가하여, 음영이 주요 과제임을 확인한다.
깊이 차이 통계 분석 결과, 재구성된 모델이 CAD 모델보다 촬영된 깊이와 약간 더 잘 일치하는 것으로 나타났지만, 둘 다 정확도가 높았음(평균 절대 오차 < 5 mm).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.