QUICK REVIEW

[논문 리뷰] CPS++: Improving Class-level 6D Pose and Shape Estimation From Monocular Images With Self-Supervised Learning

Fabian Manhardt, Gu Wang|arXiv (Cornell University)|2020. 03. 12.

Robotics and Sensor-Based Localization참고 문헌 70인용 수 35

한 줄 요약

CPS++는 클래스 수준의 단안 6D 포즈 및 메트릭 모양 추정을 엔드투엔드 미분가능 파이프라인으로 도입하고, 합성-실제 도메인 간 간극을 연결하기 위한 자기지도(Self-supervised) 확장을 포함합니다. 이는 최첨단 포즈 정확도를 달성하고 객체 클래스마다 학습 가능한 3D 형태 표현을 제공합니다.

ABSTRACT

Contemporary monocular 6D pose estimation methods can only cope with a handful of object instances. This naturally hampers possible applications as, for instance, robots seamlessly integrated in everyday processes necessarily require the ability to work with hundreds of different objects. To tackle this problem of immanent practical relevance, we propose a novel method for class-level monocular 6D pose estimation, coupled with metric shape retrieval. Unfortunately, acquiring adequate annotations is very time-consuming and labor intensive. This is especially true for class-level 6D pose estimation, as one is required to create a highly detailed reconstruction for all objects and then annotate each object and scene using these models. To overcome this shortcoming, we additionally propose the idea of synthetic-to-real domain transfer for class-level 6D poses by means of self-supervised learning, which removes the burden of collecting numerous manual annotations. In essence, after training our proposed method fully supervised with synthetic data, we leverage recent advances in differentiable rendering to self-supervise the model with unannotated real RGB-D data to improve latter inference. We experimentally demonstrate that we can retrieve precise 6D poses and metric shapes from a single RGB image.

연구 동기 및 목표

인스턴스 특정 모델을 넘어서 확장 가능한 클래스 수준 단안 6D 포즈 추정의 필요성을 제고한다.
단일 RGB 이미지에서 6D 포즈와 메트릭 모양을 함께 추정하는 CPS를 제안한다.
객체 형태를 재구성하기 위해 클래스별 AtlasNet 기반의 형태 잠재 공간을 도입한다.
주석 부담을 줄이기 위해 자체 지도(Self-supervised) (합성-실제) 도메인 전이를 가능하게 한다.

제안 방법

RetinaNet을 사용하여 2D 관심 영역을 탐지하고 RoIAlign으로 각 탐지에 대해 특징을 추출한다.
각 탐지에 대해 allocentric 회전 q_a, 2D 영상 중심, 깊이 z, 메트릭 크기 (w,h,l), 그리고 각 클래스당 32차원의 형태 잠재 e를 예측한다.
클래스별로 학습된 AtlasNet 인코더/디코더로 형태를 표현하고 클래스 평균 잠재 모양 m_c로부터 형상 오프셋을 예측한다.
예측된 포인트 클라우드와 기준(ground-truth) 포인트 클라우드 간 Chamfer 거리 기반의 미분가능한 3D 정렬 손실을 사용하여 3D 포즈를 얻기 위해 3D로 백프로젝션한다.
3D 공간에서 포즈와 형태 매개변수를 공동으로 최적화하는 3D 포인트-클라우드 정렬 손실을 도입한다.
예측 메쉬로부터 미분가능한 RGB-D 쌍을 렌더링하고 실제 라벨링되지 않은 데이터와의 기하학적 및 마스크 기반 정렬을 강제하는 자기지도 확장(CPS++)를 구현한다.
합성 데이터 감독과 Self6D에서 영감을 받은 자기지도 학습으로 도메인 간 간극을 연결하며 학습한다.

실험 결과

연구 질문

RQ1단일 네트워크가 학습 중 보지 못한 클래스 수준 객체 범주에 대해 6D 포즈와 메트릭 형태를 추정할 수 있는가?
RQ2미분가능한 3D 정렬 손실을 통한 엔드투엔드 학습이 포즈 정확도와 형태 품질을 향상시키는가?
RQ3실제 라벨링되지 않은 RGB-D 데이터를 활용한 자기지도 학습이 클래스 수준의 6D 포즈 추정의 합성-실제 도메인 간 간극을 줄일 수 있는가?
RQ4클래스별 3D 형태 잠재를 학습하여 클래스 내 인스턴스 변 Variation에 일반화할 수 있는가?

주요 결과

새로운 CPS 프레임워크가 6D 포즈, 객체 스케일 및 클래스 특정 형태 잠재를 공동으로 예측하여 단일 RGB 이미지로부터 3D 형태 재구성을 가능하게 한다.
예측된 3D 공간에서의 정렬을 직접 최적화하는 미분가능한 3D 정렬 손실을 도입하여 포즈 정확도를 향상시킨다.
실제 라벨링되지 않은 RGB-D 데이터를 활용하는 자기지도 확장 CPS++가 합성-실제 간 간극을 줄이는 데 기여한다.
클래스별 AtlasNet 기반의 형태 공간이 메트릭 형태 추정을 가능하게 하고 학습된 형태 분포 내에 머물도록 규제할 수 있음을 보여준다.
클래스 수준의 6D 포즈 추정을 위한 자기지도 학습을 촉진하기 위해 3만 개가 넘는 실제 RGB-D 샘플을 수집해 공개한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.