QUICK REVIEW

[논문 리뷰] Learning RGB-D Feature Embeddings for Unseen Object Instance Segmentation

Xiang Yu, Christopher Xie|arXiv (Cornell University)|2020. 07. 30.

Advanced Image and Video Retrieval Techniques참고 문헌 32인용 수 45

한 줄 요약

본 논문은 합성 데이터로부터 RGB-D 특징 임베딩을 학습하고, metric learning 손실을 사용하며, 보이스-미스-피셔 평균 시프트로 임베딩을 클러스터링하여 보이지 않는 객체 인스턴스 세분화를 수행하고, 2단계 줌인 정제로 성능을 향상시킨다.

ABSTRACT

Segmenting unseen objects in cluttered scenes is an important skill that robots need to acquire in order to perform tasks in new environments. In this work, we propose a new method for unseen object instance segmentation by learning RGB-D feature embeddings from synthetic data. A metric learning loss function is utilized to learn to produce pixel-wise feature embeddings such that pixels from the same object are close to each other and pixels from different objects are separated in the embedding space. With the learned feature embeddings, a mean shift clustering algorithm can be applied to discover and segment unseen objects. We further improve the segmentation accuracy with a new two-stage clustering algorithm. Our method demonstrates that non-photorealistic synthetic RGB and depth images can be used to learn feature embeddings that transfer well to real-world images for unseen object instance segmentation.

연구 동기 및 목표

혼잡한 탁상 위 장면에서 보이지 않는 객체로의 객체 세분화를 일반化
깊이와 함께 비사진실감 렌더링이 아닌 RGB 데이터를 사용하여 강 robust 임베딩 학습
임베딩 공간에서 객체별로 픽셀을 클러스터링하는 metric learning 손실 제안
세그먼트 경계 개선을 위한 두 단계 클러스터링(줌인 정제) 적용
실제 RGB-D 데이터셋에서 UOIS에 대한 최첨단 성능 입증

제안 방법

Dense pixel 임베딩을 생성하기 위해 완전 연결 합성곱망으로 RGB-D 이미지 처리
임베딩 단위 길이에서 코사인 거리를 사용하여 내부 객체 간 거리를 최소화하고 외부 객체 간 거리를 최대화하는 metric learning 손실로 학습
임베딩 공간에서 구면(von Mises-Fisher) 평균 시프트 클러스터링으로 객체 세그먼트를 발견
RGB와 깊이의 융합을 세 가지 전략으로 수행(초기 융합, 추가 연산으로의 합, 추가 연산으로의 연결)하고 영향 평가
두 단계 클러스터링 도입: (i) 이미지의 모든 픽셀을 클러스터링, (ii) RoI를 확대하여 RoI 수준의 합성 RoI로 학습된 클러스터링 네트워크로 정제
테스트 시 평균 시프트 클러스터링으로 세그먼트를 얻고 경계를 선명하게 하고 근접한 객체를 구분하기 위한 두 단계 정제를 적용

실험 결과

연구 질문

RQ1합성 데이터의 비사진실감 RGB 데이터로 학습한 RGB-D 특징 임베딩이 보이지 않는 객체 세분화를 위해 실제 RGB-D 영상으로 전이될 수 있는가?
RQ2UOIS에 가장 일반화되는 RGB-D 융합 전략은 무엇인가?
RQ3두 단계(줌인) 클러스터링이 특히 경계 정확도 및 근접 객체 구분에서 세분화 품질을 향상시키는가?
RQ4제안된 방법이 OCID 및 OSD 데이터세트에서 최첨단의 UOIS 방법과 비교하여 어떤 차이가 있는가?

주요 결과

깊이가 모든 방법에서 성능을 크게 향상시키며, 제안 방법은 Late Fusion Addition을 통해 깊이와 함께 RGB 정보를 융합할 때 이점을 얻는다.
Unseen Clustering Network (UCN)가 OCID 및 OSD 데이터세트에서 Overlap F-measure 및 Boundary F-measure에서 최첨단 성능을 달성한다.
두 단계의 줌인 정제는 경계 지표와 F-measure ≥ 0.75인 객체의 비율을 입력 모드에 관계없이 일관되게 향상시킨다.
제안된 metric learning 접근법과 함께 RGB-D Late Fusion Addition 및 줌인 정제는 동일한 합성 데이터로 학습된 Mask R-CNN 베이스라인보다 우수하다.
하향식 임베딩 공간 클러스터링 접근으로 인해 재현율이 높아지며 정밀도도 경쟁력 있게 유지된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.