QUICK REVIEW

[논문 리뷰] The Best of Both Modes: Separately Leveraging RGB and Depth for Unseen Object Instance Segmentation

Christopher Xie, Xiang Yu|arXiv (Cornell University)|2019. 07. 30.

Advanced Neural Network Applications참고 문헌 38인용 수 31

한 줄 요약

이 논문은 실세계 데이터셋에서 도메인 적응 없이도 최신 기술 수준 성능을 달성함에도 불구하고, 비포토 realistic RGB 데이터를 사용해 훈련된 비포토 realistic RGB와 깊이 데이터를 별도로 활용하여 미사전 학습된 객체 인스턴스 세분화를 위한 이단계 프레임워크를 제안한다. 깊이만으로 생성된 마스크를 거친 시드로 사용하고, RGB를 이용해 이를 보완함으로써 성능을 향상시킨다. 특히, OCID 및 OSD 벤치마크에서 Mask R-CNN와 같은 기존 방법들을 능가한다.

ABSTRACT

In order to function in unstructured environments, robots need the ability to recognize unseen novel objects. We take a step in this direction by tackling the problem of segmenting unseen object instances in tabletop environments. However, the type of large-scale real-world dataset required for this task typically does not exist for most robotic settings, which motivates the use of synthetic data. We propose a novel method that separately leverages synthetic RGB and synthetic depth for unseen object instance segmentation. Our method is comprised of two stages where the first stage operates only on depth to produce rough initial masks, and the second stage refines these masks with RGB. Surprisingly, our framework is able to learn from synthetic RGB-D data where the RGB is non-photorealistic. To train our method, we introduce a large-scale synthetic dataset of random objects on tabletops. We show that our method, trained on this dataset, can produce sharp and accurate masks, outperforming state-of-the-art methods on unseen object instance segmentation. We also show that our method can segment unseen objects for robot grasping. Code, models and video can be found at https://rse-lab.cs.washington.edu/projects/unseen-object-instance-segmentation/.

연구 동기 및 목표

대규모 실세계 RGB-D 데이터셋이 확보되지 않은 비정형 테이블탑 환경에서 미사전 학습된 객체 인스턴스 세분화 문제를 해결하기 위해.
특히 RGB가 비포토 realistic일 경우, 합성 데이터와 실세계 RGB-D 센서 간의 도메인 갭을 극복하기 위해.
깊이 데이터로 강력한 초깃마스크를 생성하고, RGB로 세밀한 보정을 통해 정확도와 선명도를 향상시키기 위해.
로봇 인식 작업(예: 혼잡한 환경에서 알 수 없는 물체를 抓는 것)에 효과적인 시뮬레이션에서 실세계로의 전이를 가능하게 하기 위해.
비포토 realistic 합성 RGB 데이터로 훈련된 보정 네트워크가 도메인 이동에 더 강건한지, 종합적인 RGB 기반 훈련보다 더 나은 성능을 내는지 확인하기 위해.

제안 방법

이단계 프레임워크: 첫 번째로, 깊이 시드 네트워크(DSN)가 합성 깊이 이미지만을 사용하여 거친 인스턴스 마스크를 생성한다.
두 번째로, 영역 보정 네트워크(RRN)가 DSN이 생성한 각 마스크와 해당 RGB 이미지를 입력으로 받아 경계를 보정한다.
RRN은 도메인 랜덤라이제이션 또는 적응 기법 없이, 오직 비포토 realistic 합성 RGB 데이터로만 훈련된다.
DSN은 실세계 깊이 노이즈와 가림 현상에 일반화하기 위해 합성 깊이 데이터로 훈련된다.
전체 시스템은 물리 기반 시뮬레이션과 비포토 realistic 렌더링을 사용해 테이블탑에 랜덤 ShapeNet 객체로 구성된 대규모 합성 데이터셋에서 훈련된다.

실험 결과

연구 질문

RQ1깊이와 RGB를 별도로 처리하는 이단계 방법이, RGB-D를 함께 처리하는 방법보다 더 나은 일반화 성능을 보일 수 있는가?
RQ2비포토 realistic 합성 RGB로 훈련된 보정 네트워크가 도메인 적응 없이도 실세계 RGB에 효과적으로 일반화될 수 있는가?
RQ3초기 마스크 생성에 깊이만을 사용하는 것이, 실세계 환경에서 센서 노이즈와 가림 현상에 더 강건한가?
RQ4제안된 방법이 Mask R-CNN와 같은 최신 기술 수준의 모델보다 미사전 학습된 객체 인스턴스 세분화 벤치마크에서 더 나은 성능을 낼 수 있는가?
RQ5RGB와 깊이 처리를 분리함으로써 시뮬레이션에서 실세계로의 전이 시 도메인 이동 문제를 어느 정도 줄일 수 있는가?

주요 결과

제안된 방법은 OCID 및 OSD 벤치마크에서 모두 최신 기술 수준의 방법들, 특히 Mask R-CNN를 능가한다.
영역 보정 네트워크(RRN)는 비포토 realistic 합성 RGB로 훈련되었음에도 불구하고, 실세계 RGB 데이터로 훈련된 모델과 유사한 성능을 달성한다.
실세계 혼잡한 환경에서도 마스크가 선명하고 정확하며, 기준 방법 대비 과세분화나 과소세분화가 최소한으로 발생한다.
DSN은 깊이 센서 노이즈에 강건한 초기 마스크를 생성하고, RRN은 RGB 무늬를 활용해 경계 정확도를 효과적으로 보정한다.
로봇 그립 실험에서, 3회의 시도 중 모든 물체를 성공적으로 세분화하고 그립었으며, 실패 사례가 있었음에도 불구하고 평균 1~2회의 추가 그립 시도만 필요했다.
실패 사례는 주로 DSN의 오진 양성 또는 RRN이 유사한 색상의 물체를 융합하는 데 기인했으며, 핵심 프레임워크의 한계 때문이 아니었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.