Skip to main content
QUICK REVIEW

[논문 리뷰] One-Shot Instance Segmentation

Claudio Michaelis, Ivan Ustyuzhaninov|arXiv (Cornell University)|2018. 11. 28.
Advanced Neural Network Applications참고 문헌 99인용 수 68
한 줄 요약

이 논문은 Siamese Mask R-CNN을 도입하여 단일 참조 이미지를 테스트 장면과 매칭해 재학습 없이도 새로운 범주를 탐지 및 분할할 수 있게 한다. MS-COCO에서 기준선을 설정하고, 세분화가 참조 범주로의 탐지를 목표로 할 때의 도전 과제를 분석하는 반면 세분화는 더 신뢰할 수 있다.

ABSTRACT

We tackle the problem of one-shot instance segmentation: Given an example image of a novel, previously unknown object category, find and segment all objects of this category within a complex scene. To address this challenging new task, we propose Siamese Mask R-CNN. It extends Mask R-CNN by a Siamese backbone encoding both reference image and scene, allowing it to target detection and segmentation towards the reference category. We demonstrate empirical results on MS Coco highlighting challenges of the one-shot setting: while transferring knowledge about instance segmentation to novel object categories works very well, targeting the detection network towards the reference category appears to be more difficult. Our work provides a first strong baseline for one-shot instance segmentation and will hopefully inspire further research into more powerful and flexible scene analysis algorithms. Code is available at: https://github.com/bethgelab/siamese-mask-rcnn

연구 동기 및 목표

  • 원샷 인스턴스 세분화 작업을 정의하고 실제 세계의 장면 이해를 위한 그것의 실용적 의의를 동기 부여한다.
  • 단일 참조 이미지만으로 새로운 객체 범주를 감지하고 분할할 수 있는 모델을 개발한다.
  • MS-COCO에서 학습 유사 범주와 신규 범주에 걸쳐 접근법을 평가하여 강력한 기준선을 확립한다.

제안 방법

  • 참조 이미지와 쿼리 이미지를 공유 특성 공간에 인코딩하기 위해 Siamese 백본을 Mask R-CNN과 통합한다.
  • 참조 특징을 평균하여 유사도 기반 매칭을 계산하고, 장면 특징과의 절댓값 차이를 취한 후 이를 장면 특징에 연결(concatenate)하고 1x1 합성을 적용하여 작업 관련 특징을 생성한다.
  • Mask R-CNN의 80-way 분류를 이진 매치/비매치 의사 결정으로 대체하고 단일 클래스 무관 바운딩 박스 및 마스크 헤드를 사용한다.
  • MS-COCO에서 에피소드 방식으로 모델을 훈련하고, 분리된 ImageNet 부분집합에서 백본을 프리트레이닝하며, 네 가지 학습/테스트 분할에 걸쳐 확률적 reference 선택으로 평가한다.

실험 결과

연구 질문

  • RQ1복합 장면에서 새로운 범주에 대해 metric-learning 기반 접근이 원샷 탐지 및 분할을 가능하게 할 수 있는가?
  • RQ2Mask R-CNN의 시마이얼 확장이 보지 못한 범주로의 전달은 학습 범주에 비해 얼마나 잘 되는가?
  • RQ3원샷 인스턴스 세분화에서 탐지를 참조 범주로 방향성 있게 만드는 데 주요 병목은 무엇인가?
  • RQ4참조의 수(샷)가 신규 범주에 대한 성능에 어떤 영향을 미치는가?
  • RQ5장면의 혼잡도가 원샷 인스턴스 세분화 성능에 미치는 영향은 무엇인가?

주요 결과

  • 단일 참조를 이용한 원샷 객체 탐지는 학습 범주에서 mAP50이 37.6%, mAP50으로 인스턴스 세분화가 34.9%인 기준을 달성한다; 다섯 개의 참조를 사용하면 각각 41.3% 및 38.4%로 향상된다.
  • 학습 중에 보지 못한 신규 범주에 대해 원샷 mAP50은 탐지 16.3%, 세분화 14.5%이다; 다섯 샷은 각각 18.5%와 16.7%로 향상된다.
  • 모델은 경계 박스와 마스크 품질이 강하지만 올바른 참조 범주를 일관되게 타깃하는 데 어려움을 보이며 학습 범주에 과적합되는 경향이 있다.
  • 혼잡한 장면에서 다수의 물체가 있을 때 성능이 떨어지며 붐비는 환경에서의 강건성 필요성이 강조된다.
  • 이 접근법은 원샷 인스턴스 세분화에 대한 탄탄한 기준선을 제공하고 재학습 없이 보지 못한 범주로 일반화하는 데 기여한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.