Skip to main content
QUICK REVIEW

[논문 리뷰] Where are the Masks: Instance Segmentation with Image-level Supervision

Issam Laradji, David Vázquez|arXiv (Cornell University)|2019. 07. 02.
Advanced Neural Network Applications참고 문헌 42인용 수 32
한 줄 요약

이 논문은 이미지 수준 레이블만을 사용하여 인스턴스 세그멘테이션을 수행하는 두 단계 프레임워크인 WISE를 제안한다. 여기서 피크 자극을 통해 활성화된 분류기가 가짜 마스크를 생성하고, 이를 바탕으로 완전히 지도 학습된 Mask R-CNN을 훈련시킨다. 이 방법은 약한 지도 학습 하에서 PASCAL VOC 2012에서 최신 기술 수준(SOTA) 성능을 달성하였으며, 경계 상자나 객체 수와 같은 더 강한 지도 신호를 사용한 기존 방법들보다도 뛰어난 성능을 보였다.

ABSTRACT

A major obstacle in instance segmentation is that existing methods often need many per-pixel labels in order to be effective. These labels require large human effort and for certain applications, such labels are not readily available. To address this limitation, we propose a novel framework that can effectively train with image-level labels, which are significantly cheaper to acquire. For instance, one can do an internet search for the term "car" and obtain many images where a car is present with minimal effort. Our framework consists of two stages: (1) train a classifier to generate pseudo masks for the objects of interest; (2) train a fully supervised Mask R-CNN on these pseudo masks. Our two main contribution are proposing a pipeline that is simple to implement and is amenable to different segmentation methods; and achieves new state-of-the-art results for this problem setup. Our results are based on evaluating our method on PASCAL VOC 2012, a standard dataset for weakly supervised methods, where we demonstrate major performance gains compared to existing methods with respect to mean average precision.

연구 동기 및 목표

  • 인스턴스 세그멘테이션에서 픽셀 단위 레이블의 높은 레이블링 비용 문제를 해결하기 위해 더 저렴한 이미지 수준 레이블을 활용하고자 한다.
  • 약한 지도 학습을 위한 확장 가능하고 단순하며 일반화 가능한 프레임워크를 개발하고자 한다.
  • 이미지 수준 또는 더 흐린 레이블을 사용하는 기존 방법들을 넘어서 약한 지도 학습 인스턴스 세그멘테이션의 성능을 향상시키고자 한다.
  • 완전히 지도 학습된 모델인 Mask R-CNN이 이미지 수준 레이블에서 유도된 노이즈가 많고 불완전한 가짜 마스크로도 효과적으로 훈련될 수 있는지 조사하고자 한다.

제안 방법

  • 피크 자극 레이어를 사용하여 클래스 활성화 맵에서 활성화 피크를 식별함으로써 객체 인스턴스를 국소화한다.
  • 검출된 피크 위치에서 객체 제안(예: MCG에서 유도)을 사용하여 근사적인 마스크 예측을 생성한다.
  • 이러한 생성된 마스크는 완전히 지도 학습된 Mask R-CNN의 가짜 레이블로 사용된다.
  • Mask R-CNN은 가짜 마스크를 기반으로 엔드 투 엔드로 훈련되며, 노이즈가 많고 불완전한 지도 신호에 대한 강건성을 활용한다.
  • 이 프레임워크는 모듈식이며, 밀도 기반 PRM 또는 RetinaMask와 같은 다양한 국소화 및 세그멘테이션 구성 요소와 호환된다.
  • 주요 평가 지표로 mAP를 사용하여 PASCAL VOC 2012에서 방법을 평가한다.

실험 결과

연구 질문

  • RQ1이미지 수준 레이블에서 유도된 가짜 마스크를 사용하여 완전히 지도 학습된 인스턴스 세그멘테이션 모델인 Mask R-CNN을 효과적으로 훈련시킬 수 있는가?
  • RQ2약한 지도 학습 인스턴스 세그멘테이션 모델의 성능은 완전히 지도 학습 기반 모델 및 다른 약한 지도 학습 방법과 비교해 볼 때 어떻게 되는가?
  • RQ3노이즈가 많고 불완전한 가짜 마스크가 최종 세그멘테이션 품질에 미치는 영향은 어느 정도이며, Mask R-CNN의 아키텍처는 이를 어떻게 완화할 수 있는가?
  • RQ4이 프레임워크는 다양한 국소화 및 세그멘테이션 구성 요소에 대해 일반화되는가?

주요 결과

  • WISE는 PASCAL VOC 2012 검증 세트에서 평균 정밀도(mAP) 37.5를 달성하여, 이미지 수준 지도 학습만을 사용하는 기존 방법들보다 뚜렷이 뛰어난 성능을 보였다.
  • 이 방법은 더 강한 지도 신호(객체 수)를 사용한 Cholakkal 등(2019)의 방법을 뛰어넘었으며, 두 단계 가짜 레이블 풀링 파이프라인의 효과성을 입증하였다.
  • 가짜 마스크의 평균 mAP가 낮은 25.8임에도 불구하고, 최종 Mask R-CNN 예측의 mAP는 높은 37.5를 기록하여 노이즈 많은 레이블에서의 강력한 일반화 능력을 보였다.
  • 작은 객체나 네 개 이상의 객체가 포함된 이미지에서는 성능이 열악한 편이었으며, 이는 국소화 및 제안 품질의 한계를 시사한다.
  • 제거 분석 결과, WISE와 완전히 지도 학습된 Mask R-CNN 간의 성능 격차가 가장 두드러진 영역은 작은 객체와 객체 수가 많은 이미지에서였다.
  • 정성적 결과에서는 가짜 마스크 품질이 낮더라도 다양한 카테고리에서 신뢰할 수 있고 정확한 인스턴스 마스크를 생성하는 것으로 나타났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.