QUICK REVIEW

[논문 리뷰] Where are the Masks: Instance Segmentation with Image-level Supervision

Issam Laradji, David Vázquez|arXiv (Cornell University)|2019. 07. 02.

Advanced Neural Network Applications참고 문헌 42인용 수 32

한 줄 요약

이 논문은 이미지 수준 레이블만을 사용하여 인스턴스 세그멘테이션을 수행하는 두 단계 프레임워크인 WISE를 제안한다. 여기서 피크 자극을 통해 활성화된 분류기가 가짜 마스크를 생성하고, 이를 바탕으로 완전히 지도 학습된 Mask R-CNN을 훈련시킨다. 이 방법은 약한 지도 학습 하에서 PASCAL VOC 2012에서 최신 기술 수준(SOTA) 성능을 달성하였으며, 경계 상자나 객체 수와 같은 더 강한 지도 신호를 사용한 기존 방법들보다도 뛰어난 성능을 보였다.

ABSTRACT

A major obstacle in instance segmentation is that existing methods often need many per-pixel labels in order to be effective. These labels require large human effort and for certain applications, such labels are not readily available. To address this limitation, we propose a novel framework that can effectively train with image-level labels, which are significantly cheaper to acquire. For instance, one can do an internet search for the term "car" and obtain many images where a car is present with minimal effort. Our framework consists of two stages: (1) train a classifier to generate pseudo masks for the objects of interest; (2) train a fully supervised Mask R-CNN on these pseudo masks. Our two main contribution are proposing a pipeline that is simple to implement and is amenable to different segmentation methods; and achieves new state-of-the-art results for this problem setup. Our results are based on evaluating our method on PASCAL VOC 2012, a standard dataset for weakly supervised methods, where we demonstrate major performance gains compared to existing methods with respect to mean average precision.

연구 동기 및 목표

인스턴스 세그멘테이션에서 픽셀 단위 레이블의 높은 레이블링 비용 문제를 해결하기 위해 더 저렴한 이미지 수준 레이블을 활용하고자 한다.
약한 지도 학습을 위한 확장 가능하고 단순하며 일반화 가능한 프레임워크를 개발하고자 한다.
이미지 수준 또는 더 흐린 레이블을 사용하는 기존 방법들을 넘어서 약한 지도 학습 인스턴스 세그멘테이션의 성능을 향상시키고자 한다.
완전히 지도 학습된 모델인 Mask R-CNN이 이미지 수준 레이블에서 유도된 노이즈가 많고 불완전한 가짜 마스크로도 효과적으로 훈련될 수 있는지 조사하고자 한다.

제안 방법

피크 자극 레이어를 사용하여 클래스 활성화 맵에서 활성화 피크를 식별함으로써 객체 인스턴스를 국소화한다.
검출된 피크 위치에서 객체 제안(예: MCG에서 유도)을 사용하여 근사적인 마스크 예측을 생성한다.
이러한 생성된 마스크는 완전히 지도 학습된 Mask R-CNN의 가짜 레이블로 사용된다.
Mask R-CNN은 가짜 마스크를 기반으로 엔드 투 엔드로 훈련되며, 노이즈가 많고 불완전한 지도 신호에 대한 강건성을 활용한다.
이 프레임워크는 모듈식이며, 밀도 기반 PRM 또는 RetinaMask와 같은 다양한 국소화 및 세그멘테이션 구성 요소와 호환된다.
주요 평가 지표로 mAP를 사용하여 PASCAL VOC 2012에서 방법을 평가한다.

실험 결과

연구 질문

RQ1이미지 수준 레이블에서 유도된 가짜 마스크를 사용하여 완전히 지도 학습된 인스턴스 세그멘테이션 모델인 Mask R-CNN을 효과적으로 훈련시킬 수 있는가?
RQ2약한 지도 학습 인스턴스 세그멘테이션 모델의 성능은 완전히 지도 학습 기반 모델 및 다른 약한 지도 학습 방법과 비교해 볼 때 어떻게 되는가?
RQ3노이즈가 많고 불완전한 가짜 마스크가 최종 세그멘테이션 품질에 미치는 영향은 어느 정도이며, Mask R-CNN의 아키텍처는 이를 어떻게 완화할 수 있는가?
RQ4이 프레임워크는 다양한 국소화 및 세그멘테이션 구성 요소에 대해 일반화되는가?

주요 결과

WISE는 PASCAL VOC 2012 검증 세트에서 평균 정밀도(mAP) 37.5를 달성하여, 이미지 수준 지도 학습만을 사용하는 기존 방법들보다 뚜렷이 뛰어난 성능을 보였다.
이 방법은 더 강한 지도 신호(객체 수)를 사용한 Cholakkal 등(2019)의 방법을 뛰어넘었으며, 두 단계 가짜 레이블 풀링 파이프라인의 효과성을 입증하였다.
가짜 마스크의 평균 mAP가 낮은 25.8임에도 불구하고, 최종 Mask R-CNN 예측의 mAP는 높은 37.5를 기록하여 노이즈 많은 레이블에서의 강력한 일반화 능력을 보였다.
작은 객체나 네 개 이상의 객체가 포함된 이미지에서는 성능이 열악한 편이었으며, 이는 국소화 및 제안 품질의 한계를 시사한다.
제거 분석 결과, WISE와 완전히 지도 학습된 Mask R-CNN 간의 성능 격차가 가장 두드러진 영역은 작은 객체와 객체 수가 많은 이미지에서였다.
정성적 결과에서는 가짜 마스크 품질이 낮더라도 다양한 카테고리에서 신뢰할 수 있고 정확한 인스턴스 마스크를 생성하는 것으로 나타났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.