QUICK REVIEW

[논문 리뷰] Exploiting saliency for object segmentation from image level labels

Seong Joon Oh, Rodrigo Benenson|arXiv (Cornell University)|2017. 01. 28.

Visual Attention and Saliency Detection참고 문헌 50인용 수 31

한 줄 요약

이 논문은 이미지 수준 레이블과 클래스 무관한 시각적 강조 지도를 결합하여 최신 기술 수준의 성능을 달성하는 새로운 약한 지도 학습 세분화 방법을 제안한다. 이미지 분류기에서 유도된 객체 시드와 시각적 강조를 활용하여 범위 예측을 수행함으로써, Pascal VOC 2012에서 완전 지도 학습 성능의 80%에 도달하며, 이는 이전의 이미지 수준 지도 학습만을 사용한 방법들보다 뚜렷이 향상된 성능이다.

ABSTRACT

There have been remarkable improvements in the semantic labelling task in the recent years. However, the state of the art methods rely on large-scale pixel-level annotations. This paper studies the problem of training a pixel-wise semantic labeller network from image-level annotations of the present object classes. Recently, it has been shown that high quality seeds indicating discriminative object regions can be obtained from image-level labels. Without additional information, obtaining the full extent of the object is an inherently ill-posed problem due to co-occurrences. We propose using a saliency model as additional information and hereby exploit prior knowledge on the object extent and image statistics. We show how to combine both information sources in order to recover 80% of the fully supervised performance - which is the new state of the art in weakly supervised training for pixel-wise semantic labelling. The code is available at https://goo.gl/KygSeb.

연구 동기 및 목표

픽셀 수준의 애너테이션 없이 정확한 픽셀 단위 세분화 모델을 훈련하는 데 도전하는 것.
구분 가능한 객체 시드를 초월해 객체 범위 예측을 위한 시각적 강조를 사전 정보로 통합함으로써 약한 지도 학습을 향상시키는 것.
비용이 많이 드는 픽셀 애너테이션에 의존도를 최소화하면서 이미지 수준 지도 학습 하에서 최신 기술 수준의 성능을 달성하는 것.
객체 시드와 시각적 강조의 상호작용이 딥 네트워크 훈련을 어떻게 이끄는지 분석하는 것.
시각적 강조가 노이즈가 있을지라도 객체 경계 예측에 강력한 인덕티브 바이어스를 제공할 수 있음을 보여주는 것.

제안 방법

이 방법은 훈련된 이미지 분류기를 사용하여 이미지 수준 레이블을 기반으로 고신뢰도 객체 시드—객체 클래스에 해당하는 구분 가능한 영역—를 생성한다.
경계 상자 애너테이션으로 훈련된 클래스 무관 시각적 강조 모델을 활용하여 객체 범위를 예측하고 배경 영역을 억제한다.
시드와 시각적 강조 지도를 의사 정답 지도로 통합하여 세분화 네트워크를 훈련하기 위한 가이드 세그멘테이션 아키텍처를 도입한다.
가이드 레이블러는 시드 신뢰도와 시각적 강조 지도를 융합하여 의사 레이블을 생성하며, 전경/배경 정밀도와 재현율을 평가 지표로 사용한다.
최종 세분화 예측을 정교화하기 위해 CRF 후처리 단계를 적용한다.
전체 파ipelinе는 훈련 중에 어떤 픽셀 수준 애너테이션도 사용하지 않으며, 이미지 수준 레이블과 시각적 강조에만 의존한다.

실험 결과

연구 질문

RQ1이미지 수준 레이블만 제공될 경우, 시각적 강조 지도가 전체 객체 범위 복원을 효과적으로 이끌 수 있는가?
RQ2객체 시드와 시각적 강조를 결합함으로써, 시드만 사용할 경우에 비해 세분화 성능이 얼마나 향상되는가?
RQ3시각적 강조 모델의 품질이 최종 세분화 정확도에 얼마나 영향을 미치는가?
RQ4이미지 수준 레이블과 시각적 강조만을 사용하여 약한 지도 학습 모델이 완전 지도 학습 기준선에 가까운 성능을 달성할 수 있는가?
RQ5약한 지도 학습 세분화에서 시각적 강조가 다른 사전 정보(예: 크기, 인간 보정)에 비해 차지하는 상대적 기여는 얼마인가?

주요 결과

객체 시드와 시각적 강조를 모두 사용하는 제안된 방법($\mathcal{G}_2$)은 Pascal VOC 2012 테스트 세트에서 평균 교차율(mIoU) 56.7을 달성하여 완전 지도 학습 기반 DeepLabv1 성능의 80.6%에 도달한다.
지식 기반 시각적 강조 지도를 사용한 오라클 케이스는 mIoU 56.9를 기록하여, 향후 더 나은 시각적 강조 모델 개선으로 추가 향상이 가능함을 시사한다.
시드 없이도 시각적 강조만을 사용하는 가이드($\mathcal{G}_0$)는 mIoU 48.8을 달성하여, 시각적 강조 자체가 강력한 지도 신호임을 입증한다.
이전의 최신 기술 수준 방법들인 MIL-FCN, CCNN, WSSL, SEC와 비교해도 이미지 수준 레이블만을 사용함으로써 뚜렷한 성능 향상을 보였다.
시각적 강조의 포함으로 시드 전용 기반($\mathcal{G}_0$ 대비 $\mathcal{G}_2$)에서 5.1%p의 절대적 성능 향상이 이루어져, 시각적 강조가 범위 예측에서 핵심적인 역할을 함을 확인한다.
이 방법은 인간의 개입 없이 이미지 수준 레이블만을 사용하는 모든 방법들 중에서 보고된 바 가장 뛰어난 성능을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.