Skip to main content
QUICK REVIEW

[논문 리뷰] Built-in Foreground/Background Prior for Weakly-Supervised Semantic Segmentation

Fatemehsadat Saleh, Mohammad Sadegh Ali Akbarian|arXiv (Cornell University)|2016. 09. 02.
Advanced Neural Network Applications참고 문헌 37인용 수 29
한 줄 요약

이 논문은 외부 객체성 모델에 의존하지 않고, 사전 훈련된 CNN 활성화에서 직접 전경/배경 마스크를 추출하는 약한 지도 학습 기반 세분화 방법을 제안한다. 특히 VGG-16의 고수준 합성곱 특징을 활용한다. 밀도 있는 CRF를 적용하여 이러한 활성화를 스무딩함으로써 정확한 국소화 사전 지식을 생성하며, PASCAL VOC 2012 및 MIRFLICKR-1M에서 최신 태그 전용 접근 방식을 크게 능가한다. 마스크 선택을 통한 최소한의 사용자 상호작용으로 성능 향상이 가능하다.

ABSTRACT

Pixel-level annotations are expensive and time consuming to obtain. Hence, weak supervision using only image tags could have a significant impact in semantic segmentation. Recently, CNN-based methods have proposed to fine-tune pre-trained networks using image tags. Without additional information, this leads to poor localization accuracy. This problem, however, was alleviated by making use of objectness priors to generate foreground/background masks. Unfortunately these priors either require training pixel-level annotations/bounding boxes, or still yield inaccurate object boundaries. Here, we propose a novel method to extract markedly more accurate masks from the pre-trained network itself, forgoing external objectness modules. This is accomplished using the activations of the higher-level convolutional layers, smoothed by a dense CRF. We demonstrate that our method, based on these masks and a weakly-supervised loss, outperforms the state-of-the-art tag-based weakly-supervised semantic segmentation techniques. Furthermore, we introduce a new form of inexpensive weak supervision yielding an additional accuracy boost.

연구 동기 및 목표

  • 이미지 수준의 태그만으로 약한 지도 학습 기반 세분화에 도전하는 문제를 해결하기 위해, 기존 접근 방식에서 낮은 국소화 정확도를 개선하고자 한다.
  • 추가 애너테이션을 필요로 하거나 오류 원인이 될 수 있는 외부 객체성 모델에 의존하지 않도록 하기 위해, 이를 제거하고자 한다.
  • 사전 훈련된 CNN에서 유도된 내재 특징을 활용하여, 약한 지도 학습 훈련을 위한 정확한 전경/배경 마스크를 생성하고자 한다.
  • 선택된 마스크 후보들 중 가장 좋은 마스크를 고르는 경량이고 사용자 친화적인 추가 지도 학습 방식을 도입하여, 최소한의 애너테이션 비용으로 성능 향상을 이끌어내고자 한다.

제안 방법

  • 사전 훈련된 네트워크의 고수준 합성곱 레이어(예: VGG-16의 conv5_3)에서 활성화를 추출하여 전경/배경 마스크를 생성한다.
  • 완전 연결된 조건부 랜덤 필드(CRF)를 사용하여 원본 활성화 맵을 스무딩하여 공간적으로 일관된 마스크를 얻는다.
  • 생성된 마스크를 약한 지도 학습 훈련 목표에서 내장된 전경/배경 사전 지식으로 사용한다.
  • 추가적인 픽셀 수준의 애너테이션을 요구하지 않고, 마스크 생성과 세분화 훈련을 종단 간(end-to-end) 프레임워크로 통합한다.
  • 사용자가 자동으로 생성된 후보 마스크들 중 가장 좋은 마스크를 선택하는 CheckMask 절차를 제안한다. 이는 최소한의 지도 학습을 제공한다.
  • 생성된 마스크와 이미지 태그를 기반으로 예측을 일치시키는 약한 지도 학습 손실을 사용하여 세분화 네트워크를 훈련한다.

실험 결과

연구 질문

  • RQ1외부 객체성 모델 없이 사전 훈련된 CNN 특징에서 신뢰할 수 있는 전경/배경 마스크를 추출할 수 있는가?
  • RQ2내재된 네트워크 활성화를 국소화 사전 지식으로 사용할 경우, 이미지 태그만으로도 약한 지도 학습 기반 세분화 정확도가 향상되는가?
  • RQ3몇 개의 후보 마스크 중에서 가장 좋은 마스크를 선택하는 최소한의 사용자 상호작용 단계가 성능 향상에 크게 기여할 수 있는가? 동시에 실용적인가?
  • RQ4더 강력한 지도 학습 방식(예: 바운딩 박스 또는 객체 크기 정보)을 사용하는 최신 기술과 비교해 볼 때, 제안된 방법은 어떻게 성능을 내는가?

주요 결과

  • 제안된 방법은 이미지 태그와 CheckMask 절차만을 사용하여 MIRFLICKR-1M의 일부 데이터셋을 훈련시킬 때, PASCAL VOC 2012 검증 세트에서 46.3%의 평균 교차율(mIOU)을 달성하며, CCNN 기준선(태그와 CRF 사용 시 32.2% mIOU)을 크게 능가한다.
  • 동일한 플리커 데이터셋에서 태그만으로 43.9% mIOU를 기록하고, CheckMask를 적용한 경우 46.3% mIOU를 달성하여, 최소한의 사용자 입력으로 2.4%p의 절대적 성능 향상을 입증하였다.
  • 최신 태그 전용 방법을 능가하며, 일부 강력한 지도 학습 방식(예: 객체 크기 정보)을 사용하는 방법조차도 능가한다. 예를 들어, CCNN에 크기 정보를 추가한 경우 32.2% mIOU를 기록한 반면, 본 연구의 CheckMask 설정에서는 46.3% mIOU를 달성하였다.
  • 희귀 클래스에 대해서도 우수한 성능를 보였다. 예를 들어 '테이블'(31.2% mIOU)과 '소파'(16.8% mIOU)와 같은 클래스에서 CCNN는 완전히 실패하는 반면, 본 모델은 잘 작동하여 클래스 불균형에 대한 강건성을 보였다.
  • CheckMask 절차는 평균적으로 이미지당 약 2.5초가 소요되어 실세계 적용에 매우 실용적이다.
  • 정성적 결과에서는 복잡한 장면과 세밀한 물체 영역에서 국소화 정확도와 경계 일관성이 향상된 것으로 나타났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.