QUICK REVIEW

[논문 리뷰] Built-in Foreground/Background Prior for Weakly-Supervised Semantic Segmentation

Fatemehsadat Saleh, Mohammad Sadegh Ali Akbarian|arXiv (Cornell University)|2016. 09. 02.

Advanced Neural Network Applications참고 문헌 37인용 수 29

한 줄 요약

이 논문은 외부 객체성 모델에 의존하지 않고, 사전 훈련된 CNN 활성화에서 직접 전경/배경 마스크를 추출하는 약한 지도 학습 기반 세분화 방법을 제안한다. 특히 VGG-16의 고수준 합성곱 특징을 활용한다. 밀도 있는 CRF를 적용하여 이러한 활성화를 스무딩함으로써 정확한 국소화 사전 지식을 생성하며, PASCAL VOC 2012 및 MIRFLICKR-1M에서 최신 태그 전용 접근 방식을 크게 능가한다. 마스크 선택을 통한 최소한의 사용자 상호작용으로 성능 향상이 가능하다.

ABSTRACT

Pixel-level annotations are expensive and time consuming to obtain. Hence, weak supervision using only image tags could have a significant impact in semantic segmentation. Recently, CNN-based methods have proposed to fine-tune pre-trained networks using image tags. Without additional information, this leads to poor localization accuracy. This problem, however, was alleviated by making use of objectness priors to generate foreground/background masks. Unfortunately these priors either require training pixel-level annotations/bounding boxes, or still yield inaccurate object boundaries. Here, we propose a novel method to extract markedly more accurate masks from the pre-trained network itself, forgoing external objectness modules. This is accomplished using the activations of the higher-level convolutional layers, smoothed by a dense CRF. We demonstrate that our method, based on these masks and a weakly-supervised loss, outperforms the state-of-the-art tag-based weakly-supervised semantic segmentation techniques. Furthermore, we introduce a new form of inexpensive weak supervision yielding an additional accuracy boost.

연구 동기 및 목표

이미지 수준의 태그만으로 약한 지도 학습 기반 세분화에 도전하는 문제를 해결하기 위해, 기존 접근 방식에서 낮은 국소화 정확도를 개선하고자 한다.
추가 애너테이션을 필요로 하거나 오류 원인이 될 수 있는 외부 객체성 모델에 의존하지 않도록 하기 위해, 이를 제거하고자 한다.
사전 훈련된 CNN에서 유도된 내재 특징을 활용하여, 약한 지도 학습 훈련을 위한 정확한 전경/배경 마스크를 생성하고자 한다.
선택된 마스크 후보들 중 가장 좋은 마스크를 고르는 경량이고 사용자 친화적인 추가 지도 학습 방식을 도입하여, 최소한의 애너테이션 비용으로 성능 향상을 이끌어내고자 한다.

제안 방법

사전 훈련된 네트워크의 고수준 합성곱 레이어(예: VGG-16의 conv5_3)에서 활성화를 추출하여 전경/배경 마스크를 생성한다.
완전 연결된 조건부 랜덤 필드(CRF)를 사용하여 원본 활성화 맵을 스무딩하여 공간적으로 일관된 마스크를 얻는다.
생성된 마스크를 약한 지도 학습 훈련 목표에서 내장된 전경/배경 사전 지식으로 사용한다.
추가적인 픽셀 수준의 애너테이션을 요구하지 않고, 마스크 생성과 세분화 훈련을 종단 간(end-to-end) 프레임워크로 통합한다.
사용자가 자동으로 생성된 후보 마스크들 중 가장 좋은 마스크를 선택하는 CheckMask 절차를 제안한다. 이는 최소한의 지도 학습을 제공한다.
생성된 마스크와 이미지 태그를 기반으로 예측을 일치시키는 약한 지도 학습 손실을 사용하여 세분화 네트워크를 훈련한다.

실험 결과

연구 질문

RQ1외부 객체성 모델 없이 사전 훈련된 CNN 특징에서 신뢰할 수 있는 전경/배경 마스크를 추출할 수 있는가?
RQ2내재된 네트워크 활성화를 국소화 사전 지식으로 사용할 경우, 이미지 태그만으로도 약한 지도 학습 기반 세분화 정확도가 향상되는가?
RQ3몇 개의 후보 마스크 중에서 가장 좋은 마스크를 선택하는 최소한의 사용자 상호작용 단계가 성능 향상에 크게 기여할 수 있는가? 동시에 실용적인가?
RQ4더 강력한 지도 학습 방식(예: 바운딩 박스 또는 객체 크기 정보)을 사용하는 최신 기술과 비교해 볼 때, 제안된 방법은 어떻게 성능을 내는가?

주요 결과

제안된 방법은 이미지 태그와 CheckMask 절차만을 사용하여 MIRFLICKR-1M의 일부 데이터셋을 훈련시킬 때, PASCAL VOC 2012 검증 세트에서 46.3%의 평균 교차율(mIOU)을 달성하며, CCNN 기준선(태그와 CRF 사용 시 32.2% mIOU)을 크게 능가한다.
동일한 플리커 데이터셋에서 태그만으로 43.9% mIOU를 기록하고, CheckMask를 적용한 경우 46.3% mIOU를 달성하여, 최소한의 사용자 입력으로 2.4%p의 절대적 성능 향상을 입증하였다.
최신 태그 전용 방법을 능가하며, 일부 강력한 지도 학습 방식(예: 객체 크기 정보)을 사용하는 방법조차도 능가한다. 예를 들어, CCNN에 크기 정보를 추가한 경우 32.2% mIOU를 기록한 반면, 본 연구의 CheckMask 설정에서는 46.3% mIOU를 달성하였다.
희귀 클래스에 대해서도 우수한 성능를 보였다. 예를 들어 '테이블'(31.2% mIOU)과 '소파'(16.8% mIOU)와 같은 클래스에서 CCNN는 완전히 실패하는 반면, 본 모델은 잘 작동하여 클래스 불균형에 대한 강건성을 보였다.
CheckMask 절차는 평균적으로 이미지당 약 2.5초가 소요되어 실세계 적용에 매우 실용적이다.
정성적 결과에서는 복잡한 장면과 세밀한 물체 영역에서 국소화 정확도와 경계 일관성이 향상된 것으로 나타났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.