QUICK REVIEW

[논문 리뷰] Tell Me Where to Look: Guided Attention Inference Network

Kunpeng Li, Ziyan Wu|arXiv (Cornell University)|2018. 02. 27.

Advanced Neural Network Applications참고 문헌 36인용 수 76

한 줄 요약

본 논문은 주의 맵을 학습 가능하게 만들고 자기지도 및 선택적 추가 감독으로 약한 지도 세분화의 성능을 향상시키는 엔드-투-엔드 프레임워크 GAIN을 소개하여 VOC 2012에서 최첨단 결과를 달성한다.

ABSTRACT

Weakly supervised learning with only coarse labels can obtain visual explanations of deep neural network such as attention maps by back-propagating gradients. These attention maps are then available as priors for tasks such as object localization and semantic segmentation. In one common framework we address three shortcomings of previous approaches in modeling such attention maps: We (1) first time make attention maps an explicit and natural component of the end-to-end training, (2) provide self-guidance directly on these maps by exploring supervision form the network itself to improve them, and (3) seamlessly bridge the gap between using weak and extra supervision if available. Despite its simplicity, experiments on the semantic segmentation task demonstrate the effectiveness of our methods. We clearly surpass the state-of-the-art on Pascal VOC 2012 val. and test set. Besides, the proposed framework provides a way not only explaining the focus of the learner but also feeding back with direct guidance towards specific tasks. Under mild assumptions our method can also be understood as a plug-in to existing weakly supervised learners to improve their generalization performance.

연구 동기 및 목표

이미지 레벨 라벨만으로 학습을 자극하고 로컬라이제이션 및 세분화를 위한 신뢰할 수 있는 주의 맵을 얻는다.
엔드-투-엔드 학습 도중 주의 맵을 명시적이고 학습 가능한 구성요소로 만든다.
가장 구분력이 높은 영역을 넘어서 주의 확장을 위한 자기지도(self-guidance)를 제공한다.
약한 감독과 충분한 감독 사이의 간극을 메우기 위해 추가 감독의 통합을 가능하게 한다.
약한 감독 하에서의 VOC 2012 세분화에서 최첨단 성능을 보여준다.

제안 방법

공유 매개변수를 가진 두 흐름 네트워크: 분류 흐름(S_cl)과 주의 마이닝 흐름(S_am).
Grad-CAM 유사 메커니즘을 통해 클래스 점수의 그래디언트와 전역 평균 풀링 가중치를 사용하여 온라인으로 A^c를 생성.
A^c로부터 얻은 소프트 마스크 I*^c가 S_am을 제약하고 가장 구분력이 높은 영역을 넘어서 탐색을 촉진하도록(주의 마이닝 손실 L_am).
자기지도 손실 L_self = L_cl + α L_am은 객체의 더 많은 부분을 커버하도록 주의를 강제한다; α는 가중치 매개변수(α = 1 사용).
GAIN ext는 외부 감독 L_e(예: 픽셀 레벨 마스크)로 주의 맵을 더 잘 조정하여 L_ext = L_cl + α L_am + ω L_e를 얻고(실험에서 ω = 10).
학습 중 주의 맵은 약한 감독 세분화 프레임워크(예: SEC)의 사전으로 작용하여 완전 감독 없이도 향상된 로컬라이제이션 단서를 가능하게 한다.

실험 결과

연구 질문

RQ1약한 지도 작업에서 엔드-투-엔드 학습 중 주의 맵을 명시적이고 학습 가능한 구성요소로 만들 수 있는가?
RQ2주의 맵에 대한 자기지도가 가장 구분력이 높은 영역을 넘어서 더 완전한 객체 커버리지를 촉진하는가?
RQ3주의 맵에 추가 감독을 통합하면 성능과 학습 데이터 편향에 대한 강건성이 더 향상되는가?
RQ4가이드된 주의가 VOC 2012의 약한 지도 하에서 세분화 성능에 어떤 영향을 미치는가?
RQ5GAIN 프레임워크가 기존의 약한 지도 학습기에서 보편화를 높이기 위한 플러그인으로 호환되는가?

주요 결과

방법	VOC val mIoU	VOC test mIoU
GAIN (ours)	55.3%	56.8%
GAIN ext (ours)	60.5%	62.1%

GAIN은 약한 감독 하에서 VOC 2012 유효값(val) 및 테스트(test)에서 최첨단 mIoU를 달성(55.3% val, 56.8% test for GAIN).
GAIN ext는 소량의 픽셀 수준 감독으로 mIoU를 추가로 향상시켜 60.5% (val) 및 62.1% (test)까지 상승.
픽셀 수준 라벨이 없더라도 GAIN 기반 SEC가 여러 약한 감독 방법들보다 우수한 성능을 보이며 학습 가능한 주의 맵의 이점을 시연한다.
GAIN ext에서 픽셀 수준 감독을 추가하면 유사한 설정에서 경쟁 방법들에 비해 4.6–4.1p의 성능 향상을 얻는다.
정성적 결과는 GAIN이 주의를 보다 완전한 객체 영역으로 확장하여 세분화 사전 정보를 향상시킴을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.