QUICK REVIEW

[논문 리뷰] Reducing Information Bottleneck for Weakly Supervised Semantic Segmentation

Jungbeom Lee, Jooyoung Choi|arXiv (Cornell University)|2021. 10. 13.

Advanced Neural Network Applications인용 수 69

한 줄 요약

본 논문은 약한 지도 학습 의미 구분에서 분류기의 최종 계층의 정보 병목 현상을 줄이기 위해 마지막 활성화 함수를 제거하고 GNDRP pooling을 도입함으로써 로컬라이제이션을 개선하고 VOC 2012와 COCO 2014에서 최첨단 결과를 얻는다.

ABSTRACT

Weakly supervised semantic segmentation produces pixel-level localization from class labels; however, a classifier trained on such labels is likely to focus on a small discriminative region of the target object. We interpret this phenomenon using the information bottleneck principle: the final layer of a deep neural network, activated by the sigmoid or softmax activation functions, causes an information bottleneck, and as a result, only a subset of the task-relevant information is passed on to the output. We first support this argument through a simulated toy experiment and then propose a method to reduce the information bottleneck by removing the last activation function. In addition, we introduce a new pooling method that further encourages the transmission of information from non-discriminative regions to the classification. Our experimental evaluations demonstrate that this simple modification significantly improves the quality of localization maps on both the PASCAL VOC 2012 and MS COCO 2014 datasets, exhibiting a new state-of-the-art performance for weakly supervised semantic segmentation. The code is available at: https://github.com/jbeomlee93/RIB.

연구 동기 및 목표

최종 층의 정보 병목 현상이 로컬라이제이션 맵이 작은 판별 영역에 집중하게 만든다는 점을 강조한다.
마지막 활성 함수를 제거하여 병목 현상을 줄이는 간단한 수정 방법을 제안한다.
GNDRP pooling을 도입하여 비판별 영역에서의 정보 흐름이 촉진되도록 한다.
VOC 2012와 COCO 2014에서 로컬라이제이션 맵과 분할 성능이 향상됨을 보인다.

제안 방법

모델 분석은 병목 현상이 주로 마지막 층에서 시그모이드/소프트맥스와 같은 이중 활성화로 인해 발생한다는 것을 보여준다.
마지막 시그모이드 활성화를 제거하고 y^c 를 밀어내기 위한 여백 m 을 사용하는 병목 없이 손실 L_RIB 를 도입한다.
BCE로 학습한 베이스라인에서 시작하여 L_RIB 로 per-image 미세 조정을 수행하여 x-적합 매개변수를 얻는다.
GNDRP pooling을 도입하여 낮은 CAM 점수 위치만을 집계하도록 하여 비판별 영역을 최종 판단으로 밀어 넣는다.
RIB 반복에서 CAM 을 모아 최종 로컬라이제이션 맵 M 을 형성한다.
시드 정제(IRN/ PSA) 및 선택적 현저 대상 감독을 적용하여 세분화의 의사 그라운드 트UTH 를 생성한다.

실험 결과

연구 질문

RQ1마지막 활성화를 제거하면 정보 병목 현상이 줄어들고 약한 지도 학습 세그멘테이션에서 로컬라이제이션 맵이 개선될 수 있는가?
RQ2비판별 영역을 강조하는 풀링 스킴을 도입하면 로컬라이제이션 커버리지가 향상되는가?
RQ3이미지별로 적응된 미세조정(RIB)이 의사 그라운드 트루스를 생성하기에 더 정보 풍부한 CAM을 산출하는가?
RQ4RIB 를 표준 시드 정제 및 시각 신호와 결합했을 때 세분화 성능에 어떤 영향을 주는가?

주요 결과

마지막 활성화를 제거하면 정보 병목 현상이 감소하고 CAM 이 더 큰 객체 범위를 커버한다.
RIB 는 CAM 기준선 대비 초기 시드를 7.7 백분포 포인트 향상시킨다.
RIB 와 GNDRP 는 VOC 2012에서 이전 방법보다 우수하며, 이미지-레이블 감독으로 68.3% val 및 68.6% test mIoU 를 달성한다.
MS COCO 2014 에서는 RIB 가 IRN 대비 mIoU 에서 2.7–3.0 포인트 향상된 시드 및 의사 GT 마스크를 제공한다.
시퀀스 감독을 포함한 RIB 은 COCO 검증에서 43.8% mIoU, COCO 테스트에서도 43.8% 를 달성하여 명시된 로컬라이제이션 큐를 사용한 기존 베이스라인보다 우수하다.
VOC 와 COCO 전반에서 RIB 은 약한 지도 학습 의미 구분에서 새로운 최첨단 성능을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.