QUICK REVIEW

[논문 리뷰] Comprehensive Attention Self-Distillation for Weakly-Supervised Object Detection

Zeyi Huang, Yang Zou|arXiv (Cornell University)|2020. 10. 22.

Advanced Neural Network Applications참고 문헌 46인용 수 66

한 줄 요약

CASD는 다수의 이미지 변환과 특징 계층으로부터 포괄적 주의를 집계한 뒤, 이 주의를 WSOD 모델 내에서 자체적으로 증류하여 균형 잡히고 공간적으로 일관된 탐지를 달성하고, VOC와 COCO에서 최첨단 결과를 얻는다.

ABSTRACT

Weakly Supervised Object Detection (WSOD) has emerged as an effective tool to train object detectors using only the image-level category labels. However, without object-level labels, WSOD detectors are prone to detect bounding boxes on salient objects, clustered objects and discriminative object parts. Moreover, the image-level category labels do not enforce consistent object detection across different transformations of the same images. To address the above issues, we propose a Comprehensive Attention Self-Distillation (CASD) training approach for WSOD. To balance feature learning among all object instances, CASD computes the comprehensive attention aggregated from multiple transformations and feature layers of the same images. To enforce consistent spatial supervision on objects, CASD conducts self-distillation on the WSOD networks, such that the comprehensive attention is approximated simultaneously by multiple transformations and feature layers of the same images. CASD produces new state-of-the-art WSOD results on standard benchmarks such as PASCAL VOC 2007/2012 and MS-COCO.

연구 동기 및 목표

현저한 객체, 군집화된 인스턴스, 구별 가능한 부분에 대한 편향을 해소하여 WSOD를 고무한다.
포괄적 주의를 통해 객체 인스턴스 간 특징 학습의 균형을 맞추는 메커니즘을 개발한다.
WSOD 네트워크 내에서 포괄적 주의를 자체 증류하여 공간적 및 인스턴스 수준의 일관성을 강제한다.
이미지 변환과 다중 계층 특징을 자유로운 감독 신호로 활용한다.
표준 WSOD 벤치마크에서 최첨단 성능을 보여준다.

제안 방법

기반 탐지기로 OICR WSOD 프레임워크와 MIL 헤드를 기반으로 구축한다.
제안(feature) 맵으로부터 제안 주의 맵을 계산하고 이를 변환과 계층 전반에 걸친 포괄적 주의로 집계한다.
원본 입력, 뒤집은 입력, 스케일링된 입력 간의 포괄적 주의를 정렬하여 입력별 CASD(IW-CASD)를 도입한다; 최대 융합을 사용해 A_r^{IW}를 형성하고 변환된 시점들에서 개별 주의를 A_r^{IW}에 맞추도록 L_IW를 최소화한다.
여러 CNN 계층에서 주의 맵을 모아 A_r^{LW}로 집계하고 L_LW를 최소화하여 계층 간 주의를 A_r^{LW}에 맞추도록 층별 CASD(LW-CASD)를 도입한다.
외부 선생님 없이도 포괄적 주의 맵을 소프트 감독으로 재사용하여 WSOD 특징 추출기를 정규화하는 자기 증류를 수행한다.
MIL 손실, 정제 손실, 회귀 손실 및 CASD 손실을 하나의 엔드-투-엔드 학습 목적 함수로 통합한다.

실험 결과

연구 질문

RQ1다양한 변환과 특징 계층에서 집계된 포괄적 주의가 표준 주의 맵을 넘어 WSOD 로컬라이제이션을 향상시킬 수 있는가?
RQ2WSOD 모델 내에서 포괄적 주의를 자체 증류하는 것이 객체 인스턴스와 변환 간의 일관성과 균형을 개선하는가?
RQ3입력별(IW)과 계층별(LW) CASD의 기여도 및 이들의 조합이 WSOD 성능에 미치는 영향은 무엇인가?
RQ4CASD가 WSOD에서 다른 주의 정규화 전략과 어떻게 비교되는가?

주요 결과

CASD는 VOC 2007에서(기준 48.9%에서 전체 CASD로 56.8%로) 및 VOC 2012에서 의미 있는 mAP 향상을 이끌고, 백본 변형에서 MS-COCO 역시 강한 이득을 보인다.
입력별 CASD(IW)는 이미지 변환에 걸친 주의 집계로 큰 이득을 제공하며, 예를 들어 IW는 VOC 2007에서 기준 대비 약 5.2 퍼센트 포인트 향상을 제공한다.
계층별 CASD(LW)는 CNN 계층을 가로지르는 주의 집계를 통해 추가 이득을 제공하며, LW+CASD가 기준 대비 주목할 만한 개선을 달성한다.
IW와 LW를 회귀 및 강력한 증강과 결합하면 VOC 2007에서 최고 점수(56.8% mAP 0.5)를 얻고 MS-COCO 및 VOC 2012에서도 강력한 성능을 달성한다.
CASD가 WSOD 연구에서 예측 일관성 및 주의 일관성 기준선보다 우수한 정규화의 주의를 보인다.
소거 실험에서 중간 수준의 계층(B2-B4)이 WSOD를 위한 균형 잡힌 주의에 가장 크게 기여하는 것으로 나타났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.