Skip to main content
QUICK REVIEW

[논문 리뷰] Spatial Group-wise Enhance: Improving Semantic Feature Learning in Convolutional Networks

Xiang Li, Xiaolin Hu|arXiv (Cornell University)|2019. 05. 23.
Advanced Neural Network Applications참고 문헌 44인용 수 178
한 줄 요약

SGE는 전역-로컬 유사성을 이용해 위치별 주의(attention)를 생성함으로써 각 그룹 내의 의미적 서브피처를 강화하는 가벼운 공간적 그룹 단위 주의를 도입하여 오버헤드가 무시할 만큼 작게 성능을 향상시킵니다. ResNet과 같은 백본 및 COCO의 탐지기에서 분류 및 탐지 성능을 개선합니다.

ABSTRACT

The Convolutional Neural Networks (CNNs) generate the feature representation of complex objects by collecting hierarchical and different parts of semantic sub-features. These sub-features can usually be distributed in grouped form in the feature vector of each layer, representing various semantic entities. However, the activation of these sub-features is often spatially affected by similar patterns and noisy backgrounds, resulting in erroneous localization and identification. We propose a Spatial Group-wise Enhance (SGE) module that can adjust the importance of each sub-feature by generating an attention factor for each spatial location in each semantic group, so that every individual group can autonomously enhance its learnt expression and suppress possible noise. The attention factors are only guided by the similarities between the global and local feature descriptors inside each group, thus the design of SGE module is extremely lightweight with \emph{almost no extra parameters and calculations}. Despite being trained with only category supervisions, the SGE component is extremely effective in highlighting multiple active areas with various high-order semantics (such as the dog's eyes, nose, etc.). When integrated with popular CNN backbones, SGE can significantly boost the performance of image recognition tasks. Specifically, based on ResNet50 backbones, SGE achieves 1.2\% Top-1 accuracy improvement on the ImageNet benchmark and 1.0$\sim$2.0\% AP gain on the COCO benchmark across a wide range of detectors (Faster/Mask/Cascade RCNN and RetinaNet). Codes and pretrained models are available at https://github.com/implus/PytorchInsight.

연구 동기 및 목표

  • 그룹화된 CNN 채널 내에서 의미적 서브피처의 학습 향상을 자극한다.
  • 광범위한 파라미터 없이 그룹 특징의 공간 분포를 향상시키는 경량 모듈을 제안한다.
  • SGE가 의미 영역의 위치 지정을 개선하고 특징 맵의 잡음을 줄임을 보여준다.
  • 이미지 분류 및 객체 탐지 벤치마크에서 성능 향상을 입증한다.

제안 방법

  • 특징 맵을 G개의 채널 그룹으로 나누고 각 그룹을 하나의 의미론적 그룹으로 간주한다.
  • 그룹 내 공간 위치를 평균하여 전역 그룹 특징 g를 계산한다.
  • 그룹의 로컬 x_i와의 점곱으로 위치별 계수 c_i를 계산한 후 학습 가능한 gamma 및 beta를 통해 정규화하여 a_i를 얻는다.
  • 각 그룹 내에서 시그모이드 게이트 sigma(a_i)로 x_i를 스케일링하여 hat{x}_i를 생성한다.
  • 병목에서 BatchNorm 뒤에 SGE를 통합하되 추가 파라미터는 거의 없으며(그룹당 gamma, beta).
  • 정규화, 그룹 수, 초기화 효과를 검증하기 위한 시각화 및 제거 실험을 제공한다.

실험 결과

연구 질문

  • RQ1Spatial Group-wise Enhance 모듈이 그룹 내 의미 특징 학습을 신뢰할 수 있게 향상시키나요?
  • RQ2최소한의 파라미터 증가로 이미지 분류 및 객체 탐지에서 성능을 향상시킬 수 있나요?
  • RQ3설계 선택(그룹 수, 정규화, 초기화)이 SGE의 효과에 어떤 영향을 미치나요?
  • RQ4성능과 효율성 측면에서 SGE가 기존의 주의 모듈들과 어떻게 비교되나요?

주요 결과

  • SGE는 ResNet50을 사용할 때 ImageNet에서 Top-1 정확도 1.2% 향상을, COCO 탐지기(Faster/Mask/Cascade RCNN 및 RetinaNet)에서 AP 1.0–2.0% 향상을 달성한다.
  • SGE는 소물체 탐지를 지속적으로 개선하고 RetinaNet의 소물체에서 SE보다 약 1% AP 높은 성능을 보인다.
  • SGE는 최첨단 주의 모듈과 비교해 파라미터가 적고 계산 비용이 낮은 경쟁력 있거나 우수한 성능을 제공한다.
  • 정규화는 안정적인 학습과 성능에 필수적이며, 정규화를 제거하면 정확도가 크게 저하된다.
  • 그룹 수 G를 증가시켰다 감소시킨 결과 최적의 성능을 보이는 구간이 있는데 일반적으로 G=32 또는 64에서 최적의 성능이 나타난다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.