Skip to main content
QUICK REVIEW

[논문 리뷰] SA-Net: Shuffle Attention for Deep Convolutional Neural Networks

Qinglong Yang|arXiv (Cornell University)|2021. 01. 30.
Advanced Neural Network Applications참고 문헌 25인용 수 26
한 줄 요약

SA-Net는 그룹화된 피처 하위공간에서 채널 및 공간 주의를 결합하는 경량 Shuffle Attention 모듈을 도입하여 CNN 백본에서 매개변수 및 FLOPs 오버헤드를 최소로 하면서 정확도를 향상시킨다.

ABSTRACT

Attention mechanisms, which enable a neural network to accurately focus on all the relevant elements of the input, have become an essential component to improve the performance of deep neural networks. There are mainly two attention mechanisms widely used in computer vision studies, extit{spatial attention} and extit{channel attention}, which aim to capture the pixel-level pairwise relationship and channel dependency, respectively. Although fusing them together may achieve better performance than their individual implementations, it will inevitably increase the computational overhead. In this paper, we propose an efficient Shuffle Attention (SA) module to address this issue, which adopts Shuffle Units to combine two types of attention mechanisms effectively. Specifically, SA first groups channel dimensions into multiple sub-features before processing them in parallel. Then, for each sub-feature, SA utilizes a Shuffle Unit to depict feature dependencies in both spatial and channel dimensions. After that, all sub-features are aggregated and a "channel shuffle" operator is adopted to enable information communication between different sub-features. The proposed SA module is efficient yet effective, e.g., the parameters and computations of SA against the backbone ResNet50 are 300 vs. 25.56M and 2.76e-3 GFLOPs vs. 4.12 GFLOPs, respectively, and the performance boost is more than 1.34% in terms of Top-1 accuracy. Extensive experimental results on common-used benchmarks, including ImageNet-1k for classification, MS COCO for object detection, and instance segmentation, demonstrate that the proposed SA outperforms the current SOTA methods significantly by achieving higher accuracy while having lower model complexity. The code and models are available at https://github.com/wofmanaf/SA-Net.

연구 동기 및 목표

  • 공간 및 채널 주의의 효율적 통합을 큰 계산 없이 추구한다.
  • 정보 교환을 위한 그룹화된 피처 처리와 채널 셔플을 사용한 경량 SA 모듈 설계.
  • SA가 매개변수/ FLOP 오버헤드 최소로 다양한 Tasks에서 CNN 성능을 개선함을 보여준다.
  • ImageNet-1k, MS COCO 객체 검출 및 인스턴스 분할에서 SA-Net의 이점을 입증한다.

제안 방법

  • G 서브 피처로 채널 차원을 그룹화하고 병렬로 처리한다.
  • 각 서브피처에 대해 채널과 공간 주의 브랜치를 결합하는 Shuffle Unit을 적용한다.
  • 채널 주의는 글로벌 평균 풀링과 간결한 게이팅으로 피처를 재조정한다.
  • 공간 주의는 Group Norm으로 공간 통계를 생성하고 간결한 게이팅을 사용한다.
  • 서브피처를 통합하고 채널 셔플을 적용해 그룹 간 커뮤니케이션을 가능하게 한다.
  • SE 블록을 대체해 SA를 CNN 백본에 통합하여 SA-Net을 형성한다.
Fig. 1 : Comparisons of recently SOTA attention models on ImageNet-1k, including SENet, CBAM, ECA-Net, SGE-Net, and SA-Net, using ResNets as backbones, in terms of accuracy, network parameters, and GFLOPs. The size of circles indicates the GFLOPs. Clearly, the proposed SA-Net achieves higher accurac
Fig. 1 : Comparisons of recently SOTA attention models on ImageNet-1k, including SENet, CBAM, ECA-Net, SGE-Net, and SA-Net, using ResNets as backbones, in terms of accuracy, network parameters, and GFLOPs. The size of circles indicates the GFLOPs. Clearly, the proposed SA-Net achieves higher accurac

실험 결과

연구 질문

  • RQ1보다 작거나 같은 모델 복잡도에서 기존 주의 모듈을 능가하는 경량 공간-채널 주의 융합이 가능할까?
  • RQ2그룹화된 피처 처리와 채널 셔플이 교차 그룹 정보 교환을 가능하게 하여 표현력을 향상시키는가?
  • RQ3SA-Net은 ImageNet-1k 분류와 COCO 객체 검출/인스턴스 세분화에서 최첨단 주의 블록과 비교하여 어떤 성능을 보이는가?

주요 결과

  • ResNet-50에서 ImageNet-1k로 SA-Net은 Top-1 77.724% 및 Top-5 93.798%를 달성하며 파라미터 25.557M, GFLOPs 4.125로 여러 베이스라인을 능가한다.
  • ResNet-50에서 SA-Net은 베이스라인 대비 Top-1 정확도 1.34pp, Top-5 0.89pp 향상을 보이고(일반적으로 유사한 복잡도에서 SOTA 주의 방법을 능가하는 경우가 많다).
  • ResNet-101에서 SA-Net은 베이스라인 대비 Top-1 0.76%, Top-5 0.59%의 향상을 보인다.
  • MS COCO 객체 검출에서 SA는 SE 대비 AP 지표를 개선하며, 예를 들어 Faster R-CNN with ResNet-50은 AP50:95가 2.3 포인트 증가하고 AP S/M/L 향상을 보이며 RetinaNet도 유사한 이득을 보이고, ResNet-101의 경우 detector에 따라 AP50:95가 2.2–2.5 포인트 증가한다.
  • SA는 또한 SE 대비 Mask R-CNN 인스턴스 분할 지표를 개선하고 작은 객체에서 눈에 띄는 이득을 보인다.
  • 추론 연구에서 Group Norm이 필수적임, 채널 셔플은 미미한 이득을 제공하고 F_c(·)가 성능을 크게 향상시킴을 보여준다.
Fig. 2 : An overview of the proposed SA module. It adopts “channel split” to process the sub-features of each group in parallel. For channel attention branch, using GAP to generate channel-wise statistics, then use a pair of parameters to scale and shift the channel vector. For spatial attention bra
Fig. 2 : An overview of the proposed SA module. It adopts “channel split” to process the sub-features of each group in parallel. For channel attention branch, using GAP to generate channel-wise statistics, then use a pair of parameters to scale and shift the channel vector. For spatial attention bra

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.