Skip to main content
QUICK REVIEW

[논문 리뷰] Global Attention Mechanism: Retain Information to Enhance Channel-Spatial Interactions

Yichao Liu, Zongru Shao|arXiv (Cornell University)|2021. 12. 10.
Advanced Neural Network Applications인용 수 412
한 줄 요약

논문은 Global Attention Mechanism (GAM)을 도입하여 3D-permutation에 의해 MLP와 합성곱 공간 서브모듈을 사용해 채널 및 공간 차원 간 정보를 보존하고, ResNet 및 MobileNet 백본에서 CIFAR-100과 ImageNet-1K에 대해 기존 주의 모듈들보다 일관된 이득을 보여준다.

ABSTRACT

A variety of attention mechanisms have been studied to improve the performance of various computer vision tasks. However, the prior methods overlooked the significance of retaining the information on both channel and spatial aspects to enhance the cross-dimension interactions. Therefore, we propose a global attention mechanism that boosts the performance of deep neural networks by reducing information reduction and magnifying the global interactive representations. We introduce 3D-permutation with multilayer-perceptron for channel attention alongside a convolutional spatial attention submodule. The evaluation of the proposed mechanism for the image classification task on CIFAR-100 and ImageNet-1K indicates that our method stably outperforms several recent attention mechanisms with both ResNet and lightweight MobileNet.

연구 동기 및 목표

  • 채널 및 공간 차원 간 정보를 보존하여 주의에서의 교차 차원 상호작용을 향상시킬 필요성을 제시한다.
  • 정보 손실을 줄이면서 글로벌 채널-공간 의존성을 증대시키기 위해 GAM을 제안한다.
  • 표준 벤치마크(CIFAR-100 및 ImageNet-1K)에서 다양한 아키텍처(ResNet 및 MobileNet) 대비 기존 주의 모듈에 대해 GAM을 평가한다.

제안 방법

  • 채널 주의 서브모듈은 3D permutation과 두 레이어 MLP를 사용해 교차 차원 정보를 포착한다.
  • 공간 주의 서브모듈은 풀링 없이 정보를 보존하기 위해 두 개의 합성곱 층을 사용하며, 매개변수를 줄이기 위해 선택적으로 그룹 합성곱 및 채널 셔플을 적용한다.
  • GAM은 먼저 채널 주의를 적용하고 이어서 공간 주의를 적용하며, 요소별 곱셈으로 최종 피처 맵을 형성한다.
  • 비교는 동일한 학습 조건에서 SE, BAM, CBAM, TAM, ABN과의 비교를 수행한다.
  • 절개 연구(Ablation studies)는 채널 주의와 공간 주의의 기여와 CBAM/GAM에서 최대 풀링의 효과를 조사한다.

실험 결과

연구 질문

  • RQ1GAM이 데이터셋과 아키텍처 전반에 걸쳐 기존 주의 모듈에 비해 일관된 성능 향상을 제공하는가?
  • RQ2채널 및 공간 주의 구성 요소가 GAM의 성능에 어떻게 기여하는가?
  • RQ3풀링, 그룹 합성곱 등 설계 선택이 GAM의 효율성과 정확도에 어떤 영향을 미치는가?
  • RQ4GAM이 대규모 데이터셋 및 서로 다른 모델 깊이(ResNet18/50, MobileNetV2)에 효과적으로 확장될 수 있는가?

주요 결과

ArchitectureParametersFLOPsTop-1 Error (%)Top-5 Error (%)
ResNet 5023.71M1.3G22.746.37
ResNet 50 + SE26.22M1.31G20.295.18
ResNet 50 + BAM24.06M1.33G19.975.03
ResNet 50 + CBAM26.24M1.31G19.444.66
ResNet 50 + GAM149.47M8.02G18.674.54
ResNet 50 + GAM (gc)57.05M3.08G18.994.87
ResNet 1830.9111.12
ResNet 18 + SE30.0710.59
ResNet 18 + BAM30.1810.77
ResNet 18 + CBAM29.8910.53
ResNet 18 + TAM30.0010.64
ResNet 18 + ABN29.4010.34
ResNet 18 + GAM29.3410.23
ResNet 50 + ABN23.436.92
ResNet 50 + GAM22.786.43
ResNet 50 + GAM (gc)23.016.52
MobileNet V230.5211.20
MobileNet V2 + SE29.7710.65
MobileNet V2 + BAM29.9110.80
MobileNet V2 + CBAM29.7410.66
MobileNet V2 + GAM29.3110.43
  • GAM은 CIFAR-100에서 ResNet-50과 함께 SE, BAM 및 CBAM보다 우수하며, 그룹 합성곱을 사용하는 변형도 포함한다.
  • ImageNet-1K에서 GAM은 ResNet-18, ResNet-50, MobileNetV2 전반에 걸쳐 Top-1 및 Top-5 오점을 지속적으로 개선하며 기준선 및 다른 주의 모듈 대비 우수하다.
  • GAM은 일부 경쟁자보다 더 적은 매개변수로 더 높은 정확도를 달성한다(예: ResNet-18 + GAM vs ABN).
  • 절개 실험은 공간 주의와 채널 주의 모두가 성능 향상에 기여하며 이들의 결합이 최상의 결과를 낳는다는 것을 보여준다.
  • GAM 설계에서 최대 풀링을 제거해도 여전히 강한 성능을 보이며, GAM은 종종 이점을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.