[논문 리뷰] BAM: Bottleneck Attention Module
BAM은 네트워크 병목에 배치된 채널 및 공간 주의 스트림이 있는 가벼운 Bottleneck Attention Module을 도입하여 CIFAR-100, ImageNet, VOC2007 및 COCO 전반에서 거의 오버헤드 없이 분류 및 탐지 성능을 향상시킵니다.
Recent advances in deep neural networks have been developed via architecture search for stronger representational power. In this work, we focus on the effect of attention in general deep neural networks. We propose a simple and effective attention module, named Bottleneck Attention Module (BAM), that can be integrated with any feed-forward convolutional neural networks. Our module infers an attention map along two separate pathways, channel and spatial. We place our module at each bottleneck of models where the downsampling of feature maps occurs. Our module constructs a hierarchical attention at bottlenecks with a number of parameters and it is trainable in an end-to-end manner jointly with any feed-forward models. We validate our BAM through extensive experiments on CIFAR-100, ImageNet-1K, VOC 2007 and MS COCO benchmarks. Our experiments show consistent improvement in classification and detection performances with various models, demonstrating the wide applicability of BAM. The code and models will be publicly available.
연구 동기 및 목표
- 무거운 아키텍처 변화 없이 CNN의 표현력 향상을 위해 주의(attention)의 사용을 제안한다.
- 모든 CNN에 통합될 수 있는 간단하고 학습 가능한 주의 모듈을 제안한다.
- 네트워크 병목 지점에 BAM을 배치했을 때 계층적이고 효과적인 주의가 생성됨을 보여준다.
- 다양한 벤치마크와 작업(분류 및 탐지)에 걸친 BAM의 효과를 입증한다.
제안 방법
- 두 개의 별도 분기(channel attention M_c(F)와 spatial attention M_s(F))를 사용하여 3D 특징 맵 F로부터 3D 주의 맵 M(F)을 계산한다.
- 채널 분기는 전역 평균 풀링(global average pooling) 후 축소 비율 r의 이차 계층 MLP와 BN 계층을 이용해 M_c(F)를 생성한다.
- 공간 분기는 1x1 및 3x3 확장 합성곱(dilation d)으로 구성된 병목 경로를 사용해 M_s(F)를 생성한다.
- 원소별 덧셈과 시그모이드를 통해 M_c(F)와 M_s(F)를 결합해 M(F)를 형성한다.
- 잔차 주의와 함께 특징을 정제한다: F' = F + F ⊗ M(F).
- CNN의 병목(다운샘플링 지점)에 BAM을 배치하여 층 간 계층적 주의를 형성한다.
- 하이퍼파라미터에는 확장(dilation) d와 축소 비율 r이 포함되어 있으며(경험적으로 d=4, r=16).
- 다양한 적용 가능성을 보여주기 위해 CIFAR-100, ImageNet-1K, VOC 2007, MS COCO에 걸쳐 BAM을 평가한다.
실험 결과
연구 질문
- RQ1표준 벤치마크에서 BAM이 상당한 오버헤드 없이 CNN 성능을 향상시키는가?
- RQ2채널 주의 분기와 공간 주의 분기가 각각 그리고 함께 성능 향상에 어떻게 기여하는가?
- RQ3네트워크 병목 지점에 BAM을 배치하는 것이 다른 위치나 순진한 깊이 증가보다 더 효과적인가?
- RQ4다양한 아키텍처와 작업(분류 및 탐지)에 대한 BAM의 영향은 무엇인가?
주요 결과
- BAM은 여러 아키텍처에서 CIFAR-100 및 ImageNet-1K에 걸쳐 베이스라인 대비 일관되게 정확도를 향상시킨다.
- 채널 분기와 공간 분기 모두를 사용할 때 단독 분기보다 더 큰 이득을 얻는다.
- 병목에 배치된 BAM은 순진한 더 깊은 블록에 비해 효율성과 정확도 향상을 제공한다.
- 요소별 합을 통한 채널 및 공간 주의를 시그모이드로 결합하는 것은 곱이나 최대 버전보다 안정적인 그래디언트 흐름과 더 나은 성능을 뒷받침한다.
- BAM은 각각 Faster-RCNN 및 SSD 기반 탐지기에 통합될 때 MS COCO 및 VOC 2007에서 객체 탐지 성능을 개선하되 오버헤드는 최소화한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.