[논문 리뷰] CBAM: Convolutional Block Attention Module
CBAM을 도입한 경량 주의 모듈로, 채널 및 공간 주의를 순차적으로 적용하여 중간 CNN 피처 맵에서 분류 및 탐지를 개선하며 오버헤드는 최소화합니다. ImageNet, MS COCO, VOC2007에서 일관된 이득을 보여줍니다.
We propose Convolutional Block Attention Module (CBAM), a simple yet effective attention module for feed-forward convolutional neural networks. Given an intermediate feature map, our module sequentially infers attention maps along two separate dimensions, channel and spatial, then the attention maps are multiplied to the input feature map for adaptive feature refinement. Because CBAM is a lightweight and general module, it can be integrated into any CNN architectures seamlessly with negligible overheads and is end-to-end trainable along with base CNNs. We validate our CBAM through extensive experiments on ImageNet-1K, MS~COCO detection, and VOC~2007 detection datasets. Our experiments show consistent improvements in classification and detection performances with various models, demonstrating the wide applicability of CBAM. The code and models will be publicly available.
연구 동기 및 목표
- CNN 특징 표현을 향상시키기 위한 경량 주의 메커니즘을 제안한다.
- 기존 CNN에 통합될 수 있는 채널 및 공간의 2-브랜치 주의 모듈을 제안한다.
- 대규모 분류 및 탐지 벤치마크에서의 개선을 입증한다.
- 순차적 채널-먼저-공간 주의가 병렬 배치보다 더 나은 성능을 발휘함을 보인다.
제안 방법
- 공유 MLP(감축 비 r)로 처리된 평균-풀링 및 최대 풀링된 공간 설명자를 통해 1D 채널 주의 맵을 계산한다.
- 채널별 풀링된 기술자에서 7x7 합성곱으로 2D 공간 주의 맵을 계산한다.
- 채널 주의를 적용해 F를 보정한 뒤, 공간 주의를 적용해 결과를 보정한다(F'' = M_s(F') ⊗ F').
- 최상의 성능을 위해 채널-우선의 순차적 구성으로 채널 및 공간 모듈을 사용한다.
- 다양한 아키텍처의 합성곱 블록 출력에 경량의 플러그인 모듈로 CBAM을 통합한다(예: ResNet 변형).
- 재현된 PyTorch 구현으로 ImageNet-1K 분류 및 MS COCO / VOC 2007 탐지에서 평가한다.
실험 결과
연구 질문
- RQ1채널 및 공간 주의를 순차적으로 결합한 CBAM이 단일 분기 주의보다 피처 정제를 향상시키는가?
- RQ2채널 주의에 평균-풀링과 최대-풀링 기술자 모두를 사용하는 것이 SE(평균 풀링만 사용)와 비교하여 이득이 있는가?
- RQ3주목 배치의 순차적 대 병렬 구성은 성능에 어떤 영향을 미치는가?
- RQ4다양한 아키텍처와 작업(분류 및 탐지) 전반에서 CBAM의 성능에 어떤 영향을 주는가?
주요 결과
| 아키텍처 | 매개변수 | GFLOPs | Top-1 오류(%) | Top-5 오류 (%) |
|---|---|---|---|---|
| ResNet50 | 28.09M | 3.864 | 22.66 | 6.31 |
| ResNet50 + SE | 28.09M | 3.860 | 23.14 | 6.70 |
| ResNet50 (Baseline) | 25.56M | 3.858 | 24.56 | 7.50 |
- CBAM은 ImageNet-1K의 여러 아키텍처에서 baselines 및 SE를 능가한다(예: ResNet50: Top-1 22.66%로 CBAM, 23.14%로 SE).
- 채널 주의에 평균-풀링과 최대-풀링 기술자를 모두 사용하는 것이 단독 중 하나를 사용할 때보다 더 높은 정확도를 보인다.
- 채널 풀링 기술자와 7x7 합성곱을 사용한 공간 주의가 최고의 공간 정제를 제공한다.
- 순차적 채널-우선 배치는 공간-채널 또는 병렬 배치를 일관되게 능가한다.
- CBAM은 파라미터 증가가 거의 없이 MS COCO 및 VOC 2007에서 탐지 성능도 향상시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.