Skip to main content
QUICK REVIEW

[論文レビュー] CBAM: Convolutional Block Attention Module

Sanghyun Woo, Jongchan Park|arXiv (Cornell University)|Jul 17, 2018
Advanced Neural Network Applications参考文献 12被引用数 336
ひとこと要約

CBAMを導入。軽量な注意モジュールで、チャネルと空間の注意を連続的に中間CNN特徴マップに適用し、オーバーヘッドを最小化しつつ分類と検出を改善。ImageNet、MS COCO、VOC2007で一貫した向上を示す。

ABSTRACT

We propose Convolutional Block Attention Module (CBAM), a simple yet effective attention module for feed-forward convolutional neural networks. Given an intermediate feature map, our module sequentially infers attention maps along two separate dimensions, channel and spatial, then the attention maps are multiplied to the input feature map for adaptive feature refinement. Because CBAM is a lightweight and general module, it can be integrated into any CNN architectures seamlessly with negligible overheads and is end-to-end trainable along with base CNNs. We validate our CBAM through extensive experiments on ImageNet-1K, MS~COCO detection, and VOC~2007 detection datasets. Our experiments show consistent improvements in classification and detection performances with various models, demonstrating the wide applicability of CBAM. The code and models will be publicly available.

研究の動機と目的

  • CNNの特徴表現を向上させるための軽量な注意機構を動機づける。
  • 既存のCNNに組み込める2系統の注意モジュール(チャネルと空間)を提案する。
  • 大規模な分類および検出ベンチマークで改善を実証する。
  • 逐次的なチャネル→空間の注意が、並列配置よりも性能を向上させることを示す。

提案手法

  • 共有MLP(縮小比率 r)で処理された平均プールと最大プールの空間記述子から1Dチャネル注意マップを計算する。
  • チャネルごとにプールされた記述子から7x7の畳み込みで2D空間注意マップを計算する。
  • Fを洗練させるためにチャネル注意を適用し、次に空間注意で結果を洗練させる(F'' = M_s(F') ⊗ F')。
  • 最高の性能のために、チャネル-ファーストの逐次的なチャネルおよび空間モジュールの配置を使用する。
  • さまざまなアーキテクチャ(例:ResNet系)において、畳み込みブロックの出力に軽量なプラグインとしてCBAMを統合する。
  • 再現されたPyTorch実装を用いて、ImageNet-1K分類およびMS COCO / VOC 2007検出で評価する。

実験結果

リサーチクエスチョン

  • RQ1逐次CBAMでチャネルと空間の注意を組み合わせると、単一分岐の注意より特徴の洗練が改善されるか?
  • RQ2チャネル注意で平均プーリングと最大プーリングの両方の記述子を使用することは、SE(平均プーリングのみ)と比較して有益か?
  • RQ3注意の配置(逐次 vs 並列)が性能に与える影響は何か?
  • RQ4多様なアーキテクチャとタスク(分類と検出)全体でCBAMが性能に与える影響はどのようか?

主な発見

ArchitectureParametersGFLOPsTop-1 Error (%)Top-5 Error (%)
ResNet5028.09M3.86422.666.31
ResNet50 + SE28.09M3.86023.146.70
ResNet50 (Baseline)25.56M3.85824.567.50
  • CBAMは、複数のアーキテクチャでImageNet-1KにおいてベースラインとSEを上回る(例:ResNet50:Top-1 22.66%はCBAM、23.14%はSE)。
  • 平均と最大のプーリング記述子の両方を使用するチャネル注意は、どちらか一方を用いるより精度が向上する。
  • チャネルプーリング記述子と7x7畳み込みを用いた空間注意が、最良の空間洗練を提供する。
  • 逐次的なチャネル優先配置は、空間-チャネルまたは並列配置を一貫して上回る。
  • CBAMはパラメータ負荷がほとんどなく、MS COCOおよびVOC 2007で検出性能も向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。