QUICK REVIEW

[論文レビュー] BAM: Bottleneck Attention Module

Jongchan Park, Sanghyun Woo|arXiv (Cornell University)|Jul 17, 2018

Advanced Neural Network Applications被引用数 48

ひとこと要約

BAMはネットワークのボトルネックに配置されたチャネルと空間の注意ストリームを備えた軽量なボトルネック注意モジュールを導入し、CIFAR-100、ImageNet、VOC2007、COCOの分類・検出でほとんど追加オーバーヘッドなく性能を向上させる。

ABSTRACT

Recent advances in deep neural networks have been developed via architecture search for stronger representational power. In this work, we focus on the effect of attention in general deep neural networks. We propose a simple and effective attention module, named Bottleneck Attention Module (BAM), that can be integrated with any feed-forward convolutional neural networks. Our module infers an attention map along two separate pathways, channel and spatial. We place our module at each bottleneck of models where the downsampling of feature maps occurs. Our module constructs a hierarchical attention at bottlenecks with a number of parameters and it is trainable in an end-to-end manner jointly with any feed-forward models. We validate our BAM through extensive experiments on CIFAR-100, ImageNet-1K, VOC 2007 and MS COCO benchmarks. Our experiments show consistent improvement in classification and detection performances with various models, demonstrating the wide applicability of BAM. The code and models will be publicly available.

研究の動機と目的

注意機構を用いてCNNの表現力を過度なアーキテクチャ変更なしに向上させる動機づけ。
任意のCNNに組み込めるシンプルで学習可能な注意モジュールを提案。
ネットワークのボトルネックにBAMを配置することで階層的で効果的な注意が得られることを示す。
複数のベンチマークとタスク（分類と検出）でBAMの有効性を実証。

提案手法

3D特徴マップFから3D注意マップM(F)を2つの分岐（チャネル注意M_c(F)と空間注意M_s(F)）を用いて計算する。
チャネル分岐はグローバル平均プーリングに続く2層MLP（縮小比rとBN層を伴う）でM_c(F)を生成。
空間分岐は1x1と3x3膨張畳み込み（膨張率d）のボトルネック経路を用いてM_s(F)を生成。
M_c(F)とM_s(F)を要素ごとの加算とシグモイドで結合しM(F)を形成。
残差注意で特徴を精緻化: F' = F + F ⊗ M(F)。
CNNのボトルネック（ダウンサンプリング点）にBAMを配置して層間で階層的な注意を形成。
ハイパーパラメータには膨張率dと縮小比rを含み、経験的にはd=4、r=16。
BAMをCIFAR-100、ImageNet-1K、VOC 2007、MS COCOで評価し、広い適用性を示す。

実験結果

リサーチクエスチョン

RQ1Bottleneck Attention Module (BAM)は標準的なベンチマーク全体で大きなオーバーヘッドなしにCNNの性能を改善するか。
RQ2チャネルと空間の注意分岐は個々に、あるいは組み合わせて性能向上にどのように寄与するか。
RQ3BAMをネットワークのボトルネックに配置する方が、他の場所や単純な深さ増加よりも効果的か。
RQ4様々なアーキテクチャとタスク（分類と検出）に対するBAMの影響はどのようか。
RQ5Note: The paper reports numerous specific results in tables. Where available, examples include:
RQ6- ResNet50 + BAM achieves 20.00% error on CIFAR-100 versus 21.49% for the baseline ResNet50.
RQ7- ResNeXt29 8x64d + BAM achieves 16.71% error on CIFAR-100 versus 18.18% baseline.
RQ8- ResNet101 + BAM achieves 19.61% error on CIFAR-100 vs 20.00% baseline.
RQ9- On ImageNet, ResNet50 + BAM reduces error to 20.00% from 21.49% baseline; ResNet101 + BAM to 19.61% from 20.00% baseline.
RQ10- BAM improves MS COCO detection mAP and VOC 2007 metrics when added to strong baselines, with negligible parameter overhead.

主な発見

BAMはCIFAR-100とImageNet-1Kの複数のアーキテクチャでベースラインに対して一貫して精度を向上させる。
チャネル分岐と空間分岐の両方を使用すると、どちらか一方だけよりも性能向上が大きい。
ボトルネックに配置することで、素朴に深いブロックを増やすよりも効率良く精度を改善。
要素ごとの和とシグモイドを介してチャネルと空間の注意を組み合わせることで、勾配フローの安定性とより良い結果を得られ、積や最大値のバリアントより優れる。
BAMはFaster-RCNNおよびSSDベースのデ detectorsと組み合わせるとMS COCOとVOC 2007の物体検出性能を改善し、パラメータのオーバーヘッドは最小限。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。