Skip to main content
QUICK REVIEW

[論文レビュー] Coordinate Attention for Efficient Mobile Network Design

Qibin Hou, Daquan Zhou|arXiv (Cornell University)|Mar 4, 2021
Advanced Neural Network Applications参考文献 49被引用数 321
ひとこと要約

本論文は座標アテンションを提案する。これはモバイルネットワーク向けの軽量なアテンションモジュールで、2Dプーリングを2つの1Dプールに分解することによって位置情報を埋め込み、最小限のオーバーヘッドでImageNet分類と下流の視覚タスクを改善する。

ABSTRACT

Recent studies on mobile network design have demonstrated the remarkable effectiveness of channel attention (e.g., the Squeeze-and-Excitation attention) for lifting model performance, but they generally neglect the positional information, which is important for generating spatially selective attention maps. In this paper, we propose a novel attention mechanism for mobile networks by embedding positional information into channel attention, which we call "coordinate attention". Unlike channel attention that transforms a feature tensor to a single feature vector via 2D global pooling, the coordinate attention factorizes channel attention into two 1D feature encoding processes that aggregate features along the two spatial directions, respectively. In this way, long-range dependencies can be captured along one spatial direction and meanwhile precise positional information can be preserved along the other spatial direction. The resulting feature maps are then encoded separately into a pair of direction-aware and position-sensitive attention maps that can be complementarily applied to the input feature map to augment the representations of the objects of interest. Our coordinate attention is simple and can be flexibly plugged into classic mobile networks, such as MobileNetV2, MobileNeXt, and EfficientNet with nearly no computational overhead. Extensive experiments demonstrate that our coordinate attention is not only beneficial to ImageNet classification but more interestingly, behaves better in down-stream tasks, such as object detection and semantic segmentation. Code is available at https://github.com/Andrew-Qibin/CoordAttention.

研究の動機と目的

  • モバイルネットワークで空間的(位置情報)を保持するアテンション機構の必要性を動機づける。
  • 座標情報を埋め込みつつ計算負荷を低く保つ新しいアテンションブロックを提案する。
  • 座標アテンションを既存のモバイルブロック(例:MobileNetV2、MobileNeXt、EfficientNet)に最小限のオーバーヘッドでプラグイン可能であることを示す。
  • ImageNet分類やオブジェクト検出・セマンティックセグメンテーションなどの下流タスクでの改善を示す。

提案手法

  • チャネルアテンションを水平・垂直方向に並列の2つの1D特徴エンコード処理に分解する。
  • 2つの1Dプール特徴を連結し、共有の1x1畳み込みを通して方向認識アテンションマップ(g^hとg^w)を生成する。
  • アテンションマップを入力特徴マップに要素ごとの乗算で適用する:Y_c(i,j) = X_c(i,j) * g^h_c(i) * g^w_c(j)。
  • ボトルネックサイズを制御しモバイル設定で計算を軽く保つための縮小比率rを使用する。
  • 逆残差ブロック(MobileNetV2)と砂時計ボトルネック(MobileNeXt)へのプラグイン互換性を実証し、ImageNet、COCO、VOC、Cityscapesで評価する。
Figure 1: Performance of different attention methods on three classic vision tasks. The y-axis labels from left to right are top-1 accuracy, mean IoU, and AP, respectively. Clearly, our approach not only achieves the best result in ImageNet classification [ 33 ] against the SE block [ 18 ] and CBAM
Figure 1: Performance of different attention methods on three classic vision tasks. The y-axis labels from left to right are top-1 accuracy, mean IoU, and AP, respectively. Clearly, our approach not only achieves the best result in ImageNet classification [ 33 ] against the SE block [ 18 ] and CBAM

実験結果

リサーチクエスチョン

  • RQ12つの1Dプーリングを介して座標情報を埋め込むことは、モバイルネットワークにおけるSEやCBAMより性能を向上させるか。
  • RQ2座標アテンションが、MobileNetV2、MobileNeXt、EfficientNetといった異なるモバイルバックボーンにプラグインされた場合、ベースラインアテンション手法と比べてどうなるか。
  • RQ3縮小比率の影響は精度とモデルサイズにどう現れるか、座標アテンションはこのハイパーパラメータに対して頑健か。
  • RQ4座標アテンションを備えたモデルは、物体検出やセマンティックセグメンテーションといった下流タスクへ、他の軽量アテンションより良く転移するか。

主な発見

  • 座標アテンションはImageNet分類においてモバイルネットワーク上でSEおよびCBAMより優れた性能を示す。
  • 2つの1Dプールを介して空間座標情報を埋め込むことで、位置情報の手掛かりを伴う長距離依存を保持し、関心のある物体の局所化を改善する。
  • 試験したバックボーン(MobileNetV2、MobileNeXt、EfficientNet)全般で、座標アテンションは最小のオーバーヘッドで一貫した利得を提供し、オブジェクト検出やセマンティックセグメンテーションの下流タスクで顕著な改善を示す。
  • 水平アテンションと垂直アテンションを組み合わせるアブレーションは、いずれか一方を用いるより効果的であり、座標情報埋め込みの価値を確認している。
  • 可視化は、座標アテンションがSEおよびCBAMと比較して入力特徴マップにおいて関心のある物体をよりよく強調することを示している。
Figure 2: Schematic comparison of the proposed coordinate attention block (c) to the classic SE channel attention block [ 18 ] (a) and CBAM [ 44 ] (b). Here, “GAP” and “GMP” refer to the global average pooling and global max pooling, respectively. ‘X Avg Pool’ and ’Y Avg Pool’ refer to 1D horizontal
Figure 2: Schematic comparison of the proposed coordinate attention block (c) to the classic SE channel attention block [ 18 ] (a) and CBAM [ 44 ] (b). Here, “GAP” and “GMP” refer to the global average pooling and global max pooling, respectively. ‘X Avg Pool’ and ’Y Avg Pool’ refer to 1D horizontal

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。