[论文解读] Global Attention Mechanism: Retain Information to Enhance Channel-Spatial Interactions
本文提出 Global Attention Mechanism (GAM),通过 3D-置换结合 MLP 和卷积空间子模块,在通道和空间维度之间保留信息,在 CIFAR-100 和 ImageNet-1K 上的 ResNet 和 MobileNet 骨干网络中,相较于以往的注意力模块显示出一致的提升。
A variety of attention mechanisms have been studied to improve the performance of various computer vision tasks. However, the prior methods overlooked the significance of retaining the information on both channel and spatial aspects to enhance the cross-dimension interactions. Therefore, we propose a global attention mechanism that boosts the performance of deep neural networks by reducing information reduction and magnifying the global interactive representations. We introduce 3D-permutation with multilayer-perceptron for channel attention alongside a convolutional spatial attention submodule. The evaluation of the proposed mechanism for the image classification task on CIFAR-100 and ImageNet-1K indicates that our method stably outperforms several recent attention mechanisms with both ResNet and lightweight MobileNet.
研究动机与目标
- 阐明在通道和空间维度之间保留信息以增强跨维度交互在注意力中的必要性。
- 提出 GAM 以放大全局通道-空间依赖性,同时减少信息丢失。
- 在标准基准(CIFAR-100 和 ImageNet-1K)上,针对多种架构(ResNet 和 MobileNet),对比现有注意力模块评估 GAM。
提出的方法
- 通道注意力子模块使用 3D 置换和两层 MLP 来捕获跨维度信息。
- 空间注意力子模块使用两层卷积且不进行池化以保留信息,支持可选的分组卷积和通道混洗以减少参数。
- GAM 先应用通道注意力,再应用空间注意力,通过逐元素相乘形成最终特征图。
- 在相同训练条件下,与 SE、BAM、CBAM、TAM 和 ABN 进行对比。
- 消融研究考察通道注意力与空间注意力的贡献,以及 CBAM/GAM 中最大池化的影响。
实验结果
研究问题
- RQ1GAM 是否在不同数据集和架构上为现有注意力模块带来一致的性能提升?
- RQ2通道注意力和空间注意力组件如何共同作用提升 GAM 的性能?
- RQ3设计选择(例如池化、分组卷积)对 GAM 的效率和准确性有何影响?
- RQ4GAM 是否能有效扩展到大规模数据集和不同深度的模型(ResNet18/50、MobileNetV2)?
主要发现
| Architecture | Parameters | FLOPs | Top-1 Error (%) | Top-5 Error (%) |
|---|---|---|---|---|
| ResNet 50 | 23.71M | 1.3G | 22.74 | 6.37 |
| ResNet 50 + SE | 26.22M | 1.31G | 20.29 | 5.18 |
| ResNet 50 + BAM | 24.06M | 1.33G | 19.97 | 5.03 |
| ResNet 50 + CBAM | 26.24M | 1.31G | 19.44 | 4.66 |
| ResNet 50 + GAM | 149.47M | 8.02G | 18.67 | 4.54 |
| ResNet 50 + GAM (gc) | 57.05M | 3.08G | 18.99 | 4.87 |
| ResNet 18 | — | — | 30.91 | 11.12 |
| ResNet 18 + SE | — | — | 30.07 | 10.59 |
| ResNet 18 + BAM | — | — | 30.18 | 10.77 |
| ResNet 18 + CBAM | — | — | 29.89 | 10.53 |
| ResNet 18 + TAM | — | — | 30.00 | 10.64 |
| ResNet 18 + ABN | — | — | 29.40 | 10.34 |
| ResNet 18 + GAM | — | — | 29.34 | 10.23 |
| ResNet 50 + ABN | — | — | 23.43 | 6.92 |
| ResNet 50 + GAM | — | — | 22.78 | 6.43 |
| ResNet 50 + GAM (gc) | — | — | 23.01 | 6.52 |
| MobileNet V2 | — | — | 30.52 | 11.20 |
| MobileNet V2 + SE | — | — | 29.77 | 10.65 |
| MobileNet V2 + BAM | — | — | 29.91 | 10.80 |
| MobileNet V2 + CBAM | — | — | 29.74 | 10.66 |
| MobileNet V2 + GAM | — | — | 29.31 | 10.43 |
- GAM 在 CIFAR-100 的 ResNet-50 上优于 SE、BAM 和 CBAM,包括带分组卷积的变体。
- 在 ImageNet-1K 上,GAM 相较基线和其他注意力模块,一直提升了 ResNet-18、ResNet-50 和 MobileNetV2 的 Top-1 与 Top-5 错误率。
- GAM 在参数更少的情况下取得更好准确性,相较于如 ResNet-18 + GAM 与 ABN。
- 消融实验表明,空间注意力和通道注意力均对性能提升有贡献,二者结合可获得最佳结果。
- 在 GAM 的设计中移除最大池化(或 CBAM)仍可获得较强的性能,且 GAM 常保持优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。