[论文解读] Residual Attention Network for Image Classification
论文介绍了 Residual Attention Network,通过堆叠 Attention Modules,结合自下而上的掩码分支和注意力残差学习,实现在深度网络中获得先进的图像分类性能,同时实现非常深的网络。它在 CIFAR-10/100 和 ImageNet 上展示了强结果,计算量更低。
In this work, we propose "Residual Attention Network", a convolutional neural network using attention mechanism which can incorporate with state-of-art feed forward network architecture in an end-to-end training fashion. Our Residual Attention Network is built by stacking Attention Modules which generate attention-aware features. The attention-aware features from different modules change adaptively as layers going deeper. Inside each Attention Module, bottom-up top-down feedforward structure is used to unfold the feedforward and feedback attention process into a single feedforward process. Importantly, we propose attention residual learning to train very deep Residual Attention Networks which can be easily scaled up to hundreds of layers. Extensive analyses are conducted on CIFAR-10 and CIFAR-100 datasets to verify the effectiveness of every module mentioned above. Our Residual Attention Network achieves state-of-the-art object recognition performance on three benchmark datasets including CIFAR-10 (3.90% error), CIFAR-100 (20.45% error) and ImageNet (4.8% single model and single crop, top-5 error). Note that, our method achieves 0.6% top-1 accuracy improvement with 46% trunk depth and 69% forward FLOPs comparing to ResNet-200. The experiment also demonstrates that our network is robust against noisy labels.
研究动机与目标
- 激发并开发一个将混合注意力机制整合到深度卷积网络中以提高特征判别能力。
- 引入一个具备自下而上的掩码分支的注意力模块,以对主干特征进行软性加权。
- 通过注意力残差学习使极深网络的训练成为可能,以缓解性能下降。
- 展示对噪声标签的鲁棒性以及与 ResNet 及相关架构相比的参数效率提升。
提出的方法
- 堆叠 Attention Modules 形成一个 Residual Attention Network,其中每个模块都包含一个掩码分支和一个主干分支。
- 在掩码分支中使用自下而上-自上而下的前向结构生成在 [0,1] 区间的注意力掩码 M(x)。
- 应用注意力残差学习:H(x) = (1 + M(x)) * F(x),以保留信息并改善梯度流动。
- 对混合注意力、通道注意力和空间注意力的激活进行实验;选择混合注意力作为最佳表现。
- 将主干单元替换为 ResNet/ResNeXt/Inception 的变体,以展示结构兼容性与效率。
- 在 CIFAR-10、CIFAR-100 和 ImageNet 上进行评估;并与 ResNet、WRN 以及其他基线进行比较。
实验结果
研究问题
- RQ1堆叠的 Attention Modules 结合自下而上的掩码是否能提升图像分类性能,超越基线的深度网络?
- RQ2注意力残余学习是否能实现数百层网络的训练而不降低性能?
- RQ3不同注意力激活(混合、通道、空间)对分类准确率有何影响?
- RQ4在准确率和效率方面,Residual Attention Network 相较于最先进方法在 CIFAR-10/100 与 ImageNet 上的性能如何?
- RQ5该方法在训练时对噪声标签是否具有鲁棒性?
主要发现
- 随着 Attention Modules 数量的增加,Attention Residual Learning 始终提升性能。
- 在 CIFAR-10 上,混合注意力激活在所测试选项中提供了最佳准确率。
- Attention-452 在 CIFAR-10 的错误率为 3.90%,在 CIFAR-100 为 20.45%,相比某些 ResNet 基线,参数和 FLOPs 明显更少。
- 在 ImageNet 上,Attention-56 和 Attention-92 在单裁剪评估下优于若干 ResNet/ResNeXt/Inception 基线,且 FLOPs 和参数更低或相当。
- 该网络由于软掩码分支的梯度过滤,展现对噪声标签的鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。