Skip to main content
QUICK REVIEW

[论文解读] Learn To Pay Attention

Saumya Jetley, Nicholas A. Lord|arXiv (Cornell University)|Apr 6, 2018
Adversarial Robustness in Machine Learning参考文献 35被引用 124
一句话总结

一个端到端可训练的注意力模块,用于CNN,使用全局图像描述符作为查询以计算多尺度、基于位置的注意力;提升分类和弱监督分割,并在对抗鲁棒性方面有一定提升。

ABSTRACT

We propose an end-to-end-trainable attention module for convolutional neural network (CNN) architectures built for image classification. The module takes as input the 2D feature vector maps which form the intermediate representations of the input image at different stages in the CNN pipeline, and outputs a 2D matrix of scores for each map. Standard CNN architectures are modified through the incorporation of this module, and trained under the constraint that a convex combination of the intermediate 2D feature vectors, as parameterised by the score matrices, must extit{alone} be used for classification. Incentivised to amplify the relevant and suppress the irrelevant or misleading, the scores thus assume the role of attention values. Our experimental observations provide clear evidence to this effect: the learned attention maps neatly highlight the regions of interest while suppressing background clutter. Consequently, the proposed function is able to bootstrap standard CNN architectures for the task of image classification, demonstrating superior generalisation over 6 unseen benchmark datasets. When binarised, our attention maps outperform other CNN-based attention maps, traditional saliency maps, and top object proposals for weakly supervised segmentation as demonstrated on the Object Discovery dataset. We also demonstrate improved robustness against the fast gradient sign method of adversarial attack.

研究动机与目标

  • 推动并设计一个整合的注意力机制,突出显著的图像区域以提升CNN分类。
  • 使分类能够通过受学习注意力分数引导的局部特征向量的凸组合来完成。
  • 证明在现有架构(如VGG、ResNet)上添加多尺度注意力并在多样数据集上获得性能提升。
  • 探索注意力图在弱监督分割和对抗鲁棒性中的有用性。
  • 评估对未见数据集的跨域泛化能力。

提出的方法

  • 在中间层定义局部特征向量和全局特征向量 g。
  • 通过一个可学习的相似性函数 C 计算局部特征与 g 之间的相容性分数。
  • 用 softmax 归一化分数以获得注意力权重并形成一个注意力加权的全局描述符 ga。
  • 用 ga 替换原始全局描述符以进行最终分类,从而实现端到端训练,并使用交叉熵损失。
  • 研究多种配置:单层/多层、点积对参数化相容性、以及在不同层之间拼接或独立分类器的方案。
  • 将注意力应用于 VGG 和 ResNet 架构,并在 CIFAR-10/100、CUB-200-2011、SVHN 以及跨域数据集上进行评估;同时评估弱监督分割和对抗鲁棒性。

实验结果

研究问题

  • RQ1将端到端可训练的注意力模块引入是否会提升标准和细粒度数据集上的图像分类性能?
  • RQ2注意力加权表示是否可以提升对域转移数据的泛化?
  • RQ3在没有像素级标注的情况下,注意力图是否对弱监督分割有效?
  • RQ4所提出的注意力机制对对抗扰动的鲁棒性有何影响?
  • RQ5跨层多尺度注意力对对象部位与整对象的识别有何影响?

主要发现

  • 引入注意力的网络在 CIFAR-10/100、CIFAR/CUB/SVHN 的细粒度任务以及跨域数据集上优于基线。
  • 多层注意力(最近的2–3层)相较无注意力基线和先前的注意力方法(如 GAP、PAN)带来显著提升。
  • 所提方法的二值化注意力图在弱监督分割的 Object Discovery 任务上优于其他基于 CNN 的注意力图、传统显著性图以及顶层对象 proposals。
  • 在低到中等的 L∞ 范围内,注意力感知模型对对抗扰动具有更好的鲁棒性,且在更高扰动水平时差距缩小。
  • 注意力图集中于对象区域并抑制背景,且具有逐层专业化特征(较低层关注周边,较高层关注中心对象)。
  • 跨域结果显示在将 CIFAR 基于模型迁移到未见数据集时有持续改进(平均幅度约 6%)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。