Skip to main content
QUICK REVIEW

[论文解读] Paying More Attention to Attention: Improving the Performance of Convolutional Neural Networks via Attention Transfer

Sergey Zagoruyko, Nikos Komodakis|arXiv (Cornell University)|Dec 12, 2016
Visual Attention and Saliency Detection被引用 1,542
一句话总结

本文在卷积神经网络中定义了空间注意力图,并利用它们将注意力从强教师转移给较弱的学生,在 CIFAR、ImageNet 以及微调任务上获得显著性能提升,其中基于激活的注意力转移(AT)优于全激活转移,并在多数情况下与知识蒸馏协同作用。

ABSTRACT

Attention plays a critical role in human visual experience. Furthermore, it has recently been demonstrated that attention can also play an important role in the context of applying artificial neural networks to a variety of tasks from fields such as computer vision and NLP. In this work we show that, by properly defining attention for convolutional neural networks, we can actually use this type of information in order to significantly improve the performance of a student CNN network by forcing it to mimic the attention maps of a powerful teacher network. To that end, we propose several novel methods of transferring attention, showing consistent improvement across a variety of datasets and convolutional neural network architectures. Code and models for our experiments are available at https://github.com/szagoruyko/attention-transfer

研究动机与目标

  • 动机:将注意力作为网络之间知识转移信号。
  • 定义卷积神经网络的基于激活和基于梯度的空间注意力图。
  • 提出并在多种架构和数据集上评估多种注意力转移机制。
  • 研究注意力转移与标准知识蒸馏与微调的相互作用。
  • 证明注意力转移可以提高最终准确性和收敛速度。

提出的方法

  • 通过在空间维度聚合通道激活来定义基于激活的空间注意力图(例如绝对值之和、幂和、或幂的最大值)。
  • 将梯度基注意力定义为对输入的损失对输入的梯度,表示输入的敏感度。
  • 对注意力图进行归一化,并将学生与教师的注意力图之间的距离(l2 范数)最小化,作为 AT 损失项。
  • 在需要时,将 AT 与标准知识蒸馏相结合,加入蒸馏损失项。
  • 可选地对梯度基 AT 进行第二次反向传播,并对梯度实施水平翻转不变性约束。
  • 在多种 CNN 架构(NIN、ResNet、WRN)和数据集(CIFAR-10、ImageNet、Scenes、CUB)上评估 AT 和梯度基 AT。
  • 将基于激活的 AT 与全激活转移进行比较,以显示 AT 提供更好的最终准确性提升和更快的收敛。

实验结果

研究问题

  • RQ1是否可以在 CNN 中以一种能实现教师向学生有效知识转移的方式定义空间注意力图?
  • RQ2基于激活的注意力图是否比传输完整激活提供更好的迁移信号?
  • RQ3基于激活的和梯度基的注意力转移在不同架构和数据集上的表现如何?
  • RQ4注意力转移能否补充或超越标准知识蒸馏,它如何影响收敛速度?
  • RQ5注意力转移对像 ImageNet 这样的大规模数据集以及细粒度/场景分类任务是否有益?

主要发现

  • 基于激活的注意力转移(AT)在 CIFAR 和更大数据集上始终提升学生模型的性能,相对于基线。
  • 基于激活的 AT 通常优于全激活转移,提供更快的收敛和更好的最终正确率。
  • AT 可以与知识蒸馏(AT+KD)有效结合,在若干设置上进一步提升结果。
  • 梯度基 AT 也能带来性能提升,对称范数与双向反向传播在某些训练条件下显示出强烈结果。
  • 在 ImageNet 上,使用 AT 以 ResNet-18 作为学生、ResNet-34 作为教师,在给定设置下实现了验证准确率在 top-1 提升 1.1%、top-5 提升 0.8%。
  • 在对预训练模型进行微调时,AT 转移在细粒度数据集(CUB)和场景数据集(Scenes)上仍然有益,缩小了较小与较大网络之间的差距。
  • 在选定的残差组上添加 AT 损失可以显著提高转移效果,并且在并非所有情况下都需要 KD。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。