QUICK REVIEW

[论文解读] An Empirical Study of Spatial Attention Mechanisms in Deep Networks

Xizhou Zhu, Dazhi Cheng|arXiv (Cornell University)|Apr 11, 2019

Advanced Neural Network Applications参考文献 50被引用 102

一句话总结

本论文对 Transformer 注意力、可变形卷积和动态卷积中的空间注意力机制进行了全面的消融研究，揭示了查询内容和键内容因素在自注意力与编码器-解码器注意力中的作用出人意料。

ABSTRACT

Attention mechanisms have become a popular component in deep neural networks, yet there has been little examination of how different influencing factors and methods for computing attention from these factors affect performance. Toward a better general understanding of attention mechanisms, we present an empirical study that ablates various spatial attention elements within a generalized attention formulation, encompassing the dominant Transformer attention as well as the prevalent deformable convolution and dynamic convolution modules. Conducted on a variety of applications, the study yields significant findings about spatial attention in deep networks, some of which run counter to conventional understanding. For example, we find that the query and key content comparison in Transformer attention is negligible for self-attention, but vital for encoder-decoder attention. A proper combination of deformable convolution with key content only saliency achieves the best accuracy-efficiency tradeoff in self-attention. Our results suggest that there exists much room for improvement in the design of attention mechanisms.

研究动机与目标

阐明不同注意力因子（查询内容、键内容、相对位置）如何影响跨自然语言处理与视觉任务的性能。
在一个广义的空间注意力框架下，将 Transformer 注意力、可变形卷积和动态卷积统一起来。
确定对自注意力与编码器-解码器注意力至关重要的注意力组件。
在目标检测、语义分割和神经机器翻译中评估注意力模块变体的准确率-效率权衡。

提出的方法

提出一个广义的多头注意力公式，涵盖 Transformer 注意力、常规/可变形卷积与动态卷积（Eq. 1）。
将 Transformer 注意力分解为四个项（E1–E4），分别对应查询内容、查询内容与相对位置、键内容以及相对位置。
通过通过性激活项来执行消融实验，利用 beta 参数研究它们对性能与效率的影响（Eq. 8）。
将注意力模块并入目标检测与分割的骨干网，以及基于 Transformer 的神经机器翻译模型，以跨任务比较准确性与 FLOPs。
通过在统一框架内对齐它们的影响因子使用情况，将可变形卷积和动态卷积与 Transformer 注意力进行对比。
使用标准基准：COCO 用于目标检测，Cityscapes 用于语义分割，WMT14 英德对用于神经机器翻译。

实验结果

研究问题

RQ1在自注意力与编码器-解码器注意力中，各注意力因子（查询内容、键内容、相对位置）对性能的实测影响是多少？
RQ2在视觉任务中，可变形卷积或动态卷积是否能实现比标准 Transformer 注意力更好的准确性-效率权衡？
RQ3将可变形卷积与键内容显著性结合如何影响自注意力的准确性与效率？
RQ4在某些设置下，非查询敏感的注意力项（键内容、相对位置）对高性能是否必不可少？
RQ5在自然语言处理和视觉应用中，为设计空间注意力机制产生了哪些一般性指南？

主要发现

在 Transformer 注意力中，查询敏感项（尤其是查询内容和键内容）在自注意力中作用较小，但在编码器-解码器注意力中至关重要。
将可变形卷积与仅键内容项的恰当组合在自注意力下为图像识别带来最佳的准确性-效率权衡。
在自注意力中，查询内容与相对位置的因素以及仅键内容是最重要的，评估不同项配置显示出通过选择性使用项能实现显著的性能提升。
仅含查询敏感项的模块的性能可与使用查询无关项的模块相比，表明是设计问题而非自注意力的固有属性。
可变形卷积通过利用查询内容和相对位置有效工作，在与键内容线索恰当配对时，可能在图像识别中超过 Transformer 注意力。
总体而言，该研究揭示在空间注意力设计中，超越传统的以查询为中心的直觉还有大量改进空间。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。