QUICK REVIEW

[论文解读] Factorized Attention: Self-Attention with Linear Complexities.

Zhuoran Shen, Mingyuan Zhang|arXiv (Cornell University)|Dec 4, 2018

Advanced Neural Network Applications参考文献 17被引用 12

一句话总结

本文提出了一种因子化注意力机制（Factorized Attention），这是一种标准点积注意力的线性复杂度替代方案，将内存和计算量随输入大小的增长从二次方降低为线性。通过将自注意力分解为空间和通道两个分量，该方法实现了在高分辨率模型中的高效集成，并在 MS-COCO 和 Scene Flow 基准测试中取得了最先进性能。

ABSTRACT

Dot-product attention has wide applications in computer vision and natural language processing. However, its memory and computational costs grow quadratically with the input size. Such growth prohibits its application on high-resolution inputs. To remedy this drawback, this paper proposes a novel efficient attention mechanism equivalent to dot-product attention but with substantially less memory and computational costs. Its resource efficiency allows more widespread and flexible integration of attention modules into a network, which leads to better accuracies. Empirical evaluations demonstrated the effectiveness of its advantages. Efficient attention modules brought significant performance boosts to object detectors and instance segmenters on MS-COCO 2017. Further, the resource efficiency democratizes attention to complex models, where high costs prohibit the use of dot-product attention. As an exemplar, a model with efficient attention achieved state-of-the-art accuracies for stereo depth estimation on the Scene Flow dataset. Code is available at this https URL.

研究动机与目标

解决视觉与自然语言处理模型中点积注意力带来的二次方内存与计算成本问题。
在因资源限制而使标准注意力不可行的高分辨率输入中，实现注意力机制的可用性。
设计一种高效注意力机制，在显著降低计算与内存开销的同时保持性能。
通过降低复杂模型中注意力模块的资源需求，使其更易于普及应用。
在包括目标检测、实例分割与立体深度估计在内的多样化视觉任务中，验证所提机制的有效性。

提出的方法

将标准点积自注意力分解为两个顺序执行的组件：空间注意力与通道注意力。
在特征图上应用空间注意力，以计算空间位置之间的注意力权重。
在空间聚合之后，应用通道注意力以跨通道进行注意力计算。
将完整的注意力计算分解为两个线性时间操作，使复杂度从 O(n²) 降低至 O(n)，其中 n 为输入长度。
在保持标准注意力表示能力的同时，实现显著的效率提升。
通过极少的架构修改，将因子化注意力模块集成到现有模型中。

实验结果

研究问题

RQ1自注意力能否被重构为线性复杂度，同时保持性能？
RQ2因子化注意力带来的效率提升在高分辨率输入上的模型准确率方面能有多大改善？
RQ3所提出的机制是否能使原本因成本过高而无法使用标准点积注意力的模型中实现注意力机制？
RQ4因子化注意力机制是否能在下游视觉任务中达到最先进性能？

主要发现

所提出的因子化注意力机制将内存与计算复杂度从 O(n²) 降低至 O(n)，从而实现了在高分辨率输入上的高效应用。
使用该高效注意力模块的目标检测器与实例分割器在 MS-COCO 2017 数据集上取得了显著的性能提升。
采用因子化注意力的模型在 Scene Flow 数据集上的立体深度估计任务中达到了最先进准确率。
效率的提升使得注意力模块能够更广泛地集成到此前因资源限制而无法使用标准点积注意力的复杂架构中。
实证评估证实，该因子化机制在大幅降低资源消耗的同时，仍能保持具有竞争力的性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。