QUICK REVIEW

[论文解读] Exploring Self-attention for Image Recognition

Hengshuang Zhao, Jiaya Jia|arXiv (Cornell University)|Apr 28, 2020

Domain Adaptation and Few-Shot Learning参考文献 47被引用 33

一句话总结

本论文比较成对自注意力(pairwise)与基于 patch 的自注意力作为卷积在 ImageNet 规模图像识别的替代方案，并展示向量和 patchwise 自注意力可以在较低或可比的计算量下匹配或超越卷积基线。

ABSTRACT

Recent work has shown that self-attention can serve as a basic building block for image recognition models. We explore variations of self-attention and assess their effectiveness for image recognition. We consider two forms of self-attention. One is pairwise self-attention, which generalizes standard dot-product attention and is fundamentally a set operator. The other is patchwise self-attention, which is strictly more powerful than convolution. Our pairwise self-attention networks match or outperform their convolutional counterparts, and the patchwise models substantially outperform the convolutional baselines. We also conduct experiments that probe the robustness of learned representations and conclude that self-attention networks may have significant benefits in terms of robustness and generalization.

研究动机与目标

研究两种形式的自注意力（成对的 pairwise 和基于 patch 的 patchwise）作为图像识别的构建块。
评估自注意力在准确性、参数数量和 FLOPs 方面是否能够匹配或超过卷积网络。
考察在自注意力下学得的表示的鲁棒性和泛化特性。

提出的方法

将成对自注意力形式化为带通道自适应权重和位置编码的集合算子。
引入严格强于卷积的 patchwise 自注意力，并计算位置感知和通道感知的权重。
构建将注意力与通过瓶颈层的线性特征变换交错的自注意力模块。
构建带有剩余型块和多阶段主干的 SAN 架构（SAN10、SAN15、SAN19）。
在 ImageNet 上与 ResNet 基线进行比较，评估 top-1/top-5 精度、参数和 FLOPs。
在关系函数、映射函数、感受野大小（footprint size）和位置编码上进行消融，以理解设计选择。

实验结果

研究问题

RQ1成对自注意力在资源相近的情况下，是否能达到与卷积基线相当甚至更高的 ImageNet 规模准确率？
RQ2基于 patch 的自注意力变体是否显著优于卷积网络及其参数/ FLOPs 预算？
RQ3不同的关系函数、映射架构、感受野大小和位置编码如何影响性能和效率？
RQ4相较于纯卷积模型，自注意力网络是否表现出更好的鲁棒性和泛化能力？

主要发现

方法	top-1	top-5	参数	FLOPs
Conv.-ResNet26	76.0	92.8	13.7M	2.4G
SAN10-pair.	74.9	92.1	10.5M	2.2G
SAN10-patch.	77.1	93.5	10.9M	1.7G
SAN15-pair.	76.6	93.1	54.5 (22.1)	77.1 (16.0)
SAN15-patch.	78.0	93.9	53.7 (24.5)	76.1 (17.8)
SAN19-pair.	76.9	93.4	54.7 (22.2)	77.1 (16.3)
SAN19-patch.	78.2	93.9	54.2 (24.0)	76.3 (17.6)

成对自注意力网络在参数和 FLOP 预算相近或更低的情况下，达到或超过卷积对比对象。
基于 patch 的自注意力模型显著优于卷积基线，SAN15 达到 78% 的 top-1 精度，而 ResNet50 为 76%，且参数和 FLOPs 更少。
在受控实验中，向量（多通道）注意力优于标量注意力。
增大感受野通常会提升自注意力的准确率，直到饱和；patchwise 注意力显示出与固定内核大小无关的强劲增益。
相对位置编码显著优于无编码；绝对编码优于无编码。
带 patchwise 注意力的 SAN 模型可以超过更大的 ResNets（如 SAN15 对 ResNet50），同时在参数和计算量上更高效。
不同的变换函数（phi、psi、beta）和多层注意力映射提升性能，通常三种不同变换能获得最佳结果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。