QUICK REVIEW

[论文解读] Transformer in Convolutional Neural Networks

Yun Liu, Guolei Sun|arXiv (Cornell University)|Jun 6, 2021

Advanced Neural Network Applications参考文献 62被引用 46

一句话总结

本文提出分层多头自注意力（H-MHSA），一种通过在空间网格上分层学习特征关系来降低视觉变换器计算复杂度的方法。通过将小图像块逐步合并为更大的网格并将每组视为单个标记，H-MHSA 实现了高效的注意力计算，同时保持高精度，从而构建了一种新型 CNN 主干网络架构 TransCNN，实现了最先进的图像识别性能。

ABSTRACT

We tackle the low-efficiency flaw of vision transformer caused by the high computational/space complexity in Multi-Head Self-Attention (MHSA). To this end, we propose the Hierarchical MHSA (H-MHSA), whose representation is computed in a hierarchical manner. Specifically, our H-MHSA first learns feature relationships within small grids by viewing image patches as tokens. Then, small grids are merged into larger ones, within which feature relationship is learned by viewing each small grid at the preceding step as a token. This process is iterated to gradually reduce the number of tokens. The H-MHSA module is readily pluggable into any CNN architectures and amenable to training via backpropagation. We call this new backbone TransCNN, and it essentially inherits the advantages of both transformer and CNN. Experiments demonstrate that TransCNN achieves state-of-the-art accuracy for image recognition. Code and pretrained models are available at this https URL. This technical report will keep updating by adding more experiments.

研究动机与目标

解决视觉变换器中多头自注意力（MHSA）的高计算与内存复杂度问题。
设计一种更高效的注意力机制，在降低计算负载的同时保持表征能力。
在不进行架构全面重构的前提下，将新机制集成到 CNN 架构中。
通过混合 CNN-Transformer 主干网络实现图像识别的最先进精度。
通过反向传播实现端到端训练。

提出的方法

H-MHSA 通过首先将小图像块作为局部网格内的标记进行处理，分层计算注意力。
在学习组内关系后，相邻的小网格被合并为更大的网格，这些网格在下一级注意力计算中被视为单个标记。
这种分层合并减少了每级的标记数量，从而逐步降低计算复杂度。
H-MHSA 模块被设计为可即插即用，可集成到现有 CNN 架构中，同时保留其归纳偏置。
完整架构名为 TransCNN，结合 CNN 特征提取与分层自注意力，以提升表征学习能力。
模型通过标准反向传播进行端到端训练，实现 CNN 与注意力组件的联合优化。

实验结果

研究问题

RQ1分层注意力机制是否能在不牺牲性能的前提下降低视觉变换器中自注意力的计算成本？
RQ2与标准 MHSA 相比，H-MHSA 中的分层特征聚合在效率和精度方面表现如何？
RQ3像 TransCNN 这样的混合 CNN-Transformer 主干网络在多大程度上能超越纯 CNN 或视觉变换器模型？
RQ4H-MHSA 模块是否与标准 CNN 训练流程和反向传播兼容？
RQ5分层标记合并对表征质量与模型泛化能力有何影响？

主要发现

TransCNN 在图像识别基准上实现了最先进精度，优于现有模型。
与标准 MHSA 相比，分层注意力机制显著降低了计算复杂度。
H-MHSA 通过网格合并逐步减少标记数量，实现了高效的注意力计算。
所提出的 TransCNN 架构与标准 CNN 训练和反向传播流程兼容。
该方法在提升效率的同时保持了强大的表征能力，性能提升已得到验证。
代码与预训练模型已公开，支持可复现性与进一步研究。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。