[论文解读] Demystifying Local Vision Transformer: Sparse Connectivity, Weight Sharing, and Dynamic Weight
该论文将局部视觉Transformer的局部注意力重新解释为通道独立的局部连接层,通过稀疏连接性、权重共享和动态权重计算进行分析。结果表明,采用深度可分离卷积和动态权重变体的模型在ImageNet、COCO和ADE基准上的性能与Swin Transformer相当或略优,证明正则化和动态权重显著提升了网络容量。
Vision Transformer (ViT) attains state-of-the-art performance in visual recognition, and the variant, Local Vision Transformer, makes further improvements. The major component in Local Vision Transformer, local attention, performs the attention separately over small local windows. We rephrase local attention as a channel-wise locally-connected layer and analyze it from two network regularization manners, sparse connectivity and weight sharing, as well as weight computation. Sparse connectivity: there is no connection across channels, and each position is connected to the positions within a small local window. Weight sharing: the connection weights for one position are shared across channels or within each group of channels. Dynamic weight: the connection weights are dynamically predicted according to each image instance. We point out that local attention resembles depth-wise convolution and its dynamic version in sparse connectivity. The main difference lies in weight sharing - depth-wise convolution shares connection weights (kernel weights) across spatial positions. We empirically observe that the models based on depth-wise convolution and the dynamic variant with lower computation complexity perform on-par with or sometimes slightly better than Swin Transformer, an instance of Local Vision Transformer, for ImageNet classification, COCO object detection and ADE semantic segmentation. These observations suggest that Local Vision Transformer takes advantage of two regularization forms and dynamic weight to increase the network capacity.
研究动机与目标
- 理解局部视觉Transformer成功背后的归纳偏置和正则化机制。
- 分析局部注意力中的稀疏连接性和权重共享如何提升模型容量和泛化能力。
- 研究动态权重计算在不增加计算复杂度的前提下对性能的提升作用。
- 将局部注意力与深度可分离卷积进行比较,评估其在视觉任务中的性能等价性。
- 通过实证验证,正则化和动态权重是局部视觉Transformer强大性能的关键因素。
提出的方法
- 将局部注意力重新表述为通道独立的局部连接层,以从网络正则化视角进行分析。
- 从稀疏连接性的角度分析局部注意力,其中每个位置仅与局部窗口内的空间邻近位置连接,且不存在跨通道连接。
- 通过在通道之间或通道组内共享连接权重,引入权重共享机制,以模拟深度可分离卷积。
- 提出一种动态权重机制,其中连接权重根据每个图像实例进行预测,实现自适应特征建模。
- 实现基于深度可分离卷积和动态权重变体的模型作为基线,与Swin Transformer进行比较。
- 在ImageNet分类、COCO目标检测和ADE语义分割任务上评估模型,以衡量其性能和效率。
实验结果
研究问题
- RQ1局部注意力中的稀疏连接性和权重共享如何影响局部视觉Transformer的表征能力?
- RQ2与固定权重或共享权重相比,动态权重计算在局部注意力中能多大程度上提升性能?
- RQ3基于深度可分离卷积和动态权重变体的模型在准确率和效率方面与Swin Transformer相比如何?
- RQ4正则化机制(稀疏连接性和权重共享)与动态权重在实现优异性能中的相对贡献是什么?
- RQ5一种具有与局部注意力相似归纳偏置的更简单架构,能否在视觉基准上表现优于或等同于Swin Transformer?
主要发现
- 基于深度可分离卷积和动态权重变体的模型在ImageNet分类任务上的性能与Swin Transformer相当。
- 计算复杂度更低的动态权重变体在COCO目标检测和ADE语义分割任务上表现优于或等同于Swin Transformer。
- 局部注意力中的稀疏连接性和权重共享是关键的正则化机制,可增强模型泛化能力和容量。
- 动态权重机制使每个图像实例都能获得自适应的注意力权重,从而在不增加模型复杂度的前提下提升特征表示能力。
- 实证结果证实,两种正则化形式与动态权重计算的结合是局部视觉Transformer强大性能的根本原因。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。