[论文解读] ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias
ViTAE 通过并行的局部性和多尺度降维单元,将卷积中的内在归纳偏置引入视觉变换器,从而在数据和训练方面实现高效的 ImageNet 性能。
Transformers have shown great potential in various computer vision tasks owing to their strong capability in modeling long-range dependency using the self-attention mechanism. Nevertheless, vision transformers treat an image as 1D sequence of visual tokens, lacking an intrinsic inductive bias (IB) in modeling local visual structures and dealing with scale variance. Alternatively, they require large-scale training data and longer training schedules to learn the IB implicitly. In this paper, we propose a novel Vision Transformer Advanced by Exploring intrinsic IB from convolutions, ie, ViTAE. Technically, ViTAE has several spatial pyramid reduction modules to downsample and embed the input image into tokens with rich multi-scale context by using multiple convolutions with different dilation rates. In this way, it acquires an intrinsic scale invariance IB and is able to learn robust feature representation for objects at various scales. Moreover, in each transformer layer, ViTAE has a convolution block in parallel to the multi-head self-attention module, whose features are fused and fed into the feed-forward network. Consequently, it has the intrinsic locality IB and is able to learn local features and global dependencies collaboratively. Experiments on ImageNet as well as downstream tasks prove the superiority of ViTAE over the baseline transformer and concurrent works. Source code and pretrained models will be available at GitHub.
研究动机与目标
- 促使在视觉变换器中整合内在的归纳偏置,以改善局部和尺度感知的特征学习。
- 设计 ViTAE,使降维单元和普通单元在自注意力并行的同时,嵌入多尺度上下文并建模局部性。
- 展示在数据与训练效率、分类准确性以及下游泛化方面的改进。
- 提供消融研究以展示卷积模块与融合策略的贡献。
提出的方法
- 引入两种单元:通过带有多膨胀率和下采样的金字塔降维模块嵌入多尺度上下文的降维单元(RC),以及将多头自注意力与并行卷积模块(PCM)融合的普通单元(NC)。
- RC 将输入以 4x、2x 和 2x 的下采样产生尺寸为 H/16 x W/16 的令牌;RC 的输出被展平并在进入 NC 之前与类别令牌拼接。
- RC 的金字塔降维模块使用具有多种膨胀率的卷积以创建多尺度特征;一个 MHSA 分支处理多尺度上下文,PCM 分支在与 FFN 融合前引入局部特征。
- NC 维持令牌长度,在与 PCM 并行应用 MHSA 的同时,通过加法进行融合,并经过带有层归一化与跳跃连接的 FFN。
- 该模型使用三个 RC,后接若干 NC,提供 ViTAE-T 与 ViTAE-S 两种配置,并在 ImageNet 上使用标准数据增强进行公平比较。
- 训练与评估使用 AdamW、余弦调度器、300 个时期,以及 8 张 V100 GPU;模型与具有类似规模的 CNN 和 Transformer 进行对比。
实验结果
研究问题
- RQ1能否将 CNN 的内在归纳偏置(局部性和尺度不变性)有效整合到视觉变换器中,从而提升数据效率和对多尺度特征的学习?
- RQ2在每一层内实现局部与全局建模的并行融合方法是否优于先局部再注意力的串行结构?
- RQ3RC 与 NC 如何单独及共同贡献于准确性、训练效率和下游泛化?
- RQ4相对于 T2T-ViT、DeiT 等基线,ViTAE 在 ImageNet 及较小数据集上的数据与训练效率如何?
主要发现
- ViTAE-T 在 ImageNet 上以 4.8M 参数达到 75.3% Top-1,ViTAE-S 以 23.6M 参数达到 82.0% Top-1。
- ViTAE 展示出优越的数据效率和训练效率,在数据量和训练轮次减少的情况下优于基线 T2T-ViT。
- 消融研究表明 PCM(局部性)和 RC(多尺度)显著提升性能,预融合融合和 BN 提供最佳结果。
- ViTAE 在下游任务(CIFAR-10/100、iNaturalist、Cars、Flowers、Pets)上显示出强泛化能力,参数量与多数基线相比相当或更少。
- 视觉分析表明 ViTAE 对目标的注意力更准确地集中,且对尺度方差的处理优于纯变换器。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。