[论文解读] VOLO: Vision Outlooker for Visual Recognition
该论文提出 VOLO(Vision Outlooker),一种新型视觉变换器架构,通过使用轻量、高效的外观注意力机制替代标准自注意力机制,更好地编码细粒度特征。通过结合外观注意力带来的细粒度特征编码与全局依赖建模,VOLO 在无需额外数据的情况下在 ImageNet-1K 上实现了 87.1% 的 top-1 准确率,创下新的 SOTA 记录,优于所有 CNN 模型及先前的视觉变换器模型。
Visual recognition has been dominated by convolutional neural networks (CNNs) for years. Though recently the prevailing vision transformers (ViTs) have shown great potential of self-attention based models in ImageNet classification, their performance is still inferior to that of the latest SOTA CNNs if no extra data are provided. In this work, we try to close the performance gap and demonstrate that attention-based models are indeed able to outperform CNNs. We find a major factor limiting the performance of ViTs for ImageNet classification is their low efficacy in encoding fine-level features into the token representations. To resolve this, we introduce a novel outlook attention and present a simple and general architecture, termed Vision Outlooker (VOLO). Unlike self-attention that focuses on global dependency modeling at a coarse level, the outlook attention efficiently encodes finer-level features and contexts into tokens, which is shown to be critically beneficial to recognition performance but largely ignored by the self-attention. Experiments show that our VOLO achieves 87.1% top-1 accuracy on ImageNet-1K classification, which is the first model exceeding 87% accuracy on this competitive benchmark, without using any extra training data In addition, the pre-trained VOLO transfers well to downstream tasks, such as semantic segmentation. We achieve 84.3% mIoU score on the cityscapes validation set and 54.3% on the ADE20K validation set. Code is available at \url{https://github.com/sail-sg/volo}.
研究动机与目标
- 为缩小视觉变换器与最先进 CNN 模型在图像分类任务中的性能差距。
- 解决视觉变换器在将细粒度特征编码到标记表示方面存在的局限性。
- 设计一种参数高效、轻量化的注意力机制,以在不增加计算复杂度的前提下提升特征表达能力。
- 证明当细粒度空间与上下文特征被有效编码时,基于注意力的模型可超越 CNN 模型。
- 在 ImageNet-1K 上建立新的 SOTA 记录,并在下游任务(如语义分割)中表现出良好的迁移能力。
提出的方法
- 提出外观注意力机制,通过可学习的线性投影聚合邻近特征来计算标记表示,避免昂贵的点积注意力计算。
- 采用两阶段架构:首先将图像分割为小的 $8\times8$ 贴片,并通过多个外观编码器处理以实现细粒度特征编码。
- 随后通过在更粗粒度的 $14\times14$ 标记上应用标准自注意力机制来建模全局依赖关系,从而融合细粒度与全局表示。
- 采用一种简单且轻量化的架构(VOLO),避免使用复杂的混合设计或外部数据增强技术。
- 引入标记标签和知识蒸馏作为额外的训练技巧,进一步提升性能。
- 采用渐进式扩展策略,先训练小型模型,再逐步扩展至更大变体(如 VOLO-D5)。
实验结果
研究问题
- RQ1视觉变换器是否能在不使用额外训练数据的情况下超越最先进 CNN 模型在 ImageNet 分类任务中的表现?
- RQ2与 CNN 相比,视觉变换器在捕捉细粒度视觉特征方面性能受限的原因是什么?
- RQ3是否能通过一种新型注意力机制,在不增加计算成本的前提下高效地将局部与细粒度特征编码到标记表示中?
- RQ4将细粒度特征编码与全局自注意力结合,是否能带来优于标准 ViT 或 CNN 模型的识别性能?
- RQ5所提出的架构是否能在下游任务(如语义分割)中实现良好的泛化能力?
主要发现
- VOLO-D5 在 ImageNet-1K 上实现了 87.1% 的 top-1 准确率,是首个在不使用额外训练数据的情况下突破 87% 的模型。
- 该模型在 ImageNet-ReaL 上达到 90.6% 的 top-1 准确率,在 ImageNet-V2 上达到 78.0%,在所有三个基准测试中均创下新的 SOTA 记录。
- 仅使用 296M 参数,VOLO-D5 的性能优于参数更大的模型(如 NFNet-F6 和 CaiT-M48),且参数量少于两者。
- 在语义分割任务中,VOLO 在 Cityscapes 上实现了 84.3% 的 mIoU,在 ADE20K 上达到 54.3%,展现出强大的迁移能力。
- 一个参数量仅为 26.6M 的小型 VOLO 模型在 ImageNet 上达到 84.2% 的 top-1 准确率,当输入分辨率提升至 $384\times384$ 时,准确率进一步提升至 85.2%。
- 外观注意力机制能够比自注意力更高效地实现局部特征的密集、动态聚合,从而提升特征表达能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。