Skip to main content
QUICK REVIEW

[论文解读] Understanding The Robustness in Vision Transformers

Daquan Zhou, Zhiding Yu|arXiv (Cornell University)|Apr 26, 2022
Advanced Neural Network Applications被引用 34
一句话总结

本文分析自注意力如何提升 Vision Transformers (ViTs) 的鲁棒性,并引入具有注意力通道处理的 Fully Attentional Networks (FANs),在 ImageNet-C 及下游任务上显著提升鲁棒性,达到最新的最优结果。

ABSTRACT

Recent studies show that Vision Transformers(ViTs) exhibit strong robustness against various corruptions. Although this property is partly attributed to the self-attention mechanism, there is still a lack of systematic understanding. In this paper, we examine the role of self-attention in learning robust representations. Our study is motivated by the intriguing properties of the emerging visual grouping in Vision Transformers, which indicates that self-attention may promote robustness through improved mid-level representations. We further propose a family of fully attentional networks (FANs) that strengthen this capability by incorporating an attentional channel processing design. We validate the design comprehensively on various hierarchical backbones. Our model achieves a state-of-the-art 87.1% accuracy and 35.8% mCE on ImageNet-1k and ImageNet-C with 76.8M parameters. We also demonstrate state-of-the-art accuracy and robustness in two downstream tasks: semantic segmentation and object detection. Code is available at: https://github.com/NVlabs/FAN.

研究动机与目标

  • 研究自注意力在学习 ViTs 的鲁棒表征中的作用。
  • 理解视觉分组和中层表征如何与鲁棒性相关。
  • 提出一个具有注意力通道处理的全注意力骨干网络(FAN),以提升鲁棒性。

提出的方法

  • 通过信息瓶颈(IB)视角解释自注意力,并将其与 token 表征的聚类/分组联系起来。
  • 引入将通道注意力(CA)加入自注意力流程的 FAN 块,并移除后续 MLP 投影,形成完全注意力的设计。
  • 开发高效的通道自注意力(ECA),通过一个 token 原型和 sigmoid 归一化来重新加权通道以提升效率。
  • 在 ImageNet-1K 和鲁棒性基准(ImageNet-C、Cityscapes-C、COCO-C)上,比较 FAN 的变体(FAN-T/S/B/L)在不同骨干族和深度的表现。
  • 进行消融研究,以分离训练技巧、注意力机制和下采样对鲁棒性的影响。

实验结果

研究问题

  • RQ1自注意力是否通过改进的中层表征和分组来提升 ViTs 的鲁棒性?
  • RQ2具有注意力通道处理的全注意力设计是否能够在成本可接受的前提下进一步提升鲁棒性?
  • RQ3在干净准确率和对干扰鲁棒性方面,FAN 与 CNNs 以及其他 ViTs 在不同任务中的比较如何?
  • RQ4高效通道注意力和不同体系结构变体对鲁棒性提升的影响是什么?
  • RQ5鲁棒性提升是否能迁移到下游任务,如分割与目标检测?

主要发现

  • FAN 在从 Tiny 到 Large 的各尺寸上均提升干净准确率和对干扰鲁棒性,并在 ImageNet-C 的保留率(retention)和 mCE 方面超越基线。
  • FAN-S、FAN-B、FAN-L 实现高鲁棒性,例如 FAN-S-ViT:retention 76,mCE 51.4%;FAN-B-ViT:retention 78,mCE 47.7%(多种配置)。
  • 高效通道注意力(ECA)和通道自注意力(CSA)在与 SE 记忆成本相当的情况下提供最佳鲁棒性;CSA 在测试中提供最强鲁棒性(IN-C、Retention、mCE)。
  • FAN 块提升了 ViT 和 Swin 骨干的鲁棒性;FAN-Hybrid 和 FAN-SWIN 变体相对于非 FAN 的对应版本显示出显著的鲁棒性提升。
  • 在下游任务中,FAN-Hybrid 在语义分割(Cityscapes-C)和目标检测(COCO-C)方面实现了具有竞争力的鲁棒性。
  • 与 SOTA 的 CNNs 和 Transformers 相比,FAN 模型在干扰下提供更强的鲁棒性,同时保持具有竞争力的干净准确率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。