Skip to main content
QUICK REVIEW

[论文解读] TransNeXt: Robust Foveal Visual Perception for Vision Transformers

Shi Dai|arXiv (Cornell University)|Nov 28, 2023
Cell Image Analysis Techniques被引用 19
一句话总结

TransNeXt 将 Aggregated Attention 与 Convolutional GLU 引入视觉变换器,打造模仿生物的黄斑感知,避免深度退化,在 ImageNet、检测与分割任务上实现最先进的准确性与鲁棒性。

ABSTRACT

Due to the depth degradation effect in residual connections, many efficient Vision Transformers models that rely on stacking layers for information exchange often fail to form sufficient information mixing, leading to unnatural visual perception. To address this issue, in this paper, we propose Aggregated Attention, a biomimetic design-based token mixer that simulates biological foveal vision and continuous eye movement while enabling each token on the feature map to have a global perception. Furthermore, we incorporate learnable tokens that interact with conventional queries and keys, which further diversifies the generation of affinity matrices beyond merely relying on the similarity between queries and keys. Our approach does not rely on stacking for information exchange, thus effectively avoiding depth degradation and achieving natural visual perception. Additionally, we propose Convolutional GLU, a channel mixer that bridges the gap between GLU and SE mechanism, which empowers each token to have channel attention based on its nearest neighbor image features, enhancing local modeling capability and model robustness. We combine aggregated attention and convolutional GLU to create a new visual backbone called TransNeXt. Extensive experiments demonstrate that our TransNeXt achieves state-of-the-art performance across multiple model sizes. At a resolution of $224^2$, TransNeXt-Tiny attains an ImageNet accuracy of 84.0%, surpassing ConvNeXt-B with 69% fewer parameters. Our TransNeXt-Base achieves an ImageNet accuracy of 86.2% and an ImageNet-A accuracy of 61.6% at a resolution of $384^2$, a COCO object detection mAP of 57.1, and an ADE20K semantic segmentation mIoU of 54.7.

研究动机与目标

  • 推动解决由层堆叠引起的高效 Vision Transformer 的深度退化问题。
  • 开发一种仿生令牌混合器,使每个令牌都能进行全局感知,而无需深度堆叠。
  • 引入一个通道混合器,提升局部建模与鲁棒性。
  • 提出一个一致性骨干网络(TransNeXt),在分类、检测和分割任务中表现出色。

提出的方法

  • 引入 Pixel-focused Attention (PFA),将细粒度局部注意力与粗粒度全局池化路径相结合。
  • 将多种注意力变体聚合为 Aggregated Attention (AA),包括 QKV、LKV 和 QLV 机制,带有可学习的令牌与位置线索。
  • 采用长度缩放的余弦注意力,以改善多尺度输入的外推能力。
  • 提出 Convolutional GLU 作为基于最近邻特征的门控通道注意力机制,以提升鲁棒性。
  • 构建 TransNeXt 作为四阶段层次骨干,整合 AA 和 Convolutional GLU,设计与 PVTv2 对齐。

实验结果

研究问题

  • RQ1聚合的、仿生的注意力是否能够在不进行深度堆叠的情况下克服 ViTs 的深度退化并改善信息混合?
  • RQ2整合可学习查询令牌和多样的位置信偏置是否能在超过 QKV 相似度的情况下改善亲和矩阵的生成?
  • RQ3基于卷积的通道混合器(Convolutional GLU)是否能增强 ViTs 的局部特征建模和模型鲁棒性?
  • RQ4在不同模型规模下,TransNeXt 在标准及以鲁棒性为重点的视觉任务(ImageNet、ImageNet-A、COCO、ADE20K)上的表现如何?

主要发现

  • TransNeXt-Tiny 在 224^2 的 ImageNet-1K 上取得 84.0% 的 top-1 准确率,参数量 28.2M,FLOPs 5.7G,比 ConvNeXt-B 的参数少 69%。
  • TransNeXt-Base 在 ImageNet-1K top-1 精度为 86.2%,ImageNet-A top-1 为 61.6%,COCO 目标检测的 57.1 mAP,ADE20K 语义分割的 54.7 mIoU。
  • TransNeXt-Small 在 384^2 下达到 84.7% 的 ImageNet-1K top-1 精度和 58.3% 的 ImageNet-A;TransNeXt-Small/Base 在 IN-A 和 IN-R 的表现分别达到 61.6% 和 57.7%,凸显鲁棒性提升。
  • 在 224^2 的 ImageNet-A 上,TransNeXt-Base 比 MaxViT-Base 高出 6.4% 的 top-1。
  • TransNeXt-Tiny/Small/Base 在多项任务中相比 ConvNeXt-L 显示鲁棒性优势,并且在更大规模的 ViT 基骨架中具备相当或更优的表现。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。