[论文解读] Vision Transformer Adapter for Dense Predictions
ViT-Adapter 在不修改 ViT 架构的前提下,通过一个轻量级、无需预训练的适配器来注入图像先验并重建多尺度特征,从而在密集预测任务上实现接近最新状态的性能。
This work investigates a simple yet powerful dense prediction task adapter for Vision Transformer (ViT). Unlike recently advanced variants that incorporate vision-specific inductive biases into their architectures, the plain ViT suffers inferior performance on dense predictions due to weak prior assumptions. To address this issue, we propose the ViT-Adapter, which allows plain ViT to achieve comparable performance to vision-specific transformers. Specifically, the backbone in our framework is a plain ViT that can learn powerful representations from large-scale multi-modal data. When transferring to downstream tasks, a pre-training-free adapter is used to introduce the image-related inductive biases into the model, making it suitable for these tasks. We verify ViT-Adapter on multiple dense prediction tasks, including object detection, instance segmentation, and semantic segmentation. Notably, without using extra detection data, our ViT-Adapter-L yields state-of-the-art 60.9 box AP and 53.0 mask AP on COCO test-dev. We hope that the ViT-Adapter could serve as an alternative for vision-specific transformers and facilitate future research. The code and models will be released at https://github.com/czczup/ViT-Adapter.
研究动机与目标
- 推动在密集预测任务中弥合普通 ViT 与面向视觉的Transformers之间的性能差距。
- 提出一个无需预训练的适配器,将与图像相关的归纳偏置注入到 ViT 中,同时不改变其骨干网络。
- 设计三个模块(空间先验、空间特征注入、跨尺度特征提取)以实现密集预测。
- 证明 ViT-Adapter 在目标检测、实例分割和语义分割中都能达到具有竞争力甚至优越的结果。
提出的方法
- 将 ViT-Adapter 设计为两部分架构:一个普通 ViT 骨干和一个三模块适配器。
- 空间先验模块通过 ConvNet 窗口从输入图像构建一个三分辨率的特征金字塔(1/8、1/16、1/32)。
- 空间特征注入器通过 ViT token 与空间特征之间的跨注意力,将空间先验融入 ViT。
- 跨尺度特征提取器通过跨注意力和前馈网络操作,生成分层的多尺度特征,进而为密集预测提供特征金字塔。
- ViT 内部的交互:将 ViT 编码器分成 N 个块(N 通常为 4);在每个块中,注入先验并提取多尺度特征;最终的 1/8、1/16、1/32 的特征上采样,形成用于下游头部的 1/4 尺度特征图。
- 将可变形注意力作为适配器内的默认稀疏注意力,并使用平衡初始化以保持 ViT 预训练权重。
实验结果
研究问题
- RQ1能够在无需预训练的适配器中引入视觉特定的归纳偏置,以缩小普通 ViT 与面向视觉的 Transformer 在密集预测任务上的差距吗?
- RQ2空间先验、基于跨注意力的特征注入以及跨尺度特征提取如何共同促进密集预测性能?
- RQ3ViT-Adapter 是否能够在不额外预训练数据的情况下,使普通 ViT 骨干在目标检测、实例分割和语义分割上实现有竞争力的结果?
- RQ4与 ImageNet 预训练相比,多模态预训练如何进一步提升 ViT-Adapter 的性能?
主要发现
- 与以往在等效预训练条件下相比,ViT-Adapter 在目标检测、实例分割与语义分割等任务上持续提升普通 ViT 的性能,超越仅使用视觉特定骨干的模型。
- 在多模态预训练下,ViT-Adapter-L 在 COCO test-dev 上达到 60.9 的 box AP 和 53.0 的 mask AP,无需额外的检测数据。
- ViT-Adapter-S 在等效预训练条件下优于 ViT-Det 及若干视觉特定模型,显示通过适配器有效传递图像先验。
- 在 ImageNet-22K 预训练下,语义分割结果显示 ViT-Adapter-B/L 具有与 Swin-B/L 等模型相当或更优的 mIoU,多模态预训练带来额外提升(如 ADE20K 上 ViT-Adapter-L ★)。
- 消融研究证实每个组件(SPM、 Spatial Feature Injector、 Multi-Scale Feature Extractor)均对性能提升有贡献,完整的 ViT-Adapter 相较基线带来显著改进。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。