[论文解读] DAT++: Spatially Dynamic Vision Transformer with Deformable Attention
DAT++ 在金字塔视觉 Transformer 中引入可变形多头注意力机制,以聚焦于信息丰富的区域,在 ImageNet、COCO 和 ADE20K 上取得了最先进的结果。
Transformers have shown superior performance on various vision tasks. Their large receptive field endows Transformer models with higher representation power than their CNN counterparts. Nevertheless, simply enlarging the receptive field also raises several concerns. On the one hand, using dense attention in ViT leads to excessive memory and computational cost, and features can be influenced by irrelevant parts that are beyond the region of interests. On the other hand, the handcrafted attention adopted in PVT or Swin Transformer is data agnostic and may limit the ability to model long-range relations. To solve this dilemma, we propose a novel deformable multi-head attention module, where the positions of key and value pairs in self-attention are adaptively allocated in a data-dependent way. This flexible scheme enables the proposed deformable attention to dynamically focus on relevant regions while maintains the representation power of global attention. On this basis, we present Deformable Attention Transformer (DAT), a general vision backbone efficient and effective for visual recognition. We further build an enhanced version DAT++. Extensive experiments show that our DAT++ achieves state-of-the-art results on various visual recognition benchmarks, with 85.9% ImageNet accuracy, 54.5 and 47.0 MS-COCO instance segmentation mAP, and 51.5 ADE20K semantic segmentation mIoU.
研究动机与目标
- 开发一个可变形注意力模块,使键/值采样位置以数据相关方式自适应。
- 构建一个具备可变形注意力的可扩展视觉骨干网(DAT),用于多样化的视觉识别任务。
- 通过本地感知和卷积细化,对 DAT 进行增强以形成 DAT++,以提升性能。
- 在 ImageNet 分类、MS-COCO 目标检测/实例分割和 ADE20K 语义分割上展示最先进的结果。
提出的方法
- 提出可变形多头注意力(DMHA),通过偏移生成网络为每个输入学习一组共享的变形键/值采样点。
- 在统一网格上生成参考点,用来自查询特征的可学习偏移量进行偏移,并通过双线性插值采样特征以形成变形的键/值。
- 使用带有变形相对位置偏置以提高空间感知能力的变形的 k、v 计算注意力。
- 分析并比较 DMHA 的复杂度,显示由于使用采样而非完整密集的键/值,开销呈线性趋势相较于标准注意力。
- 通过重叠的 Patch Embedding、Local Perception Unit(LPU)、ConvFFN 以及其他卷积模块来增强骨干,形成 DAT++。
- 在前几阶段交替使用局部注意力块和可变形注意力块(以 Neighborhood Attention 作为局部算子),在最后阶段由可变形注意力主导。
实验结果
研究问题
- RQ1如何在不产生高内存/计算成本的情况下,将可变形注意力整合到 Vision Transformer 中?
- RQ2学习数据相关的采样位置是否能在分类、检测/分割任务中提升识别性能?
- RQ3DAT++ 是否能够在 ImageNet、COCO 和 ADE20K 上超越或追平最先进的 ViTs 与 CNN?
- RQ4哪些体系结构改进(重叠 Patch Embedding、LPU、ConvFFN)对 DAT++ 的性能贡献最大?
主要发现
- DAT++ 在最大的模型变体(DAT-B++)上实现 85.9% 的 ImageNet Top-1 准确率。
- DAT++ 在 MS-COCO 实例分割上达到 54.5 bbox mAP 和 47.0 mask mAP。
- DAT++ 在 ADE20K 语义分割达到 51.5 mIoU。
- 该可变形注意力机制在实现对信息丰富区域的数据相关聚焦的同时,保持线性类似的空间复杂度。
- DAT++ 受益于重叠 Patch Embedding 与卷积增强,有助于改进局部特征建模和位置信息。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。