[论文解读] Improved Multiscale Vision Transformers for Classification and Detection
本文提出了一种改进的多尺度视觉Transformer(MViT),采用分解的相对位置嵌入和残差池化连接,显著提升了图像分类、目标检测和视频识别任务的性能。其在无需额外组件的情况下达到最先进结果:ImageNet top-1准确率为88.8%,COCO检测任务的box AP为56.1%,Kinetics-400视频分类准确率为86.1%,优于先前方法。
In this paper, we study Multiscale Vision Transformers (MViT) as a unified architecture for image and video classification, as well as object detection. We present an improved version of MViT that incorporates decomposed relative positional embeddings and residual pooling connections. We instantiate this architecture in five sizes and evaluate it for ImageNet classification, COCO detection and Kinetics video recognition where it outperforms prior work. We further compare MViTs' pooling attention to window attention mechanisms where it outperforms the latter in accuracy/compute. Without bells-and-whistles, MViT has state-of-the-art performance in 3 domains: 88.8% accuracy on ImageNet classification, 56.1 box AP on COCO object detection as well as 86.1% on Kinetics-400 video classification. Code and models will be made publicly available.
研究动机与目标
- 统一图像、视频和目标检测任务的视觉Transformer架构。
- 通过新颖的位置编码和残差连接提升MViT的性能。
- 比较池化注意力与窗口注意力机制在准确率和计算效率方面的表现。
- 在不依赖复杂数据增强或训练技巧的情况下实现最先进性能。
提出的方法
- 引入分解的相对位置嵌入,以更好地建模多尺度特征中的空间关系。
- 引入残差池化连接,以增强梯度流动并提升跨尺度的特征优化。
- 设计一种多尺度Transformer架构,采用分层特征表示以适应多样化视觉任务。
- 采用统一的注意力机制,通过池化操作结合全局上下文与局部归纳偏置。
- 评估五种不同模型尺寸的架构,以分析其缩放行为与效率。
- 使用标准训练协议,不依赖额外的数据增强或后处理。
实验结果
研究问题
- RQ1与先前方法相比,所提出的MViT变体在图像分类、目标检测和视频识别任务中的表现如何?
- RQ2分解的相对位置嵌入对模型准确率和泛化能力有何影响?
- RQ3在准确率和计算效率方面,池化注意力与窗口注意力相比表现如何?
- RQ4统一的MViT架构是否能在无需任务特定修改的情况下,在多个视觉任务中实现最先进性能?
- RQ5改进后的MViT在不同模型尺寸下的性能缩放行为如何?
主要发现
- 改进的MViT在ImageNet图像分类任务中达到88.8%的top-1准确率,创下新最先进水平。
- 在COCO目标检测任务中,其box AP达到56.1%,优于先前方法且无需额外组件。
- 在Kinetics-400视频分类任务中,模型准确率达到86.1%,展现出强大的视频理解能力。
- 所提出的池化注意力机制在准确率和计算效率方面均优于窗口注意力。
- 该架构在图像、视频和检测三个领域均实现了最先进性能,且未使用复杂技巧。
- 消融实验表明,分解的相对位置嵌入和残差池化连接显著提升了模型性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。