[论文解读] XCiT: Cross-Covariance Image Transformers
XCiT 引入跨协方差注意力(XCA),在特征通道上进行运算,具有线性复杂度,使可扩展的视觉变换器在 ImageNet、COCO、ADE20k 以及自监督学习基准上达到或超越基线。
Following their success in natural language processing, transformers have recently shown much promise for computer vision. The self-attention operation underlying transformers yields global interactions between all tokens ,i.e. words or image patches, and enables flexible modelling of image data beyond the local interactions of convolutions. This flexibility, however, comes with a quadratic complexity in time and memory, hindering application to long sequences and high-resolution images. We propose a "transposed" version of self-attention that operates across feature channels rather than tokens, where the interactions are based on the cross-covariance matrix between keys and queries. The resulting cross-covariance attention (XCA) has linear complexity in the number of tokens, and allows efficient processing of high-resolution images. Our cross-covariance image transformer (XCiT) is built upon XCA. It combines the accuracy of conventional transformers with the scalability of convolutional architectures. We validate the effectiveness and generality of XCiT by reporting excellent results on multiple vision benchmarks, including image classification and self-supervised feature learning on ImageNet-1k, object detection and instance segmentation on COCO, and semantic segmentation on ADE20k.
研究动机与目标
- 推动高分辨率视觉任务的高效、可扩展变换器。
- 用跨协方差注意力取代标准自注意力,将复杂度从令牌数量的平方降至线性。
- 将 XCA 与局部补丁交互和前馈网络结合,构建实用的视觉变换器。
- 在图像分类、目标检测、语义分割和自监督学习等方面展示 XCiT 的性能。
提出的方法
- 定义在特征维度上而非令牌维度上工作的跨协方差注意力(XCA)。
- 应用行/列归一化以及一个可学习的温度参数以稳定训练。
- 引入分块对角多头结构以降低复杂度并简化优化。
- 在列状编码器架构中将 XCA 与 Local Patch Interaction (LPI) 及逐点前馈网络整合。
- 在图像分类任务中使用类注意力进行全局聚合。
- 尝试补丁大小(8x8 和 16x16)以及高达 384x384 的分辨率,包括使用卷积教师进行蒸馏。
实验结果
研究问题
- RQ1跨协方差注意力能否为高分辨率视觉任务提供对二次自注意力的可扩展替代方案?
- RQ2在降低计算和内存成本的同时,XCA 在图像分类、检测和分割基准上是否能保持准确性?
- RQ3在自监督学习设置中,XCiT 与 ViT 和卷积骨干网相比的表现如何?
- RQ4分块对角(分组)注意力结构是否能改善优化和性能?
- RQ5XCiT 在训练和测试过程对输入分辨率的变化是否具有鲁棒性?
主要发现
- XCiT-L24/16 在 ImageNet-1k 224x224 上以 189M 参数和 417.9 GFLOPs 实现 86.0% 的 top-1 准确率。
- 在 COCO 上,XCiT 主干达到对象检测 48.5% AP 和实例分割 43.7% AP。
- 在 ADE20k 语义分割中,XCiT 达到 48.4% mIoU,超过同等规模的 Swin Transformer 主干。
- 在使用 DINO 的自监督学习中,XCiT 在 ImageNet-1k 上达到 80.9% 的 top-1 准确率。
- XCA 在令牌数量上具有线性复杂度,使高分辨率图像的高效处理成为可能。
- 类注意力可视化显示头部聚焦于语义上连贯的区域并对内容进行自适应。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。