QUICK REVIEW

[论文解读] Visual Transformers: Token-based Image Representation and Processing for Computer Vision

BoRui Wu, Chenfeng Xu|arXiv (Cornell University)|Jun 5, 2020

Advanced Neural Network Applications参考文献 49被引用 377

一句话总结

论文引入 Visual Transformers (VTs)，用基于令牌的 Transformer 替代卷积网络的一部分，在紧凑语义视觉令牌集合上操作，达到在 FLOPs 更低的情况下获得更高的准确性，同时实现高效分类和分割。

ABSTRACT

Computer vision has achieved remarkable success by (a) representing images as uniformly-arranged pixel arrays and (b) convolving highly-localized features. However, convolutions treat all image pixels equally regardless of importance; explicitly model all concepts across all images, regardless of content; and struggle to relate spatially-distant concepts. In this work, we challenge this paradigm by (a) representing images as semantic visual tokens and (b) running transformers to densely model token relationships. Critically, our Visual Transformer operates in a semantic token space, judiciously attending to different image parts based on context. This is in sharp contrast to pixel-space transformers that require orders-of-magnitude more compute. Using an advanced training recipe, our VTs significantly outperform their convolutional counterparts, raising ResNet accuracy on ImageNet top-1 by 4.6 to 7 points while using fewer FLOPs and parameters. For semantic segmentation on LIP and COCO-stuff, VT-based feature pyramid networks (FPN) achieve 0.35 points higher mIoU while reducing the FPN module's FLOPs by 6.5x.

研究动机与目标

重新审视像素卷积范式，视为视觉模型冗余的根本原因。
提出一个分词器，将特征图转换为一小组语义视觉令牌。
通过transformer将视觉令牌联系起来，以建模令牌之间的关系。
将令牌交互投影回像素空间，以用于特定任务的预测。
在分类和分割基准测试中展示更高的准确性和更低的计算成本。

提出的方法

先用卷积处理输入以学习低层特征，然后将特征图分词成一小组视觉令牌（L << HW）。
使用具有内容相关注意力权重的Transformer对视觉令牌之间的交互进行建模。
将Transformer的输出投影回像素空间，以增强下游任务的特征图。
使用可基于滤波器或递归的分词器来获取令牌（令牌之间的依赖来自先前的令牌）。
通过用 VT 模块替换 ResNet 的最后一个阶段来训练 VT-ResNets，使用 16 个令牌和一个 1024 通道的令牌表示。
对于分割，将 FPN 替换为 VT-FPN，以计算跨分辨率的令牌交互并投影回像素空间。

实验结果

研究问题

RQ1在紧凑的语义令牌空间上操作的基于令牌的Transformer，能否在图像分类和分割中超越传统像素空间卷积？
RQ2视觉令牌是否能以更低的计算成本更好地建模长程语义关系？
RQ3递归式、内容感知的分词器是否优于固定滤波器基或池化基的分词器？
RQ4将令牌交互投影回特征图是否能保留像素级信息并提升任务性能？

主要发现

用 VT 模块替换 ResNet 的最后一个阶段，最后阶段 FLOPs 下降最多 6.9x，ImageNet top-1 准确率提高 4.6 至 7 点。
基于 VT 的 ResNets 在显著更少的 FLOPs 下实现更高的验证准确性，参数量与基线相当或更少（例如，VT-R18: 72.1% vs 69.9% 验证准确率；VT-R34: 75.0% vs 73.3%）。
用于分割的基于 VT 的 FPN 在 COCO-stuff/LIP 上实现了 0.35 点更高的 mIoU，FLOPs 比传统 FPN 模块少 6.4x 至 6.5x。
使用 16 个视觉令牌就足够；增加令牌数几乎无显著收益。
递归分词器和基于 Transformer 的令牌交互在令牌关系方面优于池化、聚类或图卷积等方法。
把令牌投影回特征图对性能有益，验证了保留空间信息的必要性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。