QUICK REVIEW

[论文解读] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

Alexey Dosovitskiy, Lucas Beyer|arXiv (Cornell University)|Oct 22, 2020

Advanced Neural Network Applications参考文献 53被引用 21,341

一句话总结

论文表明将纯 Transformer 直接应用于图像补丁序列（Vision Transformer，ViT）在大规模训练时，可以达到甚至超越基于 CNN 的方法，在多项图像识别基准测试上具备强大的迁移性能。

ABSTRACT

While the Transformer architecture has become the de-facto standard for natural language processing tasks, its applications to computer vision remain limited. In vision, attention is either applied in conjunction with convolutional networks, or used to replace certain components of convolutional networks while keeping their overall structure in place. We show that this reliance on CNNs is not necessary and a pure transformer applied directly to sequences of image patches can perform very well on image classification tasks. When pre-trained on large amounts of data and transferred to multiple mid-sized or small image recognition benchmarks (ImageNet, CIFAR-100, VTAB, etc.), Vision Transformer (ViT) attains excellent results compared to state-of-the-art convolutional networks while requiring substantially fewer computational resources to train.

研究动机与目标

激励将标准的 Transformer 直接应用于图像，而不使用 CNN 的归纳偏置。
展示在大规模图像数据集上对 ViT 的可扩展预训练及对多样化基准的迁移。
在不同的数据量和计算预算下，将 ViT 与 CNN 基线和混合模型进行比较。
分析预训练数据规模和计算量如何影响 ViT 的性能。
探究学习表示与注意力模式的定性洞见。

提出的方法

将图像分割成固定大小的补丁并线性投影到共享维度。
在前面加入一个可学习的分类标记，并添加一维位置嵌入以形成标记序列。
使用标准 Transformer 编码器（多头自注意力 MSA + MLP 块），带层归一化和残差连接来处理补丁嵌入。
在下游任务上微调或训练带分类头；如有需要，使用图像分辨率调整和二维位置嵌入插值。
可选地使用混合输入，其中 CNN 特征图形成补丁序列，而不是原始补丁。
在大规模数据集（ImageNet、ImageNet-21k、JFT-300M）上训练 Vision Transformer 的变体（Base、Large、Huge）并迁移到基准；与 ResNet 基线和 Noisy Student 进行比较。

实验结果

研究问题

RQ1一个直接应用于图像补丁序列的普通 Transformer，是否能够在不具备 CNN 特定归纳偏置的情况下实现具有竞争力的图像分类性能？
RQ2预训练数据规模和计算量如何影响 ViT 在多样化基准上的迁移性能？
RQ3在准确率和训练成本方面，纯 ViT、混合方法和 CNN 基线之间的权衡是什么？
RQ4注意力模式和学习到的嵌入对 ViT 处理图像结构的洞见有哪些？

主要发现

Vision Transformer 在大规模预训练时实现强大的迁移性能，在若干数据集上接近或超越最先进的 CNN。
在 JFT-300M 上预训练的 ViT 模型在所有报告的数据集上都优于 CNN 基线，且需要的预训练计算显著更少；在 ImageNet-21k 上预训练的 ViT-L/16 也表现良好。
在 ImageNet 上，ViT-H/14 达到 88.55% 的 top-1 精度；在 ImageNet-ReaL 上，90.72%；CIFAR-100 94.55%；VTAB 77.63%（19 个任务）。
在类似计算下，ViT-H/14 与 ViT-L/16 展现出优于 BiT-L 和 Noisy Student 基线的性能；更大规模的模型进一步提升。
预训练数据规模很重要：ViT 受益于非常大的数据集（JFT-300M）；在较小的预训练数据下，CNN 可能表现更好，但在充足数据下 ViT 追赶并超越。
自监督预训练对 ViT 显示出潜力，掩码补丁预测相较于从头训练带来可量化的提升（例如 ViT-B/16 的 ImageNet 达到 79.9%）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。