[论文解读] Training data-efficient image transformers & distillation through attention
论文仅使用数据高效方法在 ImageNet 上训练无卷积的视觉变换器,提出一种 Transformer 专用的蒸馏令牌,并显示出与卷积网络相比具有竞争力的准确性和迁移性能,包括在蒸馏条件下的强大 ImageNet 结果。
Recently, neural networks purely based on attention were shown to address image understanding tasks such as image classification. However, these visual transformers are pre-trained with hundreds of millions of images using an expensive infrastructure, thereby limiting their adoption. In this work, we produce a competitive convolution-free transformer by training on Imagenet only. We train them on a single computer in less than 3 days. Our reference vision transformer (86M parameters) achieves top-1 accuracy of 83.1% (single-crop evaluation) on ImageNet with no external data. More importantly, we introduce a teacher-student strategy specific to transformers. It relies on a distillation token ensuring that the student learns from the teacher through attention. We show the interest of this token-based distillation, especially when using a convnet as a teacher. This leads us to report results competitive with convnets for both Imagenet (where we obtain up to 85.2% accuracy) and when transferring to other tasks. We share our code and models.
研究动机与目标
- 证明无需卷积的视觉变换器仅使用 ImageNet 数据和适度的计算即可达到与之竞争的 ImageNet 性能。
- 引入基于蒸馏令牌的针对变换器的蒸馏方法,以从教师模型传递知识。
- 评估不同教师(卷积网络 vs 变换器)对蒸馏和整体性能的影响。
- 评估 DeiT 模型在下游图像分类基准上的迁移学习能力。
提出的方法
- 采用类似 ViT 的架构(DeiT),具备补丁令牌、一个类别令牌,以及一个新的蒸馏令牌。
- 在单个 8-GPU 节点上对 ImageNet1k 进行训练(预训练 53 小时;总计约 3 天),并使用强数据增强以实现数据效率。
- 提出并形式化蒸馏策略:软蒸馏(带温度的 KL 散度)和硬蒸馏(教师的硬标签),以及一种针对变换器的蒸馏令牌。
- 显示蒸馏令牌通过自注意力与类别令牌/蒸馏令牌交互,并实现从教师的有效知识传递。
- 通过蒸馏在更高分辨率下进行微调,在测试阶段对类别分类器和蒸馏分类器进行晚期融合。
- 对超参数、数据增强和训练方案进行消融,以识别数据高效训练的关键要素。
实验结果
研究问题
- RQ1视觉变换器是否能够在不使用外部数据或大规模预训练的情况下在 ImageNet 上有效训练?
- RQ2是否某种针对变换器的蒸馏令牌能比常规蒸馏或不蒸馏的学生模型性能更好?
- RQ3教师的选择(卷积网络 vs 变换器)如何影响蒸馏收益?
- RQ4在 ImageNet 上预训练的 DeiT 模型是否在下游任务上具有与卷积网络及其他变换器相竞争的迁移性能?
主要发现
- 在仅使用 ImageNet1k 的条件下训练的 DeiT 模型在没有外部数据的情况下达到具有竞争力的 top-1 精度(例如 DeiT-B 在 224 输入下经 300 轮预训练达到 83.1%)。
- 在提出的蒸馏令牌蒸馏下,DeiT 在 ImageNet-1k 上的 top-1 高达 85.2%,在类似条件下超越在 JFT-300M 上预训练的 ViT-B 模型。
- 卷积网络教师通常比变换器教师提供更好的蒸馏性能,表明更强的归纳偏置有助于训练变换器。
- 基于蒸馏的 DeiT 模型在准确性与吞吐量之间提供了有利的权衡,在仅在 ImageNet 上训练时,常与 EfficientNet 竞争甚至超越它。
- DeiT 模型能有效迁移到下游任务(CIFAR-10/100、Flowers-102、Stanford Cars、iNaturalist),在 ImageNet 预训练后与有竞争力的卷积网络模型表现相当。
- 蒸馏模型的更长训练计划带来持续提升,而未蒸馏的模型往往更早达到饱和。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。