[论文解读] Efficient Self-supervised Vision Transformers for Representation Learning
EsViT 将多阶段 ViT 架构与一个非对比的区域匹配预训练任务结合起来,在 ImageNet 线性探针精度方面实现高吞吐量和参数效率显著高于以往的 SSL 方法。
This paper investigates two techniques for developing efficient self-supervised vision transformers (EsViT) for visual representation learning. First, we show through a comprehensive empirical study that multi-stage architectures with sparse self-attentions can significantly reduce modeling complexity but with a cost of losing the ability to capture fine-grained correspondences between image regions. Second, we propose a new pre-training task of region matching which allows the model to capture fine-grained region dependencies and as a result significantly improves the quality of the learned vision representations. Our results show that combining the two techniques, EsViT achieves 81.3% top-1 on the ImageNet linear probe evaluation, outperforming prior arts with around an order magnitude of higher throughput. When transferring to downstream linear classification tasks, EsViT outperforms its supervised counterpart on 17 out of 18 datasets. The code and models are publicly available: https://github.com/microsoft/esvit
研究动机与目标
- 在自监督学习中调查单块式与多阶段 ViTs 的效率局限。
- 提出一个基于区域的预训练任务,以恢复在多阶段架构中丢失的细粒度区域对应关系。
- 证明将多阶段架构与区域匹配相结合可提升下游迁移和线性探针性能。
- 提供证据表明 EsViT 在显著更高吞吐量和参数效率的同时实现高精度,相较于先前的 SSL 方法。
提出的方法
- 研究在自监督学习中使用稀疏自注意力的多阶段 ViT 架构的权衡。
- 引入一个在增强视图的局部特征上运行的非对比区域匹配损失 L_R。
- 将 L_R 与视图级别的非对比损失 L_V 结合在一个联合目标 L = L_R + L_V。
- 在自监督训练中使用带指数移动平均(EMA)参数更新的师生框架。
- 通过定性可视化和消融研究评估区域匹配和注意力行为。
实验结果
研究问题
- RQ1在自监督表示学习中,多阶段 ViTs 相较于单块 ViT 在效率和准确性方面有何差异?
- RQ2区域匹配的预训练任务是否能在多阶段架构中恢复丢失的细粒度区域对应关系并改进表示?
- RQ3将 L_R 与 L_V 结合对 ImageNet 线性探针性能和迁移学习有何影响?
- RQ4跨架构的区域匹配目标有哪些设计选择与局限?
- RQ5EsViT 表征在下游任务上是否比监督方法的对应物具有更好的泛化能力?
主要发现
- EsViT 在 ImageNet 线性探针上达到 81.3% 的 top-1 精度,优于先前的 SSL 方法,且吞吐量显著更高、参数更少。
- EsViT 在 18 个下游分类数据集中的 17 个上展示出比有监督对比方法更好的迁移性能。
- 区域匹配损失 L_R 可以缓解多阶段 ViT 的细粒度区域对应关系丢失,提升表示质量。
- 非对比的 L_R 与 L_V 结合后,在 k-NN 和线性探针性能上有提升,并保持了多阶段架构带来的效率提升。
- 在 ImageNet 上,结合区域匹配的 EsViT 相对于先前的 SOTA SSL 方法显示出显著更高的吞吐量(高达 ~10x)和参数效率(高达 ~3.5x)。
- 定性分析显示 EsViT 学习了有意义的区域对应关系和注意力模式,特别是在使用 L_R 时。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。