[论文解读] SEED: Self-supervised Distillation For Visual Representation
SEED 训练一个大型 SSL 教师并在没有标签的情况下将其表示蒸馏给更小的学生模型,在 ImageNet 及更广泛任务上显著提升小模型的性能。
This paper is concerned with self-supervised learning for small models. The problem is motivated by our empirical studies that while the widely used contrastive self-supervised learning method has shown great progress on large model training, it does not work well for small models. To address this problem, we propose a new learning paradigm, named SElf-SupErvised Distillation (SEED), where we leverage a larger network (as Teacher) to transfer its representational knowledge into a smaller architecture (as Student) in a self-supervised fashion. Instead of directly learning from unlabeled data, we train a student encoder to mimic the similarity score distribution inferred by a teacher over a set of instances. We show that SEED dramatically boosts the performance of small networks on downstream tasks. Compared with self-supervised baselines, SEED improves the top-1 accuracy from 42.2% to 67.6% on EfficientNet-B0 and from 36.3% to 68.2% on MobileNet-v3-Large on the ImageNet-1k dataset.
研究动机与目标
- 由于现有 SSL 方法在紧凑架构上的表现较差,激发小模型的改进自监督学习。
- 引入一种自监督蒸馏范式(SEED),在没有标签的情况下将知识从大型 SSL 老师转移给较小的学生。
- 证明 SEED 在下游任务和领域中为小模型带来显著提升。
- 展示 SEED 在多种教师预训练方法和蒸馏策略下的鲁棒性。
提出的方法
- 保持由 SSL 生成的冻结、预训练教师编码器(例如 MoCo-V2、SimCLR、SWAV)。
- 训练一个较小的学生编码器以模仿教师在一组动态数据样本队列上的实例相似性分布。
- 通过教师与学生的相似性、对嵌入进行 l2 归一化以及温度参数,在队列上构建概率分布。
- 最小化教师和学生相似度分布之间的交叉熵以蒸馏知识。
- 使用包含当前批次嵌入和教师当前嵌入的队列来提供正向和负向对比。
- 证明 SEED 对 SSL 预训练方法具有不依赖性,可以使用各种教师/学生架构和超参数。
实验结果
研究问题
- RQ1在没有标注数据的情况下,来自大型 SSL 老师的自监督蒸馏是否能提升小模型的表征质量?
- RQ2SEED 在不同的教师预训练方法和小型学生架构上的表现如何?
- RQ3SEED 蒸馏后,小模型在下游任务(分类、检测、分割)能实现哪些提升?
- RQ4超参数(队列大小、温度)如何影响 SEED 的性能?
主要发现
- 与 MoCo-V2 基线相比,SEED 显著提升小模型的线性和半监督 ImageNet 性能(例如 MobileNet-V3-Large、EfficientNet-B0)。
- 使用更深更宽的教师(例如 ResNet-152 或 ResNet-50×2)对学生的提升大于较浅的教师。
- SEED 在 CIFAR-10/100 和 SUN-397 上实现迁移提升,并在用于初始化较小骨干网络时提升对象检测/分割基准(VOC、COCO)。
- SEED 兼容多种 SSL 预训练方法(MoCo-V2、SimCLR、SWAV 等),并且超越若干蒸馏策略,简单的 L2 距离和 SEED 变体都表现良好。
- 超参数选择(教师温度 τ^T)和队列大小 K 会影响性能,较低的 τ^T 在 ImageNet 与 CIFAR 数据集上通常获得更好的结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。