[论文解读] Big Self-Supervised Models are Strong Semi-Supervised Learners
论文提出 SimCLRv2,一种三步式半监督框架(使用大模型进行无监督预训练、用少量标签进行有监督微调、以及利用未标注数据进行蒸馏),在仅有极少标签的情况下达到 ImageNet 的最新性能,例如 ResNet-50 在蒸馏后使用 1% 标签时 top-1 为 73.9%,使用 10% 标签时为 77.5%。
One paradigm for learning from few labeled examples while making best use of a large amount of unlabeled data is unsupervised pretraining followed by supervised fine-tuning. Although this paradigm uses unlabeled data in a task-agnostic way, in contrast to common approaches to semi-supervised learning for computer vision, we show that it is surprisingly effective for semi-supervised learning on ImageNet. A key ingredient of our approach is the use of big (deep and wide) networks during pretraining and fine-tuning. We find that, the fewer the labels, the more this approach (task-agnostic use of unlabeled data) benefits from a bigger network. After fine-tuning, the big network can be further improved and distilled into a much smaller one with little loss in classification accuracy by using the unlabeled examples for a second time, but in a task-specific way. The proposed semi-supervised learning algorithm can be summarized in three steps: unsupervised pretraining of a big ResNet model using SimCLRv2, supervised fine-tuning on a few labeled examples, and distillation with unlabeled examples for refining and transferring the task-specific knowledge. This procedure achieves 73.9% ImageNet top-1 accuracy with just 1% of the labels ($\le$13 labeled images per class) using ResNet-50, a $10 imes$ improvement in label efficiency over the previous state-of-the-art. With 10% of labels, ResNet-50 trained with our method achieves 77.5% top-1 accuracy, outperforming standard supervised training with all of the labels.
研究动机与目标
- 在预训练阶段动机并评估面向任务无关的未标注数据在计算机视觉半监督学习中的作用。
- 研究模型尺寸、深度和投影头设计对半监督性能的影响。
- 展示如何使用未标注数据进行蒸馏,将任务特定的知识传递给更小的模型。
- 表明更大且自监督的预训练模型在微调阶段提升标签效率。
提出的方法
- 采用 SimCLRv2,一种改进的对比学习框架,用于在大尺寸 ResNet 主干上进行无监督预训练。
- 在有限标注数据(1% 或 10%)上对预训练模型进行微调,并使用中层投影头以提升性能。
- 使用未标注数据进行蒸馏,其中教师(微调后的模型)为学生填充标签,从而实现任务特定知识的传递。
- 尝试更大/更深的网络、选择性卷积核(Selective Kernels, SK)以及更深的投影头,以同时优化线性评估和微调性能。
- 在预训练阶段使用内存库(来自 MoCo)和一个三层 MLP 投影头;从投影头中层开始微调;蒸馏损失在不依赖真实标签的情况下(温度调节)进行。
- 报告在 ImageNet 上以 1%、10% 以及全标签设置的结果;并与现有的 SOTA 半监督方法进行比较。
实验结果
研究问题
- RQ1在标注数据稀缺时,使用更大、更宽的模型进行无监督预训练是否能提升 ImageNet 的半监督性能?
- RQ2投影头深度和从何处开始微调会如何影响半监督学习性能?
- RQ3在未标注数据上进行蒸馏是否能提升任务特定性能并迁移到较小的模型?
主要发现
- 更大的自监督模型在用更少标签进行微调时能够带来更大的增益,显著提升标签效率。
- 投影头深度和从中间层开始微调可以显著提升性能,尤其在标签有限的情况下。
- 使用未标注数据进行蒸馏可以提升半监督学习;大到小的蒸馏将任务知识传递给紧凑模型。
- SimCLRv2 线性评估达到 79.8% top-1;在 1% 和 10% 标签及蒸馏条件下分别达到 76.6% 和 80.9% top-1;蒸馏后的 ResNet-50 达到 73.9%(1%)和 77.5%(10%)。
- 与在全标签上训练的监督 ResNet-50(76.6% top-1)相比,在标签稀缺条件下,所提方法提供了显著增益。
- 在未标注数据上的蒸馏即使学生与教师具有相似架构,也能实现强劲表现,便于高效部署。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。