[论文解读] Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results
Mean Teacher 提议对模型权重进行平均,以为一致性训练创建更好的教师,从而在半监督学习性能和可扩展性方面优于 Temporal Ensembling。
The recently proposed Temporal Ensembling has achieved state-of-the-art results in several semi-supervised learning benchmarks. It maintains an exponential moving average of label predictions on each training example, and penalizes predictions that are inconsistent with this target. However, because the targets change only once per epoch, Temporal Ensembling becomes unwieldy when learning large datasets. To overcome this problem, we propose Mean Teacher, a method that averages model weights instead of label predictions. As an additional benefit, Mean Teacher improves test accuracy and enables training with fewer labels than Temporal Ensembling. Without changing the network architecture, Mean Teacher achieves an error rate of 4.35% on SVHN with 250 labels, outperforming Temporal Ensembling trained with 1000 labels. We also show that a good network architecture is crucial to performance. Combining Mean Teacher and Residual Networks, we improve the state of the art on CIFAR-10 with 4000 labels from 10.55% to 6.28%, and on ImageNet 2012 with 10% of the labels from 35.24% to 9.11%.
研究动机与目标
- 通过更高质量的目标,激励在半监督学习中更充分地利用未标记数据。
- 引入一个教师-学生框架,利用权重平均来生成目标。
- 在不改变网络结构的情况下,展示对大型数据集和现代架构的可扩展性。
提出的方法
- 定义 Mean Teacher 方法:在每个训练步骤后,将教师模型更新为学生权重的指数移动平均(EMA)。
- 使用教师为未标记数据生成一致性目标,通过学生输出与教师输出之间的一致性损失(通常是均方误差)。
- 将带标签数据的分类损失与渐进的一致性损失结合起来,平衡有标签与无标签的贡献。
- 证明权重平均的目标相较于仅基于预测的目标(如 Temporal Ensembling)能提供更快的反馈和更好的表示。
- 在 SVHN 和 CIFAR-10 上使用类似的卷积网络架构,将 Mean Teacher 与 Pi-model 和 Temporal Ensembling 进行比较,并在带有限标签的 CIFAR-10 和 ImageNet 上使用残差网络测试可扩展性。
实验结果
研究问题
- RQ1在半监督学习中,权重平均的教师目标(Mean Teacher)能否优于基于预测的目标(Temporal Ensembling)?
- RQ2在更少标签和更大数据集上,权重平均的目标是否能实现更高效的学习和更好的泛化?
- RQ3在半监督设置中,Mean Teacher 如何与网络架构(ConvNet 与 ResNet)互动?
- RQ4超参数(一致性权重、EMA 衰减)以及训练策略(分类与一致性耦合)对性能的影响何在?
- RQ5Mean Teacher 是否兼容在线学习并能扩展到大规模未标记数据集?
主要发现
- Mean Teacher 在半监督 SVHN 和 CIFAR-10 上的测试准确率优于 Pi-model 和 Temporal Ensembling。
- 在 250–1000 个带标注的 SVHN 实例中,Mean Teacher 在若干设置下的错误率低于 Temporal Ensembling 和 Pi-model。
- 在 CIFAR-10 的 4000 个标签下,使用 ConvNet 的 Mean Teacher 达到 12.31% 的错误率,使用 ResNet 架构时错误率下降至 6.28%;在 ImageNet 的 10% 标签下,Mean Teacher 达到 9.11% 的验证错误率。
- Mean Teacher 可以扩展到大规模数据集和在线学习,能够高效利用未标记数据,并相较基线提高学习速度和最终准确性。
- 强大的网络架构(带 Shake-Shake 正则化的 ResNet)进一步提升 Mean Teacher 的性能,在有限标签情况下实现了最先进的结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。