QUICK REVIEW

[论文解读] Meta Pseudo Labels

Hieu Pham, Zihang Dai|arXiv (Cornell University)|Mar 23, 2020

Machine Learning and Data Classification被引用 28

一句话总结

Meta Pseudo Labels 提出了一种半监督学习方法，其中学生网络从教师网络生成的伪标签中学习，而教师网络则根据学生在有标签数据上的表现持续更新。这种基于反馈的自适应机制提升了伪标签的质量，在 ImageNet 上实现了新的 SOTA 记录，top-1 准确率达到 90.2%，相比之前的方法提升了 1.6%。

ABSTRACT

We present Meta Pseudo Labels, a semi-supervised learning method that achieves a new state-of-the-art top-1 accuracy of 90.2% on ImageNet, which is 1.6% better than the existing state-of-the-art. Like Pseudo Labels, Meta Pseudo Labels has a teacher network to generate pseudo labels on unlabeled data to teach a student network. However, unlike Pseudo Labels where the teacher is fixed, the teacher in Meta Pseudo Labels is constantly adapted by the feedback of the student's performance on the labeled dataset. As a result, the teacher generates better pseudo labels to teach the student. Our code will be available at https://github.com/google-research/google-research/tree/master/meta_pseudo_labels.

研究动机与目标

为解决伪标签中的确认偏误问题，即教师生成的不准确标签会降低学生性能。
通过使教师能够根据学生的学习状态动态适应，提升半监督学习性能。
在仅使用少量有标签数据和大量无标签数据的前提下，实现在 ImageNet 等大规模基准上的 SOTA 性能。
展示该方法在大规模数据集和多样化架构（包括 EfficientNet 和 ResNet）上的可扩展性。
在多个数据集（包括 CIFAR-10、SVHN 和 ImageNet）上验证基于反馈的教师自适应的有效性。

提出的方法

该方法并行训练学生和教师网络，学生从教师在无标签数据上生成的伪标签中学习。
教师通过学生在有标签验证集上的表现所生成的奖励信号进行更新，实现基于反馈的自适应。
学生损失为教师伪标签与学生在无标签数据上的预测之间的交叉熵。
教师参数通过梯度下降进行优化，使用学生在有标签数据上的损失作为代理奖励信号。
在大规模实验中使用简化版教师网络（例如，5 层 MLP），以降低显存占用同时保持性能。
框架在 ImageNet 上使用 EfficientNet-B7，在 CIFAR-10 和 SVHN 上使用 EfficientNet-B0，无监督数据来自 TinyImages 和 YFCC-100M。

实验结果

研究问题

RQ1基于学生反馈自适应的教师网络能否提升半监督学习中伪标签的质量和泛化能力？
RQ2基于反馈的教师自适应是否能缓解伪标签方法中的确认偏误？
RQ3Meta Pseudo Labels 是否能在仅使用少量有标签数据的情况下，在 ImageNet 等大规模基准上实现 SOTA 性能？
RQ4该方法在不同架构和分布外无标签数据上的可扩展性如何？
RQ5与 NoisyStudent 和 FixMatch 等固定教师方法相比，自适应教师是否带来可测量的性能提升？

主要发现

Meta Pseudo Labels 在 ImageNet ILSVRC 2012 验证集上实现了 90.2% 的新 SOTA top-1 准确率，相比之前 SOTA 的 88.6% 提升了 1.6%。
在 ImageNet-ReaL 测试集上，该方法达到 91.02% 的 top-1 准确率，表明其在标准验证集之外也具备强大的泛化能力。
在 CIFAR-10 上使用 4,000 个有标签样本时，Meta Pseudo Labels 达到 98.56% 的准确率，较 NoisyStudent 基线提升 0.34%。
在 SVHN 上使用 1,000 个有标签样本时，该方法达到 98.78% 的准确率，与 NoisyStudent 基线持平，表明在高质量数据上收益趋于饱和。
在 ImageNet 上使用 10% 有标签数据时，Meta Pseudo Labels 达到 86.87% 的 top-1 准确率，较 NoisyStudent 的 85.81% 提升 1.06%。
简化版教师变体在显著降低显存使用的同时保持了性能，使得在包含 123 万个有标签样本的 ImageNet 上进行大规模实验成为可能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。