Skip to main content
QUICK REVIEW

[论文解读] Not All Unlabeled Data are Equal: Learning to Weight Data in Semi-supervised Learning

Zhongzheng Ren, Raymond A. Yeh|arXiv (Cornell University)|Jul 2, 2020
Machine Learning and Data Classification被引用 33
一句话总结

本文提出在半监督学习中对无标签数据进行逐样本加权,使用影响函数自动调整权重,从而提升图像和文本分类任务的性能。

ABSTRACT

Existing semi-supervised learning (SSL) algorithms use a single weight to balance the loss of labeled and unlabeled examples, i.e., all unlabeled examples are equally weighted. But not all unlabeled data are equal. In this paper we study how to use a different weight for every unlabeled example. Manual tuning of all those weights -- as done in prior work -- is no longer possible. Instead, we adjust those weights via an algorithm based on the influence function, a measure of a model's dependency on one training example. To make the approach efficient, we propose a fast and effective approximation of the influence function. We demonstrate that this technique outperforms state-of-the-art methods on semi-supervised image and language classification tasks.

研究动机与目标

  • 说明无标签数据对 SSL 并非同样具有信息量,单一全局权重并非最优。
  • 引入无标签数据的逐样本权重,并在不进行人工网格搜索的情况下自动调整它们。
  • 开发基于影响函数的高效框架,用于为大型 SSL 模型计算逐样本权重。
  • 在图像和文本基准上展示超过最新 SSL 方法的性能提升。

提出的方法

  • 将逐样本权重的学习建模为双层优化,以最小化验证损失。
  • 使用影响函数近似提高某个训练样本权重对验证损失的影响(Eq. 6)。
  • 通过利用层激活和并行计算高效地计算逐样本梯度;通过将逆Hessian 限制在最后一层来近似以降低内存和计算量。
  • 采用掩码 Adam(M(asked)-Adam)优化器,在每个小批量中仅更新逐样本权重的子集。
  • 将逐样本权重与现有的 SSL 损失(如伪标签、UDA、FixMatch)结合,并交替更新模型参数和权重。
  • 提供超参数的实用指南,并通过消融研究和运行时分析验证鲁棒性。

实验结果

研究问题

  • RQ1逐样本无标签数据权重是否能超越单一全局权重提升 SSL 性能?
  • RQ2如何在大规模 SSL 中高效近似影响函数并将其集成以学习这些权重?
  • RQ3逐样本权重是否在图像和文本 SSL 基准测试中的一致性提升性能?
  • RQ4在深度网络中使用逐样本权重时的计算权衡与实际考虑包括内存、超参数等?

主要发现

  • 对无标签数据的逐样本加权在 CIFAR-10、SVHN 与 IMDb 上超过强基线如 UDA 和 FixMatch 的 SSL 性能。
  • 基于影响函数的方法能有效地根据验证性能引导对无标签样本分配权重。
  • 高效的逐样本梯度计算和最后一层 Hessian 近似使在受限 GPU 内存下的现代 SSL 设置成为可能。
  • Masked-Adam(M(asked)-Adam)和对权重子集的选择性更新在准确性与效率之间取得平衡。
  • 消融研究显示相较于使用单一全局权重的优势,并强调所选影响函数近似和优化方案的重要性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。