Skip to main content
QUICK REVIEW

[论文解读] Semi-Supervised Learning of Class Balance under Class-Prior Change by Distribution Matching

Marthinus Du Plessis, Masashi Sugiyama|arXiv (Cornell University)|Jun 18, 2012
Domain Adaptation and Few-Shot Learning参考文献 43被引用 27
一句话总结

该论文提出了一种半监督方法,在类别先验漂移条件下,通过分布匹配技术匹配训练集与测试集之间的输入数据分布,以估计测试数据中的类别先验。该方法无需标注的测试数据即可实现准确的偏差校正,在分布漂移下实现了最先进的类别比例估计性能。

ABSTRACT

In real-world classification problems, the class balance in the training dataset does not necessarily reflect that of the test dataset, which can cause significant estimation bias. If the class ratio of the test dataset is known, instance re-weighting or resampling allows systematical bias correction. However, learning the class ratio of the test dataset is challenging when no labeled data is available from the test domain. In this paper, we propose to estimate the class ratio in the test dataset by matching probability distributions of training and test input data. We demonstrate the utility of the proposed approach through experiments.

研究动机与目标

  • 解决现实世界分类中类别先验漂移的挑战,即训练数据与测试数据具有不同的类别分布。
  • 在无标注测试数据的条件下估计测试集的类别比例,这是实际应用中常见的情形。
  • 开发一种半监督方法,利用未标注的测试数据来校正由类别先验漂移引起的估计偏差。
  • 通过使用分布匹配技术学习测试分布中的真实类别平衡,从而提升模型的泛化能力。

提出的方法

  • 该方法通过最小化其联合分布之间的差异,使用分布匹配来对齐训练数据和测试数据的输入分布。
  • 将问题形式化为一种半监督学习任务,其中利用未标注的测试数据来估计测试集的类别先验。
  • 该方法采用基于核的方法来度量分布差异,具体使用最大均值差异(MMD)来匹配特征分布。
  • 基于估计的类别比例,对训练数据应用重加权方案,以减少模型预测中的偏差。
  • 通过在分布匹配和模型微调之间交替迭代,逐步优化类别比例估计。
  • 该方法使用标注的训练数据和未标注的测试数据进行端到端训练,无需测试标签。

实验结果

研究问题

  • RQ1当没有标注的测试数据时,我们能否准确估计测试分布中的类别先验?
  • RQ2我们如何利用未标注的测试数据来校正监督学习中的类别先验漂移?
  • RQ3与基线方法相比,分布匹配在多大程度上提升了类别比例估计的性能?
  • RQ4所提出的方法是否能在类别先验漂移条件下,提升下游分类任务的泛化能力并减少偏差?

主要发现

  • 在存在类别先验漂移的基准数据集上,所提方法在类别比例估计方面显著优于基线方法。
  • 该方法通过仅使用未标注的测试数据,有效校正分布漂移,显著降低了下游分类器的预测偏差。
  • 实验结果表明,通过MMD实现的分布匹配在多个数据集和漂移场景下均表现出稳定且一致的性能。
  • 在未知测试分布漂移条件下,该方法在估计类别先验方面优于现有半监督方法。
  • 该方法对不同程度的类别先验漂移具有鲁棒性,在漂移程度较大的情况下仍能保持高精度。
  • 利用未标注的测试数据可实现可靠的偏差校正,而无需访问测试标签,使其在真实世界部署中具有实用性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。