Skip to main content
QUICK REVIEW

[论文解读] On the Minimal Supervision for Training Any Binary Classifier from Only Unlabeled Data

Nan Lu, Gang Niu|arXiv (Cornell University)|Aug 31, 2018
Machine Learning and Data Classification被引用 38
一句话总结

该论文提出了一种基于经验风险最小化(ERM)的新方法,通过利用具有不同类别先验的两个未标注数据集,仅使用未标注数据即可训练任意二分类器(从线性模型到深度网络)。该方法在理论上被证明是一致的,并在实验中显示其在从两个未标注数据集学习方面优于当前最先进方法。

ABSTRACT

Empirical risk minimization (ERM), with proper loss function and regularization, is the common practice of supervised classification. In this paper, we study training arbitrary (from linear to deep) binary classifier from only unlabeled (U) data by ERM. We prove that it is impossible to estimate the risk of an arbitrary binary classifier in an unbiased manner given a single set of U data, but it becomes possible given two sets of U data with different class priors. These two facts answer a fundamental question---what the minimal supervision is for training any binary classifier from only U data. Following these findings, we propose an ERM-based learning method from two sets of U data, and then prove it is consistent. Experiments demonstrate the proposed method could train deep models and outperform state-of-the-art methods for learning from two sets of U data.

研究动机与目标

  • 确定仅使用未标注数据训练任意二分类器所需的最小监督程度。
  • 探究是否可仅从单个未标注数据集实现无偏风险估计。
  • 基于具有不同类别分布的两个未标注数据集,设计一种基于经验风险最小化的稳定学习方法。
  • 证明在最小监督条件下,仅使用未标注数据训练深度模型的可行性和有效性。

提出的方法

  • 该方法使用两个独立的未标注数据集,每个数据集具有不同的类别先验分布,以实现无偏的经验风险估计。
  • 它提出了一个修改后的经验风险最小化目标,以考虑两个未标注数据集中类别先验的差异。
  • 该方法应用标准正则化和损失函数,但将其适配到双数据集设置中,以确保一致性。
  • 理论分析证明,在温和假设下该方法是一致的,即随着数据量增加,学习到的分类器会收敛到最优解。
  • 通过利用标准优化技术,该框架可兼容任意模型,包括深度神经网络。
  • 该方法不依赖任何标注数据,仅依赖于两个未标注数据集之间类别先验的统计差异。

实验结果

研究问题

  • RQ1仅使用单个未标注数据集,是否可能对任意二分类器实现无偏的经验风险估计?
  • RQ2能否设计一种从仅未标注数据中训练二分类器的一致学习方法?如果可以,所需的最小监督是什么?
  • RQ3使用具有不同类别先验的两个未标注数据集,是否能实现无需任何标签的深度模型有效训练?
  • RQ4与现有最先进方法相比,该方法在性能和泛化能力方面表现如何?

主要发现

  • 仅使用单个未标注数据集,理论上不可能对任意二分类器实现无偏风险估计。
  • 当存在两个具有不同类别先验的未标注数据集时,无偏风险估计成为可能。
  • 所提出的基于ERM的方法在标准假设下可被证明是一致的,确保收敛到最优分类器。
  • 实验表明,该方法能够成功训练深度模型,并在从两个未标注数据集学习方面优于最先进方法。
  • 该方法即使在没有任何标注样本的情况下也表现出强大的泛化能力,仅依赖于两个数据集之间类别先验的统计差异。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。