Skip to main content
QUICK REVIEW

[论文解读] Instance-Dependent PU Learning by Bayesian Optimal Relabeling

Fengxiang He, Tongliang Liu|arXiv (Cornell University)|Aug 7, 2018
Machine Learning and Algorithms参考文献 40被引用 29
一句话总结

该论文提出了一种基于概率间隙的贝叶斯最优重标记方法,实现无模型、实例相关的PU学习,该方法通过估计真实后验差异并利用核均值匹配校正领域偏移,在无需超参数调优的情况下,在合成数据集和真实世界数据集上均取得了最先进性能。

ABSTRACT

When learning from positive and unlabelled data, it is a strong assumption that the positive observations are randomly sampled from the distribution of $X$ conditional on $Y = 1$, where X stands for the feature and Y the label. Most existing algorithms are optimally designed under the assumption. However, for many real-world applications, the observed positive examples are dependent on the conditional probability $P(Y = 1|X)$ and should be sampled biasedly. In this paper, we assume that a positive example with a higher $P(Y = 1|X)$ is more likely to be labelled and propose a probabilistic-gap based PU learning algorithms. Specifically, by treating the unlabelled data as noisy negative examples, we could automatically label a group positive and negative examples whose labels are identical to the ones assigned by a Bayesian optimal classifier with a consistency guarantee. The relabelled examples have a biased domain, which is remedied by the kernel mean matching technique. The proposed algorithm is model-free and thus do not have any parameters to tune. Experimental results demonstrate that our method works well on both generated and real-world datasets.

研究动机与目标

  • 解决现有PU学习方法假设正样本中误标率恒定的局限性。
  • 建模实例相关的标注偏置,其中更难分类的样本(概率间隙较低)更可能未被标注。
  • 开发一种重标记策略,仅基于观测到的正样本和未标注数据,生成与贝叶斯最优分类器一致的标签。
  • 利用核均值匹配(KMM)校正重标记数据中引入的领域偏移,以提升泛化性能。
  • 提供一种理论基础坚实、无需参数调节的PU学习方法,其在合成数据集和真实世界数据集上的表现优于现有方法。

提出的方法

  • 引入概率间隙 ΔP(X) = P(Y=1|X) − P(Y=−1|X) 作为分类难度的度量,值越低表示标注难度越高。
  • 将误标率 ρ(X,Y) 建模为 ΔP(X) 的单调递减函数,假设后验概率较高的正样本更可能被标注。
  • 通过 ΔP̃(X) = P(Ỹ=1|X) − P(Ỹ=−1|X) 间接估计 ΔP(X),利用观测到的标签分布。
  • 应用贝叶斯最优重标记过程,基于估计的 ΔP(X) 为未标注样本分配标签,确保与最优分类器的一致性。
  • 使用核均值匹配(KMM)对重标记数据集进行重加权,以校正因不可标注子域导致的领域偏移。
  • 采用 Doc2Vec 将文本文档嵌入为32维向量,用于真实世界数据集的处理。

实验结果

研究问题

  • RQ1如何在PU学习中建模实例相关的标注偏置,即正样本被标注的可能性取决于其后验概率?
  • RQ2在无法访问真实标签的情况下,能否从未观测到的标签分布中估计真实后验差异 ΔP(X)?
  • RQ3基于估计的 ΔP(X) 的贝叶斯最优重标记策略是否能生成与最优分类器一致的标签?
  • RQ4核均值匹配能否有效校正PU学习中因不可标注子域引入的领域偏置?
  • RQ5在多样化数据分布下,所提出方法与现有PU学习方法相比,在准确率和鲁棒性方面表现如何?

主要发现

  • 在合成线性误标率数据集上,所提出的 PGPU 和 PGPUcv 方法实现了84.36%的最高平均分类准确率,优于SVM、Elkan、Natarajan和Liu方法。
  • 在真实世界TCDB数据集上,该方法表现出色,结果与合成实验一致,证实了其在真实世界文本数据上的可行性。
  • 即使在使用原始干净数据进行SVM训练时,该方法仍优于基线方法,表明重加权与重标记能有效提升泛化性能。
  • 当误标率与实例相关时,该方法与其他方法的性能差距最为显著,验证了概率间隙模型的核心假设。
  • 当误标率恒定时,该方法性能下降,证实其有效性依赖于误标率与概率间隙之间的单调性假设。
  • 贝叶斯最优重标记过程不会为所有样本分配标签,特别是 ΔP(X) ∈ (l, 0) 子域中的样本,这引入了领域偏置,KMM虽能缓解但无法完全消除。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。