QUICK REVIEW

[论文解读] Instance-Dependent PU Learning by Bayesian Optimal Relabeling

Fengxiang He, Tongliang Liu|arXiv (Cornell University)|Aug 7, 2018

Machine Learning and Algorithms参考文献 40被引用 29

一句话总结

该论文提出了一种基于概率间隙的贝叶斯最优重标记方法，实现无模型、实例相关的PU学习，该方法通过估计真实后验差异并利用核均值匹配校正领域偏移，在无需超参数调优的情况下，在合成数据集和真实世界数据集上均取得了最先进性能。

ABSTRACT

When learning from positive and unlabelled data, it is a strong assumption that the positive observations are randomly sampled from the distribution of $X$ conditional on $Y = 1$, where X stands for the feature and Y the label. Most existing algorithms are optimally designed under the assumption. However, for many real-world applications, the observed positive examples are dependent on the conditional probability $P(Y = 1|X)$ and should be sampled biasedly. In this paper, we assume that a positive example with a higher $P(Y = 1|X)$ is more likely to be labelled and propose a probabilistic-gap based PU learning algorithms. Specifically, by treating the unlabelled data as noisy negative examples, we could automatically label a group positive and negative examples whose labels are identical to the ones assigned by a Bayesian optimal classifier with a consistency guarantee. The relabelled examples have a biased domain, which is remedied by the kernel mean matching technique. The proposed algorithm is model-free and thus do not have any parameters to tune. Experimental results demonstrate that our method works well on both generated and real-world datasets.

研究动机与目标

解决现有PU学习方法假设正样本中误标率恒定的局限性。
建模实例相关的标注偏置，其中更难分类的样本（概率间隙较低）更可能未被标注。
开发一种重标记策略，仅基于观测到的正样本和未标注数据，生成与贝叶斯最优分类器一致的标签。
利用核均值匹配（KMM）校正重标记数据中引入的领域偏移，以提升泛化性能。
提供一种理论基础坚实、无需参数调节的PU学习方法，其在合成数据集和真实世界数据集上的表现优于现有方法。

提出的方法

引入概率间隙 ΔP(X) = P(Y=1|X) − P(Y=−1|X) 作为分类难度的度量，值越低表示标注难度越高。
将误标率 ρ(X,Y) 建模为 ΔP(X) 的单调递减函数，假设后验概率较高的正样本更可能被标注。
通过 ΔP̃(X) = P(Ỹ=1|X) − P(Ỹ=−1|X) 间接估计 ΔP(X)，利用观测到的标签分布。
应用贝叶斯最优重标记过程，基于估计的 ΔP(X) 为未标注样本分配标签，确保与最优分类器的一致性。
使用核均值匹配（KMM）对重标记数据集进行重加权，以校正因不可标注子域导致的领域偏移。
采用 Doc2Vec 将文本文档嵌入为32维向量，用于真实世界数据集的处理。

实验结果

研究问题

RQ1如何在PU学习中建模实例相关的标注偏置，即正样本被标注的可能性取决于其后验概率？
RQ2在无法访问真实标签的情况下，能否从未观测到的标签分布中估计真实后验差异 ΔP(X)？
RQ3基于估计的 ΔP(X) 的贝叶斯最优重标记策略是否能生成与最优分类器一致的标签？
RQ4核均值匹配能否有效校正PU学习中因不可标注子域引入的领域偏置？
RQ5在多样化数据分布下，所提出方法与现有PU学习方法相比，在准确率和鲁棒性方面表现如何？

主要发现

在合成线性误标率数据集上，所提出的 PGPU 和 PGPUcv 方法实现了84.36%的最高平均分类准确率，优于SVM、Elkan、Natarajan和Liu方法。
在真实世界TCDB数据集上，该方法表现出色，结果与合成实验一致，证实了其在真实世界文本数据上的可行性。
即使在使用原始干净数据进行SVM训练时，该方法仍优于基线方法，表明重加权与重标记能有效提升泛化性能。
当误标率与实例相关时，该方法与其他方法的性能差距最为显著，验证了概率间隙模型的核心假设。
当误标率恒定时，该方法性能下降，证实其有效性依赖于误标率与概率间隙之间的单调性假设。
贝叶斯最优重标记过程不会为所有样本分配标签，特别是 ΔP(X) ∈ (l, 0) 子域中的样本，这引入了领域偏置，KMM虽能缓解但无法完全消除。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。