QUICK REVIEW

[论文解读] Semi-Supervised Classification Based on Classification from Positive and Unlabeled Data

Tomoya Sakai, Marthinus Christoffel du Plessis|arXiv (Cornell University)|May 23, 2016

Machine Learning and Data Classification参考文献 26被引用 46

一句话总结

本文提出了一种新颖的半监督分类方法——PNU分类，该方法将正样本-负样本（PN）、正样本-未标记样本（PU）和负样本-未标记样本（NU）风险估计整合为一个凸组合。通过直接利用未标记数据进行风险评估而非正则化，该方法在无需强分布假设的前提下，实现了最优参数速率的泛化误差界降低和方差减小，从而在准确率和效率方面优于现有方法。

ABSTRACT

Most of the semi-supervised classification methods developed so far use unlabeled data for regularization purposes under particular distributional assumptions such as the cluster assumption. In contrast, recently developed methods of classification from positive and unlabeled data (PU classification) use unlabeled data for risk evaluation, i.e., label information is directly extracted from unlabeled data. In this paper, we extend PU classification to also incorporate negative data and propose a novel semi-supervised classification approach. We establish generalization error bounds for our novel methods and show that the bounds decrease with respect to the number of unlabeled data without the distributional assumptions that are required in existing semi-supervised classification methods. Through experiments, we demonstrate the usefulness of the proposed methods.

研究动机与目标

开发一种半监督分类方法，避免对聚类假设等强分布假设的依赖。
将PU分类扩展至包含负样本，通过未标记数据提升泛化性能。
在缺乏传统分布假设的条件下，对方差减小与泛化误差界进行理论分析。
通过实证验证所提方法在多种数据集上在准确率与计算效率方面的优越性。

提出的方法

提出将PN、PU和NU分类中的风险函数进行凸组合，构建统一的PNU分类框架。
利用PU分类中的无偏风险估计器，从未标记数据中直接提取标签信息，避免基于正则化的假设。
通过泛化误差界分析表明，随着标记与未标记数据量的增加，置信度项以最优参数速率减小。
推导出所提风险估计器的方差界，证明在未标记数据无限增加时，其方差几乎总是小于标准PN风险估计器。
采用线性分类器与平方损失或零一损失函数，通过五折交叉验证在PNU风险上选择超参数。
使用能量距离最小化估计类别先验概率，使在先验概率未知时仍可实际部署。

实验结果

研究问题

RQ1在半监督学习中，是否可有效利用未标记数据进行风险评估而非正则化？
RQ2在无分布假设条件下，结合PN、PU和NU风险函数是否能带来更优的泛化误差界？
RQ3随着未标记数据的增加，所提风险估计器的方差与标准PN分类相比如何？
RQ4所提方法是否能在准确率与计算效率方面优于现有半监督方法？

主要发现

PNU分类在所有数据集上均达到最佳或相当的性能，包括在WellSVM因类别重叠而失效的Banana数据集上。
该方法在各类数据集上表现稳定，即使在高重叠场景下也未出现显著性能下降。
PNU分类在计算时间上最快，尤其在使用平方损失时表现突出，并在Places 205图像分类任务中优于其他方法。
在无需分布假设的前提下，泛化误差界随正样本、负样本和未标记样本数量以最优参数速率减小。
当未标记数据趋于无穷时，所提风险估计器的方差几乎总是小于标准PN风险估计器。
实证结果证实，在半监督学习中使用基于PU的风险估计是极具前景且对多样化数据分布具有鲁棒性的方法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。