QUICK REVIEW

[论文解读] Estimating the class prior and posterior from noisy positives and unlabeled data

Shantanu Jain, Martha White|arXiv (Cornell University)|Jun 28, 2016

Machine Learning and Data Classification参考文献 22被引用 72

一句话总结

本文提出了一种新颖的方法，用于从高维设置下的噪声正样本-未标记数据中估计类别先验和后验分布。通过应用保持类别先验的单变量变换来降低维度并避免不可靠的核密度估计，作者开发了参数化和非参数化两种算法，显著提高了现有方法的估计精度，尤其在标签噪声和高维情况下表现更优。

ABSTRACT

We develop a classification algorithm for estimating posterior distributions from positive-unlabeled data, that is robust to noise in the positive labels and effective for high-dimensional data. In recent years, several algorithms have been proposed to learn from positive-unlabeled data; however, many of these contributions remain theoretical, performing poorly on real high-dimensional data that is typically contaminated with noise. We build on this previous work to develop two practical classification algorithms that explicitly model the noise in the positive labels and utilize univariate transforms built on discriminative classifiers. We prove that these univariate transforms preserve the class prior, enabling estimation in the univariate space and avoiding kernel density estimation for high-dimensional data. The theoretical development and both parametric and nonparametric algorithms proposed here constitutes an important step towards wide-spread use of robust classification algorithms for positive-unlabeled data.

研究动机与目标

解决在正样本标签存在噪声的高维数据中缺乏实用类别先验估计算法的问题。
克服现有方法依赖干净标签或在高维空间中性能不佳的局限性。
在降维过程中保持类别先验，以实现可靠的密度估计。
为在标签噪声条件下提供类别先验与后验估计的参数化与非参数化算法。
在合成数据集和真实世界数据集上展示该方法的有效性，证明其在性能上优于当前最先进的基线方法。

提出的方法

形式化从噪声正样本-未标记数据中估计类别先验的问题，将可识别性理论扩展以考虑标签噪声的影响。
引入保持类别先验的单变量变换，使在低维空间中实现可靠密度估计成为可能。
对z分数标准化后的数据应用主成分分析（PCA），在保留类别先验信息的同时降低维度。
在变换后的单变量空间中使用基于直方图的密度估计，通过正态参考法则选择箱宽以最小化AMISE。
开发一种参数化算法（AlphaMax-N）和一种非参数化算法（MSGMM-T），利用保持类别先验的变换进行估计。
将该变换应用于标记数据和未标记数据，确保在单变量空间中估计的类别先验反映原始空间中的真实先验。

实验结果

研究问题

RQ1在高维数据的正样本-未标记学习中，类别先验估计是否能对标签噪声保持鲁棒性？
RQ2保持类别先验的单变量变换是否能比直接在高维空间中进行密度估计，实现更准确的后验与先验估计？
RQ3与现有最先进的算法相比，该方法在估计误差和计算成本方面表现如何？
RQ4基于PCA的降维与基于直方图的密度估计相结合，是否能提升在具有噪声标签的真实世界数据集上的性能？
RQ5保持类别先验的变换是否能有效应用于参数化与非参数化估计框架？

主要发现

在全部12个UCI数据集上，采用类别先验保持变换的AlphaMax-N算法相比无变换的AlphaMax-NM，估计误差显著更低，平均绝对差分别为0.037和0.028。
在12个数据集中的10个上，AlphaMax-N（带变换）优于所有其他方法，其中在8个案例中具有统计显著性（p < 0.05），表明其对标签噪声具有强鲁棒性。
在Landsat数据集上，MSGMM-T（带变换）显著优于MSGMM（无变换），平均绝对误差从0.298降低至0.152，表明该变换在性能中起关键作用。
在Pima数据集上，AlphaMax-N（带变换）的平均绝对误差为0.110，显著优于MSGMM（0.292）和AlphaMax-NM（0.156），凸显其在高维、噪声环境下的优越性。
即使仅保留前三个主成分的75%方差，该方法仍保持强劲性能，表明其对中等程度降维具有鲁棒性。
在基于直方图的密度估计中采用正态参考法则选择箱宽，实现了稳定且低误差的估计，尤其在核密度估计失效的高维数据中表现更优。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。