QUICK REVIEW

[论文解读] Mixture Proportion Estimation via Kernel Embedding of Distributions

Harish G. Ramaswamy, Clayton Scott|arXiv (Cornell University)|Mar 8, 2016

Machine Learning and Data Classification参考文献 21被引用 41

一句话总结

该论文提出了一种新颖且高效的混合比例估计（MPE）算法，通过将概率分布的核嵌入映射到再生核希尔伯特空间（RKHS）实现。通过利用${\mathcal{C}}$-距离将MPE表述为凸二次规划问题，并引入可分性条件，该方法在标准数据集上实现了对真实混合比例的可证明收敛速率，优于现有方法，且无需进行条件概率估计。

ABSTRACT

Mixture proportion estimation (MPE) is the problem of estimating the weight of a component distribution in a mixture, given samples from the mixture and component. This problem constitutes a key part in many "weakly supervised learning" problems like learning with positive and unlabelled samples, learning with label noise, anomaly detection and crowdsourcing. While there have been several methods proposed to solve this problem, to the best of our knowledge no efficient algorithm with a proven convergence rate towards the true proportion exists for this problem. We fill this gap by constructing a provably correct algorithm for MPE, and derive convergence rates under certain assumptions on the distribution. Our method is based on embedding distributions onto an RKHS, and implementing it only requires solving a simple convex quadratic programming problem a few times. We run our algorithm on several standard classification datasets, and demonstrate that it performs comparably to or better than other algorithms on most datasets.

研究动机与目标

为在最小假设下解决非参数混合比例估计（MPE）中缺乏高效且可证明收敛的算法问题。
开发一种避免准确估计条件概率的方法，因为后者在估计单一标量比例时计算成本高且间接。
在组件分布与混合分布的新可分性条件下，建立MPE的理论收敛速率。
提出一种基于二分查找和凸优化的实用且可实现的算法，在真实世界数据集上表现具有竞争力。

提出的方法

该方法使用正定核将组件分布和混合分布嵌入到再生核希尔伯特空间（RKHS）中。
引入${\mathcal{C}}$-距离，即一种将候选混合比例映射为估计分布对齐与真实分布对齐之间差异度量的函数。
在新的“可分性”条件下，${\mathcal{C}}$-距离函数将真实混合比例唯一识别为其最小值点。
该算法在候选比例上执行二分查找，每一步通过求解一个简单的凸二次规划问题来评估${\mathcal{C}}$-距离。
该方法仅依赖于混合分布和组件分布的样本，无需任何模型拟合或概率估计。
在分布可分性和核算子特征结构的假设下，推导出收敛速率。

实验结果

研究问题

RQ1能否在最小假设下，为非参数混合比例估计开发一种可证明收敛且高效的算法？
RQ2将分布嵌入RKHS是否能比需要条件概率估计的方法更直接、更准确地估计混合比例？
RQ3在新的可分性条件下，所提出估计器的理论收敛速率如何建立？
RQ4所提出方法在真实世界数据集上的性能与现有最先进的MPE算法相比如何？

主要发现

在可分性条件下，所提出方法可证明收敛于真实混合比例，收敛速率以样本量表示。
该算法计算高效，仅需求解少数几次凸二次规划问题，且无需估计条件概率。
在waveform、mushroom、pageblocks、shuttle和spambase等标准基准数据集上，该方法在绝对误差方面优于或匹配现有算法，尤其在样本量较大时表现更优。
该方法在不同数据集和样本量下表现稳健，在16组数据集-样本量组合中，平均绝对误差最低的有7组。
统计显著性检验（Wilcoxon符号秩检验）证实，在多个设置下，该方法在0.05显著性水平上显著优于多个基线方法。
该方法表现出强劲的实证性能，误差随样本量增加而减小，与推导出的理论收敛速率一致。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。