[论文解读] Strong Coresets for Hard and Soft Bregman Clustering with Applications to Exponential Family Mixtures
本文提出了一种统一且实用的共核集构建算法,适用于使用 µ-相似 Bregman 散度的硬聚类与软聚类——涵盖 K-Means、高斯混合模型以及指数族模型——在共核集大小与数据规模无关的前提下,实现了强大的近似保证。该方法实现了随机多项式时间近似方案,并在实践中优于均匀子采样,在大规模数据集上实现了超过 80 倍的加速,且相对误差低于 5%。
Coresets are efficient representations of data sets such that models trained on the coreset are provably competitive with models trained on the original data set. As such, they have been successfully used to scale up clustering models such as K-Means and Gaussian mixture models to massive data sets. However, until now, the algorithms and the corresponding theory were usually specific to each clustering problem. We propose a single, practical algorithm to construct strong coresets for a large class of hard and soft clustering problems based on Bregman divergences. This class includes hard clustering with popular distortion measures such as the Squared Euclidean distance, the Mahalanobis distance, KL-divergence and Itakura-Saito distance. The corresponding soft clustering problems are directly related to popular mixture models due to a dual relationship between Bregman divergences and Exponential family distributions. Our theoretical results further imply a randomized polynomial-time approximation scheme for hard clustering. We demonstrate the practicality of the proposed algorithm in an empirical evaluation.
研究动机与目标
- 通过开发一种通用的共核集框架,解决大规模数据集下 Bregman 聚类的可扩展性问题。
- 克服先前共核集方法的局限性,这些方法局限于特定问题且仅提供弱近似保证。
- 在 µ-相似 Bregman 散度下,统一硬聚类与软聚类的共核集构建。
- 为两种聚类类型建立理论保证,并推导出随机多项式时间近似方案。
- 在具有多种 Bregman 散度的真实世界数据集上,展示该方法相较于均匀子采样的实际性能优势。
提出的方法
- 基于从 Bregman 散度性质推导出的敏感度得分,使用加权采样方案构建强共核集。
- 利用 Bregman 散度与指数族分布之间的对偶性,将共核集扩展至软聚类问题。
- 应用具有理论近似误差边界的随机共核集构建算法,且该边界与数据集大小无关。
- 利用均值最小化 Bregman 散度和(通过公式 1)的性质,推导出基于敏感度的采样权重。
- 将共核集框架泛化至所有 µ-相似 Bregman 散度,包括平方欧几里得、马氏距离、KL 散度、Itakura-Saito 散度等。
- 将共核集集成至现有聚类流程中,以实现在可证明误差界下的快速推理。
实验结果
研究问题
- RQ1能否设计一种单一的共核集构建算法,使其适用于广泛类别的 Bregman 散度下的硬聚类与软聚类?
- RQ2为确保在所有 µ-相似 Bregman 散度下均具有强近似保证,所需的理论共核集大小是多少?
- RQ3该共核集框架能否扩展至与指数族混合模型相关的软聚类问题?
- RQ4所提出的方法是否能为硬 Bregman 聚类建立随机多项式时间近似方案?
- RQ5在具有多种散度类型的现实世界数据集上,该共核集与均匀子采样相比在实际性能上表现如何?
主要发现
- 所提出的共核集构建方法在所有 µ-相似 Bregman 散度下均实现了强近似保证,且共核集大小与数据集规模无关。
- 由于 Bregman 散度与指数族分布之间的对偶性,同一算法可同时适用于硬聚类与软聚类问题。
- 为硬 Bregman 聚类建立了随机多项式时间近似方案,优于先前的弱共核集方法。
- 在包含 145,751 个点的 kdd 数据集上,共核集实现了相对于全数据聚类的 81.3 倍加速,且仅产生 4.1% 的相对误差。
- 对于 CSN 数据集(80,000 个点),即使在子样本规模较小时,共核集的相对误差也显著低于均匀子采样。
- 实验结果表明,共核集优于均匀子采样,无论在收敛速度还是准确性方面均表现更优,且 500 次试验的置信区间证实了其稳健性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。