Skip to main content
QUICK REVIEW

[论文解读] Distributed $k$-Clustering for Data with Heavy Noise

Shi Li, Xiangyu Guo|arXiv (Cornell University)|Oct 1, 2018
Privacy-Preserving Technologies in Data被引用 13
一句话总结

该论文提出了一种用于 $k$-center、median 和 means 问题的分布式 $(k, z)$-clustering 算法,在保持 $O(1)$-近似比和 $z$-无关通信成本的同时,实现了最优的 $(1+\epsilon)z$ 个异常值。与之前的工作相比,其将额外异常值的数量从 $2z$ 减少到 $(1+\epsilon)z$,显著提升了解的质量和通信效率。

ABSTRACT

In this paper, we consider the $k$-center/median/means clustering with outliers problems (or the $(k, z)$-center/median/means problems) in the distributed setting. Most previous distributed algorithms have their communication costs linearly depending on $z$, the number of outliers. Recently Guha et al.[10] overcame this dependence issue by considering bi-criteria approximation algorithms that output solutions with $2z$ outliers. For the case where $z$ is large, the extra $z$ outliers discarded by the algorithms might be too large, considering that the data gathering process might be costly. In this paper, we improve the number of outliers to the best possible $(1+\epsilon)z$, while maintaining the $O(1)$-approximation ratio and independence of communication cost on $z$. The problems we consider include the $(k, z)$-center problem, and $(k, z)$-median/means problems in Euclidean metrics. Implementation of the our algorithm for $(k, z)$-center shows that it outperforms many previous algorithms, both in terms of the communication cost and quality of the output solution.

研究动机与目标

  • 为解决在 $z$ 较大时分布式 $k$-clustering 中异常值带来的高通信成本问题。
  • 减少超出所需 $z$ 个异常值的额外异常值数量,从而在数据密集型环境中提升解的质量。
  • 在保持通信成本与 $z$ 无关的同时,实现 $O(1)$-近似比。
  • 设计一种实用算法,在通信成本和解的质量方面均优于现有方法。

提出的方法

  • 引入一种双准则近似框架,将异常值数量控制在 $(1+\epsilon)z$,最小化异常值的过度剔除。
  • 采用一种分布式聚类策略,聚合本地数据并计算具有有界近似比的核心聚类。
  • 使用基于采样的方法,以通信高效的方式估计聚类中心和异常值。
  • 应用一种精细化的异常值选择机制,确保仅剔除 $(1+\epsilon)z$ 个异常值,从而提高解的保真度。
  • 设计一种通信协议,避免与 $z$ 呈线性依赖关系,从而在大规模分布式系统中实现可扩展性。
  • 为 $(k,z)$-center 问题实现一种实用变体,并通过实验评估进行验证。

实验结果

研究问题

  • RQ1我们能否在保持常数近似比的前提下,将分布式 $k$-clustering 中异常值的额外数量从 $2z$ 减少到 $(1+\epsilon)z$?
  • RQ2是否可能为 $(k,z)$-center/median/means 问题设计一种通信成本与 $z$ 无关的分布式算法?
  • RQ3与先前方法相比,所提出的算法在通信成本和解的质量方面表现如何?
  • RQ4该算法能否在大规模数据且存在大量噪声的实际场景中高效实现并实现可扩展性?

主要发现

  • 所提出的算法实现了最优的 $(1+\epsilon)z$ 个异常值,与基于 $2z$ 的先前方法相比,显著减少了额外异常值的数量。
  • 该算法在欧几里得度量下,对 $(k,z)$-center 以及 $(k,z)$-median/means 问题均保持了 $O(1)$-近似比。
  • 通信成本与 $z$ 无关,从而在高异常值场景下具备可扩展性。
  • 实验评估表明,与现有算法相比,该算法在通信成本和解的质量方面均表现出优越性能。
  • $(k,z)$-center 问题的实现版本在存在大量噪声的分布式数据上表现出实际效率和鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。