Skip to main content
QUICK REVIEW

[论文解读] Coresets for $k$-Means and $k$-Median Clustering and their Applications

Sariel Har-Peled, Soham Mazumdar|arXiv (Cornell University)|Oct 30, 2018
Complexity and Algorithms in Graphs参考文献 25被引用 95
一句话总结

本文证明在低维中存在用于 k-means 和 k-median 聚类的小型核心集合,并给出高效的构造算法,从而在改进的时间复杂度和流式支持下实现 (1+ε)-近似。

ABSTRACT

$ enewcommand{\Re}{{ m I\!\hspace{-0.025em} R}} ewcommand{\eps}{\varepsilon} ewcommand{\Coreset}{\mathcal{S}} $ In this paper, we show the existence of small coresets for the problems of computing $k$-median and $k$-means clustering for points in low dimension. In other words, we show that given a point set $P$ in $\Re^d$, one can compute a weighted set $\Coreset \subseteq P$, of size $O(k \eps^{-d} \log{n})$, such that one can compute the $k$-median/means clustering on $\Coreset$ instead of on $P$, and get an $(1+\eps)$-approximation. As a result, we improve the fastest known algorithms for $(1+\eps)$-approximate $k$-means and $k$-median clustering. Our algorithms have linear running time for a fixed $k$ and $\eps$. In addition, we can maintain the $(1+\eps)$-approximate $k$-median or $k$-means clustering of a stream when points are being only inserted, using polylogarithmic space and update time.

研究动机与目标

  • 在低维空间中激励聚类研究以及对更快近似方法的需求。
  • 证明存在保持聚类代价在 (1±ε) 因子内的小型 (k, ε)-核心集合。
  • 开发构造核心集合的快速算法,并在核心集合上进行聚类以获得可证明的保证。
  • 将该方法推广到流数据,提供多对数空间和更新时间。

提出的方法

  • 引入用于 k-median 和 k-means 的 (k, ε)-核心集合:对任意 k-中心集合,其带权子集都在 (1±ε) 内保留聚类代价。
  • 提供线性时间构造,获得一个近似最优的中心集合,从而诱导出良好的近似。
  • 从近似中心构建 (k, ε)-核心集合,并在核心集合上使用已知算法的带权变体进行聚类。
  • 开发一种快速的常数因子近似算法,输出超过 k 的中心数 (O(k log^3 n)),同时近似 k-means 和 k-median。
  • 利用核心集合通过质心集方法和局部搜索改进,导出 k-median 和 k-means 的 (1+ε)-近似。
  • 将框架扩展到数据流,维持一个大小为 O(k ε^{-d} log n) 的核心集合,更新时间为多对数级别。

实验结果

研究问题

  • RQ1是否可以在低维中为 k-means 和 k-median 构建出小型的 (k, ε)-核心集合,从而产生 (1+ε)-近似解?
  • RQ2核心集合的大小以及构造和使用它的时间复杂度是多少,尤其是在固定的 k 和 ε 下?
  • RQ3在仅插入更新的流模型中,如何维护核心集合?
  • RQ4是否可以通过使用超过 k 的中心来实现快速的常数因子近似,以在核心集合上种子化一个紧致的 (1+ε)-近似?
  • RQ5如何将离散的 (k, ε)-近似和质心集结合起来,以获得实用的 (1+ε)-近似保证?

主要发现

  • 在 Re^d 中,存在大小为 O((k/ε^{d}) log n) 的 (k, ε)-核心集合,用于 k-means 和 k-median。
  • 通过在带权中心的核心集合上聚类,核心集合实现 (1+ε)-近似。
  • 一种快速的常数因子近似算法输出 O(k log^3 n) 个中心,近似 k-means 和 k-median。
  • 流式算法维持一个大小为 O(k ε^{-d} log n) 的 (k, ε)-核心集合,更新时间和空间均为多对数级别。
  • 基于质心集合的后处理通过将中心限制在一个大小为 O(k^2 ε^{-2d} log^2 n) 的候选集合来实现 (1+ε)-近似。
  • 这些方法使运行时间中的 n 与与 k 和 1/ε 相关的指数常数解耦,从而提升实际效率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。