[论文解读] Coresets for $k$-Means and $k$-Median Clustering and their Applications
本文证明在低维中存在用于 k-means 和 k-median 聚类的小型核心集合,并给出高效的构造算法,从而在改进的时间复杂度和流式支持下实现 (1+ε)-近似。
$ enewcommand{\Re}{{ m I\!\hspace{-0.025em} R}} ewcommand{\eps}{\varepsilon} ewcommand{\Coreset}{\mathcal{S}} $ In this paper, we show the existence of small coresets for the problems of computing $k$-median and $k$-means clustering for points in low dimension. In other words, we show that given a point set $P$ in $\Re^d$, one can compute a weighted set $\Coreset \subseteq P$, of size $O(k \eps^{-d} \log{n})$, such that one can compute the $k$-median/means clustering on $\Coreset$ instead of on $P$, and get an $(1+\eps)$-approximation. As a result, we improve the fastest known algorithms for $(1+\eps)$-approximate $k$-means and $k$-median clustering. Our algorithms have linear running time for a fixed $k$ and $\eps$. In addition, we can maintain the $(1+\eps)$-approximate $k$-median or $k$-means clustering of a stream when points are being only inserted, using polylogarithmic space and update time.
研究动机与目标
- 在低维空间中激励聚类研究以及对更快近似方法的需求。
- 证明存在保持聚类代价在 (1±ε) 因子内的小型 (k, ε)-核心集合。
- 开发构造核心集合的快速算法,并在核心集合上进行聚类以获得可证明的保证。
- 将该方法推广到流数据,提供多对数空间和更新时间。
提出的方法
- 引入用于 k-median 和 k-means 的 (k, ε)-核心集合:对任意 k-中心集合,其带权子集都在 (1±ε) 内保留聚类代价。
- 提供线性时间构造,获得一个近似最优的中心集合,从而诱导出良好的近似。
- 从近似中心构建 (k, ε)-核心集合,并在核心集合上使用已知算法的带权变体进行聚类。
- 开发一种快速的常数因子近似算法,输出超过 k 的中心数 (O(k log^3 n)),同时近似 k-means 和 k-median。
- 利用核心集合通过质心集方法和局部搜索改进,导出 k-median 和 k-means 的 (1+ε)-近似。
- 将框架扩展到数据流,维持一个大小为 O(k ε^{-d} log n) 的核心集合,更新时间为多对数级别。
实验结果
研究问题
- RQ1是否可以在低维中为 k-means 和 k-median 构建出小型的 (k, ε)-核心集合,从而产生 (1+ε)-近似解?
- RQ2核心集合的大小以及构造和使用它的时间复杂度是多少,尤其是在固定的 k 和 ε 下?
- RQ3在仅插入更新的流模型中,如何维护核心集合?
- RQ4是否可以通过使用超过 k 的中心来实现快速的常数因子近似,以在核心集合上种子化一个紧致的 (1+ε)-近似?
- RQ5如何将离散的 (k, ε)-近似和质心集结合起来,以获得实用的 (1+ε)-近似保证?
主要发现
- 在 Re^d 中,存在大小为 O((k/ε^{d}) log n) 的 (k, ε)-核心集合,用于 k-means 和 k-median。
- 通过在带权中心的核心集合上聚类,核心集合实现 (1+ε)-近似。
- 一种快速的常数因子近似算法输出 O(k log^3 n) 个中心,近似 k-means 和 k-median。
- 流式算法维持一个大小为 O(k ε^{-d} log n) 的 (k, ε)-核心集合,更新时间和空间均为多对数级别。
- 基于质心集合的后处理通过将中心限制在一个大小为 O(k^2 ε^{-2d} log^2 n) 的候选集合来实现 (1+ε)-近似。
- 这些方法使运行时间中的 n 与与 k 和 1/ε 相关的指数常数解耦,从而提升实际效率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。