QUICK REVIEW

[论文解读] Coresets for $k$-Means and $k$-Median Clustering and their Applications

Sariel Har-Peled, Soham Mazumdar|arXiv (Cornell University)|Oct 30, 2018

Complexity and Algorithms in Graphs参考文献 25被引用 95

一句话总结

本文证明在低维中存在用于 k-means 和 k-median 聚类的小型核心集合，并给出高效的构造算法，从而在改进的时间复杂度和流式支持下实现 (1+ε)-近似。

ABSTRACT

$ enewcommand{\Re}{{ m I\!\hspace{-0.025em} R}} ewcommand{\eps}{\varepsilon} ewcommand{\Coreset}{\mathcal{S}} $ In this paper, we show the existence of small coresets for the problems of computing $k$-median and $k$-means clustering for points in low dimension. In other words, we show that given a point set $P$ in $\Re^d$, one can compute a weighted set $\Coreset \subseteq P$, of size $O(k \eps^{-d} \log{n})$, such that one can compute the $k$-median/means clustering on $\Coreset$ instead of on $P$, and get an $(1+\eps)$-approximation. As a result, we improve the fastest known algorithms for $(1+\eps)$-approximate $k$-means and $k$-median clustering. Our algorithms have linear running time for a fixed $k$ and $\eps$. In addition, we can maintain the $(1+\eps)$-approximate $k$-median or $k$-means clustering of a stream when points are being only inserted, using polylogarithmic space and update time.

研究动机与目标

在低维空间中激励聚类研究以及对更快近似方法的需求。
证明存在保持聚类代价在 (1±ε) 因子内的小型 (k, ε)-核心集合。
开发构造核心集合的快速算法，并在核心集合上进行聚类以获得可证明的保证。
将该方法推广到流数据，提供多对数空间和更新时间。

提出的方法

引入用于 k-median 和 k-means 的 (k, ε)-核心集合：对任意 k-中心集合，其带权子集都在 (1±ε) 内保留聚类代价。
提供线性时间构造，获得一个近似最优的中心集合，从而诱导出良好的近似。
从近似中心构建 (k, ε)-核心集合，并在核心集合上使用已知算法的带权变体进行聚类。
开发一种快速的常数因子近似算法，输出超过 k 的中心数 (O(k log^3 n))，同时近似 k-means 和 k-median。
利用核心集合通过质心集方法和局部搜索改进，导出 k-median 和 k-means 的 (1+ε)-近似。
将框架扩展到数据流，维持一个大小为 O(k ε^{-d} log n) 的核心集合，更新时间为多对数级别。

实验结果

研究问题

RQ1是否可以在低维中为 k-means 和 k-median 构建出小型的 (k, ε)-核心集合，从而产生 (1+ε)-近似解？
RQ2核心集合的大小以及构造和使用它的时间复杂度是多少，尤其是在固定的 k 和 ε 下？
RQ3在仅插入更新的流模型中，如何维护核心集合？
RQ4是否可以通过使用超过 k 的中心来实现快速的常数因子近似，以在核心集合上种子化一个紧致的 (1+ε)-近似？
RQ5如何将离散的 (k, ε)-近似和质心集结合起来，以获得实用的 (1+ε)-近似保证？

主要发现

在 Re^d 中，存在大小为 O((k/ε^{d}) log n) 的 (k, ε)-核心集合，用于 k-means 和 k-median。
通过在带权中心的核心集合上聚类，核心集合实现 (1+ε)-近似。
一种快速的常数因子近似算法输出 O(k log^3 n) 个中心，近似 k-means 和 k-median。
流式算法维持一个大小为 O(k ε^{-d} log n) 的 (k, ε)-核心集合，更新时间和空间均为多对数级别。
基于质心集合的后处理通过将中心限制在一个大小为 O(k^2 ε^{-2d} log^2 n) 的候选集合来实现 (1+ε)-近似。
这些方法使运行时间中的 n 与与 k 和 1/ε 相关的指数常数解耦，从而提升实际效率。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。