Skip to main content
QUICK REVIEW

[論文レビュー] Coresets for $k$-Means and $k$-Median Clustering and their Applications

Sariel Har-Peled, Soham Mazumdar|arXiv (Cornell University)|Oct 30, 2018
Complexity and Algorithms in Graphs参考文献 25被引用数 95
ひとこと要約

本論文は低次元空間における k-means および k-median クラスタリングの小さなコアセットの存在を証明し、それらを構築する効率的なアルゴリズムを提供する。これにより (1+ε)-近似を、実行時間の改善とストリーミング対応とともに実現できる。

ABSTRACT

$ enewcommand{\Re}{{ m I\!\hspace{-0.025em} R}} ewcommand{\eps}{\varepsilon} ewcommand{\Coreset}{\mathcal{S}} $ In this paper, we show the existence of small coresets for the problems of computing $k$-median and $k$-means clustering for points in low dimension. In other words, we show that given a point set $P$ in $\Re^d$, one can compute a weighted set $\Coreset \subseteq P$, of size $O(k \eps^{-d} \log{n})$, such that one can compute the $k$-median/means clustering on $\Coreset$ instead of on $P$, and get an $(1+\eps)$-approximation. As a result, we improve the fastest known algorithms for $(1+\eps)$-approximate $k$-means and $k$-median clustering. Our algorithms have linear running time for a fixed $k$ and $\eps$. In addition, we can maintain the $(1+\eps)$-approximate $k$-median or $k$-means clustering of a stream when points are being only inserted, using polylogarithmic space and update time.

研究の動機と目的

  • 低次元空間におけるクラスタリングの動機付けと、より高速な近似手法の必要性。
  • クラスタリングコストを (1±ε) の因子内に保持する小さな (k, ε)-コアセットの存在を示す。
  • コアセットを構築し、証明可能な保証付きでそれら上でクラスタリングを行う高速なアルゴリズムを開発する。
  • 多対数時間を持つストリーミングデータへのアプローチの拡張。

提案手法

  • 任意の k-center 集合に対して、クラスタリングコストを (1±ε) の範囲で保つ重み付き部分集合として、k-median および k-means のための (k, ε)-コアセットを導入する。
  • 良い近似を誘発する近似的な中心集合を得る線形時間構築を提供する。
  • 近似中心から (k, ε)-コアセットを構築し、既知アルゴリズムの重み付きバリアントを用いてコアセット上でクラスタリングを実行する。
  • k-means と k-median の両方を近似する、中心数が k を超える(O(k log^3 n))高速な定数因子近似アルゴリズムを開発する。
  • セントロイド集合アプローチと局所探索による改良を通じて、コアセットを用いて k-median および k-means の (1+ε)-近似を導出する。
  • データストリームへフレームワークを拡張し、サイズ O(k ε^{-d} log n) のコアセットをポリログ更新時間で維持する。

実験結果

リサーチクエスチョン

  • RQ1低次元で k-means および k-median のために、(1+ε)-近似解をもたらす小さな (k, ε)-コアセットを構築できるか。
  • RQ2コアセットのサイズと、それを構築・利用する計算量はどうなるか(特に固定された k および ε の場合)。
  • RQ3挿入のみの更新を持つストリーミングモデルで、コアセットをどのように維持するか。
  • RQ4コアセット上で厳密な (1+ε)-近似を導くために、k より多い中心を用いて高速な定数因子近似を達成できるか。
  • RQ5離散的な (k, ε)-近似とセントロイド集合を組み合わせて、実用的な (1+ε)-近似保証を得るにはどうすればよいか。

主な発見

  • Re^d における k-means および k-median のためにサイズ O((k/ε^{d}) log n) の (k, ε)-コアセットが存在する。
  • コアセット上で重み付き中心でクラスタリングすることにより (1+ε)-近似を実現できる。
  • 高速な定数因子近似アルゴリズムは O(k log^3 n) 個の中心を出力し、k-means および k-median の両方を近似する。
  • ストリーミングアルゴリズムはサイズ O(k ε^{-d} log n) の (k, ε)-コアセットをポリログ更新時間と空間で維持する。
  • セントロイドセットを用いた後処理により、中心をサイズ O(k^2 ε^{-2d} log^2 n) の小さな候補集合に制限することで (1+ε)-近似を得る。
  • 手法は実行時間の n と k および 1/ε に結びついた指数定数を分離し、実用的な効率を改善する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。