Skip to main content
QUICK REVIEW

[論文レビュー] A Composable Coreset for k-Center in Doubling Metrics

Sepideh Aghamolaei, Mohammad Ghodsi|arXiv (Cornell University)|Feb 1, 2019
Complexity and Algorithms in Graphs参考文献 21被引用数 3
ひとこと要約

本稿は、倍率次元が有界なメトリック空間におけるk中心問題に対して、|P|に対して部分線形サイズで(1+ε)-近似を達成する合成可能なコアセットを導入する。このアプローチにより、定数ラウンドかつ部分線形通信量でMapReduceにおいて(2+ε)-近似アルゴリズムを実現できる。この手法はパラメトリックプルーニングを活用し、倍率性質を応用することで、倍率次元が有界なメトリック空間において効率的かつスケーラブルなクラスタリングを実現する。

ABSTRACT

A set of points $P$ in a metric space and a constant integer $k$ are given. The $k$-center problem finds $k$ points as centers among $P$, such that the maximum distance of any point of $P$ to their closest centers $(r)$ is minimized. Doubling metrics are metric spaces in which for any $r$, a ball of radius $r$ can be covered using a constant number of balls of radius $r/2$. Fixed dimensional Euclidean spaces are doubling metrics. The lower bound on the approximation factor of $k$-center is $1.822$ in Euclidean spaces, however, $(1+\epsilon)$-approximation algorithms with exponential dependency on $\frac{1}{\epsilon}$ and $k$ exist. For a given set of sets $P_1,\ldots,P_L$, a composable coreset independently computes subsets $C_1\subset P_1, \ldots, C_L\subset P_L$, such that $\cup_{i=1}^L C_i$ contains an approximation of a measure of the set $\cup_{i=1}^L P_i$. We introduce a $(1+\epsilon)$-approximation composable coreset for $k$-center, which in doubling metrics has size sublinear in $|P|$. This results in a $(2+\epsilon)$-approximation algorithm for $k$-center in MapReduce with a constant number of rounds in doubling metrics for any $\epsilon>0$ and sublinear communications, which is based on parametric pruning. We prove the exponential nature of the trade-off between the number of centers $(k)$ and the radius $(r)$, and give a composable coreset for a related problem called dual clustering. Also, we give a new version of the parametric pruning algorithm with $O(\frac{nk}{\epsilon})$ running time, $O(n)$ space and $2+\epsilon$ approximation factor for metric $k$-center.

研究の動機と目的

  • 倍率次元が有界なメトリック空間におけるk中心問題に対して、|P|に対して部分線形サイズで(1+ε)-近似を保証する合成可能なコアセットを設計すること。
  • 定数ラウンドかつ部分線形通信量で、MapReduceのような分散システムにおける効率的でスケーラブルなk中心クラスタリングを実現すること。
  • 倍率次元が有界なメトリック空間における中心数kと半径rの間の指数的トレードオフを形式化すること。
  • 関連問題であるデュアルクラスタリングに対して、合成可能なコアセット構築によりフレームワークを拡張すること。
  • k中心問題に対してO(nk/ε)時間、O(n)空間、2+ε近似因子を達成するようにパラメトリックプルーニングアルゴリズムを最適化すること。

提案手法

  • 本稿は、分散点集合の各部分集合Piから独立にサンプリングすることで合成可能なコアセットを構築し、コアセットの和集合が全点集合のk中心を近似することを保証する。
  • パラメトリックプルーニングを適用することで、倍率次元における(1+ε)-近似保証を維持しながら点集合を縮小する。
  • 倍率性質により、半径rの球を覆う半径r/2の球の数が制限されることに起因し、コアセットサイズが|P|に対して部分線形になる。
  • 倍率次元に基づく階層的クラスタリングアプローチを用いてコアセットサイズを制限し、近似品質を保証する。
  • O(nk/ε)時間計算量、O(n)空間、2+ε近似因子を達成する新しいパラメトリックプルーニングの変種を導入する。
  • 固定半径に対してクラスタ数を最小化する目的を想定し、コアセットフレームワークを変更することでデュアルクラスタリングに拡張する。

実験結果

リサーチクエスチョン

  • RQ1倍率次元が有界なメトリック空間におけるk中心問題に対して、|P|に対して部分線形サイズで(1+ε)-近似を達成する合成可能なコアセットを構築可能か?
  • RQ2倍率次元が有界なメトリック空間における中心数kと半径rの間の本質的トレードオフは何か?そして、それを形式的に特徴づけられるか?
  • RQ3パラメトリックプルーニングをどのように最適化すれば、MapReduceにおけるk中心問題で部分線形通信量と定数ラウンド性能を達成できるか?
  • RQ4合成可能なコアセットフレームワークを、固定半径に対してクラスタ数を最小化するという目的のデュアルクラスタリングに拡張可能か?
  • RQ5メトリックk中心問題に対して2+ε近似を達成するパラメトリックプルーニングアルゴリズムの時間計算量と空間計算量は何か?

主な発見

  • 提案された合成可能なコアセットは、倍率性質を活用することでコアセット成長を制限し、倍率次元が有界なメトリック空間におけるk中心問題に対して|P|に対して部分線形サイズで(1+ε)-近似を達成する。
  • コアセットにより、定数ラウンドかつ部分線形通信量でMapReduceにおけるk中心問題に対して(2+ε)-近似アルゴリズムが実現可能であり、大規模な分散環境への適用に適している。
  • 本稿では、倍率次元が有界なメトリック空間における中心数kと半径rの間の指数的トレードオフを証明し、この制約下でのクラスタリングの根本的限界を形式化した。
  • O(nk/ε)時間計算量、O(n)空間、2+ε近似因子を達成する新しいパラメトリックプルーニングアルゴリズムを設計し、従来手法に比べて効率性を向上させた。
  • フレームワークは、固定半径に対してクラスタ数を最小化する目的のデュアルクラスタリングに成功して拡張され、合成可能なコアセットアプローチの一般性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。