QUICK REVIEW

[論文レビュー] Fully Scalable MPC Algorithms for Clustering in High Dimension

Artur Czumaj, Guichen Gao|arXiv (Cornell University)|Jul 15, 2023

Data Management and Algorithms被引用数 1

ひとこと要約

本稿は、高次元ユークリッド空間におけるクラスタリングのための、初めての完全スケーラブルなマス・パラレルコンputation（MPC）アルゴリズムを提示する。Facility Location、k-Median、k-Meansの各問題に対して、O(1)ラウンドでO(1)-近似を達成する。本手法は、一貫性ハッシュを基盤とする新規な幾何的集約プリミティブを活用し、高次元における効率的な近隣統計（例：範囲カウント、最近傍）を実現する。これにより、ローカルメモリを任意のσ > 0に対してn^σまで小さくできる。

ABSTRACT

We design new parallel algorithms for clustering in high-dimensional Euclidean spaces. These algorithms run in the Massively Parallel Computation (MPC) model, and are fully scalable, meaning that the local memory in each machine may be $n^σ$ for arbitrarily small fixed $σ>0$. Importantly, the local memory may be substantially smaller than the number of clusters $k$, yet all our algorithms are fast, i.e., run in $O(1)$ rounds. We first devise a fast MPC algorithm for $O(1)$-approximation of uniform facility location. This is the first fully-scalable MPC algorithm that achieves $O(1)$-approximation for any clustering problem in general geometric setting; previous algorithms only provide $\mathrm{poly}(\log n)$-approximation or apply to restricted inputs, like low dimension or small number of clusters $k$; e.g. [Bhaskara and Wijewardena, ICML'18; Cohen-Addad et al., NeurIPS'21; Cohen-Addad et al., ICML'22]. We then build on this facility location result and devise a fast MPC algorithm that achieves $O(1)$-bicriteria approximation for $k$-Median and for $k$-Means, namely, it computes $(1+\varepsilon)k$ clusters of cost within $O(1/\varepsilon^2)$-factor of the optimum for $k$ clusters. A primary technical tool that we introduce, and may be of independent interest, is a new MPC primitive for geometric aggregation, namely, computing for every data point a statistic of its approximate neighborhood, for statistics like range counting and nearest-neighbor search. Our implementation of this primitive works in high dimension, and is based on consistent hashing (aka sparse partition), a technique that was recently used for streaming algorithms [Czumaj et al., FOCS'22].

研究の動機と目的

任意のσ > 0に対してローカルメモリがn^σである高次元ユークリッド空間におけるクラスタリングの完全スケーラブルなMPCアルゴリズムの設計。
O(1)ラウンドでMPCモデルにおいてFacility Location、k-Median、k-MeansのO(1)-近似を達成すること。
従来の手法が多項式対数近似（poly(log n)-approximation）を必要としたり、低次元や小さなkに制限された入力設定を要するなどの制限を克服すること。
高次元における近似近隣統計のための新しい幾何的集約プリミティブの導入により、効率的なMPC計算を可能とすること。

提案手法

一貫性ハッシュ（スパース分割）を用いて、近似近隣統計（例：範囲カウント、最近傍）を計算する新規なMPCプリミティブを導入する。
摂動付き重みと二段階選択ルールを適用する：(C1) 確率µ/γで点を確率的に選択し、(C2) 局所的近傍内で重みが最大の点を選択する。
2のべき乗を用いた半径ベースの分割と、重みと半径の2のべき乗を用いることで、幾何的集約のための定理3.1による効率的並列評価を可能にする。
最適コストOPT_cl^zの繰り返し推定（イテレーティブな推定）を2のべき乗を用いて行い、最大(1 + 3μ)k個のセンターを用いて最も安価な解を返す。
弱いコアセット構築と、定理3.1を用いたMPC適合実装を組み合わせ、O(1)ラウンドでセンター選択条件の検証を実現する。
成功確率の向上のため、O(log n)回の並列実行を実施し、高確率の境界を達成する。

実験結果

リサーチクエスチョン

RQ1完全スケーラブルなMPCモデルにおいて、O(1)ラウンドと非線形ローカルメモリのもとで、Facility LocationのO(1)-近似が達成可能か？
RQ2Facility Locationアルゴリズムを拡張し、高次元空間におけるk-Medianおよびk-MeansのO(1)-バイクリテリア近似を達成可能か？
RQ3非線形ローカルメモリのもとで、高次元における効率的な近隣クエリをサポートする幾何的集約プリミティブを設計可能か？
RQ4一貫性ハッシュをMPCに効果的に適応し、高次元クラスタリングにおいて証明可能な近似保証を得られるか？
RQ5高次元におけるクラスタリングのO(1)-ラウンド、O(1)-近似アルゴリズムを実現するにあたり、依然として可能な最小のローカルメモリサイズ（n^σ）は何か？

主な発見

本稿は、一般の幾何的設定において、O(1)ラウンドと任意のσ > 0に対するローカルメモリn^σを備えた、Facility Locationの最初の完全スケーラブルなMPCアルゴリズムを提示する。
k-Medianおよびk-MeansにおいてO(1)-バイクリテリア近似を達成する：(1 + ε)k個のセンターを用い、最適kセンター費用のO(1/ε²)以内の費用を達成する。
提案された幾何的集約プリミティブにより、一貫性ハッシュを用いて高次元における近隣統計（例：範囲カウント、最近傍）の効率的計算が可能になる。
O(log n)回の並列実行後、期待されるクラスタリングコストは、高確率でO(2^z · β^z · γ^3 · OPT_cl^z / μ²)で抑えられる。
成功確率の向上のため、コアプロシージャをO(log n)回並列実行することで、1 - 1/poly(n)の高確率境界を達成する。
MPC実装はO(1)ラウンドで実行され、合計空間はO(n)、ローカルメモリはn^σを用い、高次元クラスタリング問題における最初の完全スケーラブルなO(1)-ラウンド解法を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。