QUICK REVIEW

[論文レビュー] Distributed k-Means and k-Median Clustering on General Topologies

Maria Florina Balcan, Steven Ehrlich|arXiv (Cornell University)|Jun 3, 2013

Complex Network Analysis Techniques参考文献 21被引用数 61

ひとこと要約

本稿では、一般のネットワークトポロジー上で低コストの通信でグローバルな $\epsilon$-コアセットを構築する分散 $k$-means および $k$-median クラスタリングアルゴリズムを提示する。各ノードが自身のローカルデータとローカルクラスタリングの近似コストのみを用いて局所的コアセットを計算することで、従来のコアセットベースの手法と比較して通信複雑性を $n$ 倍低減し、最小限の調整で証明可能な近似保証を達成する。

ABSTRACT

This paper provides new algorithms for distributed clustering for two popular center-based objectives, k-median and k-means. These algorithms have provable guarantees and improve communication complexity over existing approaches. Following a classic approach in clustering by \cite{har2004coresets}, we reduce the problem of finding a clustering with low cost to the problem of finding a coreset of small size. We provide a distributed method for constructing a global coreset which improves over the previous methods by reducing the communication complexity, and which works over general communication topologies. Experimental results on large scale data sets show that this approach outperforms other coreset-based distributed clustering algorithms.

研究の動機と目的

中央集権的な調整者を必要とせず、一般のネットワークトポロジー上でスケーラブルで通信量が少ない分散クラスタリングを実現すること。
クラスタリング品質の理論的保証を維持しつつ、分散クラスタリングにおける通信オーバーヘッドを低減すること。
任意の連結グラフ上で効率的にスケーリングするコアセット構築法を設計し、木ベースのコアセットマージに伴う高コストを回避すること。
大規模データセットにおいて、既存のコアセットベースのアルゴリズムと比較して通信効率およびクラスタリングコストの両面で優れるようにすること。

提案手法

各ノードが自身のデータに対して局所的な近似解を計算し、そのローカルデータとローカルクラスタリングの総コストのみを用いてグローバルコアセットの局所的断片を構築する。
アルゴリズムは、各ノードから送信されるスカラ値（ローカルコスト）のみを必要とする分散コアセット構築に依存しており、通信量を最小限に抑える。
メッセージパッシングフレームワークを用いてネットワーク全体で局所的コアセット断片を集約し、一般の連結トポロジーでも効率的なコアセット共有を可能にする。
コアセット構築の根拠は、任意のセンター集合に対して全データセットのコストを近似できる小さな重み付き点の集合が存在することにあり、コアセット上の近似解が元のデータに対しても近似解であることを保証する。
$d$ 次元ユークリッド空間における $k$-median および $k$-means に対して、グローバルコアセットサイズは $\tilde{O}(kd + nk)$ であり、$n$ が大きい場合には他の手法と比べ顕著に小さい。
$d$ を全点数の対数に置き換えることで、一般の距離空間へと一般化可能であり、理論的保証を維持する。

実験結果

リサーチクエスチョン

RQ1任意のネットワークトポロジー上で、通信コストを低く抑えながら証明可能な近似保証を達成できる分散 $k$-median/$k$-meansアルゴリズムは実現可能か？
RQ2木ベースのコアセットマージに起因する通信の爆発的増大を回避するため、コアセット構築をどのように分散化できるか？
RQ3中央集権的または木構造的トポロジーではなく、任意のグラフで接続されたノード間でグローバルコアセットを構築する際の通信複雑性はどの程度か？
RQ4実際の応用において、本手法は既存のコアセットベースのアルゴリズムと比較して、通信コストおよびクラスタリング品質の両面でどの程度優れているか？

主な発見

本手法は、一般のグラフ上で、従来のコアセットベース手法と比較して通信コストを $n$ 倍低減している。これは、大規模な中間コアセットを送信する必要がなくなることによる。
通信予算を固定した場合、本手法は COMBINE アルゴリズムよりも 2%〜5% のクラスタリングコスト改善を達成し、同じ近似比に到達するための通信量を 10%〜20% 減少させている。
スパニングツリー上で、本手法は Zhang らの手法よりも約 20% のクラスタリングコストの改善を示しており、コアセットサイズの小ささと誤差蓄積の低減によるものである。
$k$-median および $k$-means における $d$ 次元ユークリッド空間のグローバルコアセットサイズは $\tilde{O}(kd + nk)$ であり、対数要因を除いて最適である。
本手法は、一般の距離空間においても $k$-median および $k$-means 目的関数に対して、証明可能な $(1+\epsilon)$-近似保証を維持する。
大規模データセットを用いた実験結果から、通信効率および解の品質の両面で、既存のコアセットベース分散クラスタリング手法を上回ることを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。