QUICK REVIEW

[論文レビュー] Distributed Graph Clustering and Sparsification

He Sun, Luca Zanetti|arXiv (Cornell University)|Nov 3, 2017

Complex Network Analysis Techniques参考文献 13被引用数 3

ひとこと要約

本稿では、大規模グラフにおけるクラスタ構造を保持するための新しいスパarsification技術を用いた、単純で分散型のグラフクラスタリングアルゴリズムを提示する。局所的コンダクタンスおよびスぺクトル的性質に基づいてエッジをサンプリングすることで、エッジ数をほぼ線形サイズに削減しつつ、低コンダクタンスクラスタを維持する。これにより、通信オーバーヘッドを最小限に抑え、O(1)ラウンドで効率的なクラスタリングが可能となる。

ABSTRACT

Graph clustering is a fundamental computational problem with a number of applications in algorithm design, machine learning, data mining, and analysis of social networks. Over the past decades, researchers have proposed a number of algorithmic design methods for graph clustering. Most of these methods, however, are based on complicated spectral techniques or convex optimisation, and cannot be directly applied for clustering many networks that occur in practice, whose information is often collected on different sites. Designing a simple and distributed clustering algorithm is of great interest, and has wide applications for processing big datasets. In this paper we present a simple and distributed algorithm for graph clustering: for a wide class of graphs that are characterised by a strong cluster-structure, our algorithm finishes in a poly-logarithmic number of rounds, and recovers a partition of the graph close to optimal. One of the main components behind our algorithm is a sampling scheme that, given a dense graph as input, produces a sparse subgraph that provably preserves the cluster-structure of the input. Compared with previous sparsification algorithms that require Laplacian solvers or involve combinatorial constructions, this component is easy to implement in a distributed way and runs fast in practice.

研究の動機と目的

分散データを想定した大規模ネットワークに適した、単純で分散型のグラフクラスタリングアルゴリズムの設計。
密度の高いグラフのクラスタ構造を保持しつつエッジ数を著しく削減するスパarsification手法の開発。
通信量とラウンドごとの計算量を最小限に抑えることで、分散システムにおける効率的なクラスタリングを実現。
多項式対数時間内でのクラスタ保存性と収束時間に関する理論的保証の提供。

提案手法

局所的コンダクタンスおよびスぺクトルギャップ（λk+1）に基づいてエッジを選択する、サンプリングに基づくスパarsification方式を提案。
構造的忠実度を保証するため、最適なサンプリングパラメータτ ≥ C/λk+1を二重化法で決定。
各ノードが局所的な重みと次数に基づいて独立してエッジをサンプリングする分散実装を採用。
スパarsifiedグラフ上でスぺクトルクラスタリングを適用し、元の最適な分割に近いクラスタを回復。
分散環境におけるラベル伝搬メカニズムを導入し、誤分類体積を低減してクラスタラベルを割り当てる。
理論的解析により、スパarsifierが各クラスタSiに対してΩ(ΥG(k)/k)のギャップとO(k·φG(Si))のコンダクタンスを維持することが示された。

実験結果

リサーチクエスチョン

RQ1多項式対数時間内に近似的に最適なグラフクラスタリングを達成できる単純で分散型のアルゴリズムは存在するか？
RQ2密度の高いグラフは、その内在するクラスタ構造を保持しつつどのようにスパarsificationできるか？
RQ3元のグラフにおける低コンダクタンスクラスタがスパarsified版でも低コンダクタンスのままであるように保証するためのサンプリング戦略は何か？
RQ4このような分散型クラスタリングアルゴリズムの通信量およびラウンド複雑性はどの程度か？
RQ5スパarsifiedグラフ上で行うスぺクトルクラスタリングは、元のグラフのクラスタリングをどの程度正確に近似できるか？

主な発見

アルゴリズムはO(1)ラウンドでクラスタリングを実行し、合計通信量がO(nτ·log n)となる。τ = 1.6で全テストデータセットで十分である。
スパarsifiedグラフは、元のエッジ数の0.14%〜3.13%を保持しつつ、クラスタリング品質の誤差は0.1%以内に収まる。
Sculptureデータセット（11,680ノード、6800万エッジ）では、わずか0.37%のエッジ（32万）がサンプリングされ、正規化カット値は元のグラフの0.0938と比較して0.0935を達成した。
スパarsifiedグラフにおける各クラスタのコンダクタンスは、元の値のO(k)要因以内に保たれ、構造的忠実度が確保されている。
アルゴリズムはΥH(k) = Ω(ΥG(k)/k)を維持し、明確なクラスタを形成するのに必要なスぺクトルギャップを保証している。
可視化と誤差比の両方から、全データセットにおいて元のグラフとスパarsifiedグラフの間でクラスタリング結果がほぼ同一であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。