Skip to main content
QUICK REVIEW

[論文レビュー] A Local Clustering Algorithm for Massive Graphs and its Application to Nearly-Linear Time Graph Partitioning

Daniel A. Spielman, Shang‐Hua Teng|ArXiv.org|Sep 18, 2008
Data Management and Algorithms参考文献 12被引用数 45
ひとこと要約

本稿では、トレuncatedランダムウォークを用いて、クラスターサイズにほぼ線形な時間で低コンductanceクラスタを同定する、局所的クラスタリングアルゴリズムNibbleを提示する。この手法により、ほぼ最適なバランスを達成するほぼ線形時間のグラフ分割法が実現され、対称的かつ対角優勢な行列におけるスペクトルスパース化と線形方程式系の解法が効率的に行える。

ABSTRACT

We study the design of local algorithms for massive graphs. A local algorithm is one that finds a solution containing or near a given vertex without looking at the whole graph. We present a local clustering algorithm. Our algorithm finds a good cluster--a subset of vertices whose internal connections are significantly richer than its external connections--near a given vertex. The running time of our algorithm, when it finds a non-empty local cluster, is nearly linear in the size of the cluster it outputs. Our clustering algorithm could be a useful primitive for handling massive graphs, such as social networks and web-graphs. As an application of this clustering algorithm, we present a partitioning algorithm that finds an approximate sparsest cut with nearly optimal balance. Our algorithm takes time nearly linear in the number edges of the graph. Using the partitioning algorithm of this paper, we have designed a nearly-linear time algorithm for constructing spectral sparsifiers of graphs, which we in turn use in a nearly-linear time algorithm for solving linear systems in symmetric, diagonally-dominant matrices. The linear system solver also leads to a nearly linear-time algorithm for approximating the second-smallest eigenvalue and corresponding eigenvector of the Laplacian matrix of a graph. These other results are presented in two companion papers.

研究の動機と目的

  • 全グラフを調べることなく、巨大グラフ内に高品質なクラスタを効率的に同定できる局所的クラスタリングアルゴリズムの設計。
  • 局所的クラスタリングプリミティブを活用することで、ほぼ最適なバランスを達成するほぼ線形時間のグラフ分割法の実現。
  • 対称的かつ対角優勢な線形方程式系の解法およびスペクトルスパース化のためのほぼ線形時間アルゴリズムの開発支援。
  • 局所的クラスタリングプロセスの成功確率およびコンダクタンスに対する理論的保証の確立。

提案手法

  • アルゴリズムは、入力頂点から短いウォークに現れる可能性の高い頂点の確率分布を、トレuncatedランダムウォークにより維持する。
  • 確率が高くなる頂点に基づいてクラスタを選び、出力の感度と小さなサポートサイズを保証する。
  • 測度とエッジ拡張性に基づくポテンシャル関数を用いた再帰的分割プロセスを採用し、低コンダクタンス集合を段階的に分離する。
  • コンダクタンスのしきい値に基づく停止条件を導入し、複数反復における失敗確率を確率的解析で上限付ける。
  • 定数の確率で、出力クラスタが目的のクラスタC₀の大部分を占め、かつコンダクタンスが小さいことを保証する。
  • グラフラプラシアンのスペクトル的性質を活用し、ランダムウォークダイナミクスを用いて第二小固有値および対応する固有ベクトルを近似する。

実験結果

リサーチクエスチョン

  • RQ1与えられた頂点の近傍で、クラスターサイズに比例する時間で良いクラスタを同定できる局所的クラスタリングアルゴリズムは存在するか?
  • RQ2良いクラスタからランダムに頂点をサンプリングした場合、低コンダクタンスクラスタを同定する確率はどの程度か?
  • RQ3局所的クラスタリングを用いて、ほぼ最適なバランスを達成するほぼ線形時間のグラフ分割法を設計できるか?
  • RQ4局所的クラスタリングをどのように拡張すれば、スペクトルスパースファイアと線形方程式系の効率的解法を実現できるか?
  • RQ5このアルゴリズムが返すクラスタのコンダクタンスおよび測度について、どのような理論的保証を示せるか?

主な発見

  • 任意のターゲットコンダクタンスφに対して、ある定数α > 0が存在し、コンダクタンスがα·φ²/log³n未満であるクラスタC₀が与えられたとき、C₀から度数加重ランダム頂点を入力とすると、Nibbleはコンダクタンスがφ未満でC₀の大部分を占めるクラスタCを確率1/2以上で出力する。
  • Nibbleの実行時間は出力クラスターサイズに対してほぼ線形であり、出力に依存する感度が高く、巨大グラフに対して効率的である。
  • アルゴリズムにより、与えられたコンダクタンスを近似する分割において、ほぼ最適なバランスを達成するほぼ線形時間のグラフ分割法が実現可能である。
  • この分割法により、スペクトルスパースファイアのほぼ線形時間構築が可能となり、それが対称的かつ対角優勢な線形方程式系のほぼ線形時間解法を可能にする。
  • この手法により、グラフラプラシアンの第二小固有値および対応する固有ベクトルのほぼ線形時間近似が可能である。
  • 解析により、O(m log(1/p))回の反復後、測度のカットが全測度の1/4以上であるか、またはターゲット集合Sとの共通部分がSの測度の半分以上であるかのいずれかが高確率で満たされることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。