Skip to main content
QUICK REVIEW

[论文解读] A Local Clustering Algorithm for Massive Graphs and its Application to Nearly-Linear Time Graph Partitioning

Daniel A. Spielman, Shang‐Hua Teng|ArXiv.org|Sep 18, 2008
Data Management and Algorithms参考文献 12被引用 45
一句话总结

本文提出 Nibble,一种局部聚类算法,通过截断随机游走,在近乎线性时间内于大规模图中找到低导出率聚类,运行时间几乎与聚类大小成线性关系。该算法实现了首个近乎线性时间的图划分算法,且平衡性近乎最优,从而支持高效的谱稀疏化和对称、对角占优矩阵的线性系统求解。

ABSTRACT

We study the design of local algorithms for massive graphs. A local algorithm is one that finds a solution containing or near a given vertex without looking at the whole graph. We present a local clustering algorithm. Our algorithm finds a good cluster--a subset of vertices whose internal connections are significantly richer than its external connections--near a given vertex. The running time of our algorithm, when it finds a non-empty local cluster, is nearly linear in the size of the cluster it outputs. Our clustering algorithm could be a useful primitive for handling massive graphs, such as social networks and web-graphs. As an application of this clustering algorithm, we present a partitioning algorithm that finds an approximate sparsest cut with nearly optimal balance. Our algorithm takes time nearly linear in the number edges of the graph. Using the partitioning algorithm of this paper, we have designed a nearly-linear time algorithm for constructing spectral sparsifiers of graphs, which we in turn use in a nearly-linear time algorithm for solving linear systems in symmetric, diagonally-dominant matrices. The linear system solver also leads to a nearly linear-time algorithm for approximating the second-smallest eigenvalue and corresponding eigenvector of the Laplacian matrix of a graph. These other results are presented in two companion papers.

研究动机与目标

  • 设计一种局部聚类算法,可在不检查整个图的情况下,高效识别大规模图中的高质量聚类。
  • 通过利用局部聚类原语,实现近乎线性时间的图划分,且平衡性近乎最优。
  • 支持谱稀疏化和对称、对角占优线性系统求解的近乎线性时间算法的开发。
  • 为局部聚类过程的成功概率和导出率提供理论保证。

提出的方法

  • 该算法使用截断随机游走,以维护从输入顶点出发的短路径中可能出现的顶点的概率分布。
  • 基于截断分布中概率较高的顶点选择聚类,确保输出的敏感性与较小的支持集大小。
  • 该方法采用基于度量和边扩张的势函数的递归划分过程,迭代地隔离低导出率集合。
  • 引入基于导出率阈值的停止条件,并使用概率分析来限制多次迭代中的失败概率。
  • 该算法确保以常数概率,输出聚类主要位于目标聚类内部,且导出率较低。
  • 该方法利用图拉普拉斯矩阵的谱性质,并通过随机游走动态近似第二小的特征值及其对应的特征向量。

实验结果

研究问题

  • RQ1局部聚类算法能否在与聚类大小成正比的时间内,于给定顶点附近找到一个优质聚类?
  • RQ2当从优质聚类中采样输入顶点时,找到低导出率聚类的成功概率是多少?
  • RQ3局部聚类能否用于设计一种近乎线性时间、且平衡性近乎最优的图划分算法?
  • RQ4如何将局部聚类扩展以高效生成谱稀疏化器并求解线性系统?
  • RQ5可为算法返回的聚类的导出率和度量提供哪些理论保证?

主要发现

  • 存在常数 α > 0,使得对任意目标导出率 φ,以及任意导出率不超过 α·φ²/log³n 的聚类 C₀,当从 C₀ 中以度加权方式随机选取一个顶点作为输入时,Nibble 以至少 1/2 的概率返回一个导出率不超过 φ 且主要包含在 C₀ 内部的聚类 C。
  • Nibble 的运行时间几乎与输出聚类的大小成线性关系,因此对输出敏感,适用于大规模图。
  • 该算法实现了近乎线性时间的图划分方法,可在近似给定导出率的前提下实现近乎最优的分区平衡。
  • 该划分算法可实现近乎线性时间构建谱稀疏化器,进而支持对称、对角占优线性系统的近乎线性时间求解器。
  • 该方法支持对图拉普拉斯矩阵第二小特征值及其对应特征向量的近乎线性时间近似。
  • 分析证明,在 O(m log(1/p)) 次迭代后,划分算法以高概率满足以下两个条件之一:要么割集的度量至少占总度量的 1/4,要么与目标集合 S 的交集至少占 S 的一半度量。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。