Skip to main content
QUICK REVIEW

[论文解读] Uncovering the Small Community Structure in Large Networks: A Local Spectral Approach

Yixuan Li, Kun He|arXiv (Cornell University)|Sep 25, 2015
Complex Network Analysis Techniques参考文献 20被引用 27
一句话总结

该论文提出LEMON,一种用于在大规模网络中检测重叠社区的局部谱方法。该方法通过在从种子节点出发的短随机游走所导出的局部谱空间中寻找一个稀疏向量,实现对重叠社区的检测,其中种子节点位于该向量的支撑集中。LEMON在社区大小上实现线性可扩展性,达到最先进的检测精度,能够在计算开销极低的情况下实现对百亿节点网络的高效社区检测。

ABSTRACT

Large graphs arise in a number of contexts and understanding their structure and extracting information from them is an important research area. Early algorithms on mining communities have focused on the global structure, and often run in time functional to the size of the entire graph. Nowadays, as we often explore networks with billions of vertices and find communities of size hundreds, it is crucial to shift our attention from macroscopic structure to microscopic structure when dealing with large networks. A growing body of work has been adopting local expansion methods in order to identify the community from a few exemplary seed members. In this paper, we propose a novel approach for finding overlapping communities called LEMON (Local Expansion via Minimum One Norm). Different from PageRank-like diffusion methods, LEMON finds the community by seeking a sparse vector in the span of the local spectra such that the seeds are in its support. We show that LEMON can achieve the highest detection accuracy among state-of-the-art proposals. The running time depends on the size of the community rather than that of the entire graph. The algorithm is easy to implement, and is highly parallelizable. Moreover, given that networks are not all similar in nature, a comprehensive analysis on how the local expansion approach is suited for uncovering communities in different networks is still lacking. We thoroughly evaluate our approach using both synthetic and real-world datasets across different domains, and analyze the empirical variations when applying our method to inherently different networks in practice. In addition, the heuristics on how the quality and quantity of the seed set would affect the performance are provided.

研究动机与目标

  • 解决全局社区检测方法在网络规模增大时可扩展性差的局限性。
  • 开发一种局部、可扩展的方法,用于在大规模网络中识别小型重叠社区。
  • 通过利用短随机游走所获得的谱结构,提升现有种子集扩展方法的检测精度。
  • 分析局部扩展方法在多样化真实网络与合成网络中的经验行为。
  • 提供关于种子集质量与大小的实用启发式方法,以实现最佳性能。

提出的方法

  • LEMON利用从种子节点出发的短随机游走所获得的前导奇异向量,构建局部谱子空间。
  • 将社区检测问题建模为该局部谱子空间中的稀疏向量选择问题,其中向量的支撑集必须包含种子节点。
  • 通过求解最小一范数优化问题,寻找包含种子节点的局部谱空间中最稀疏的向量。
  • 该方法利用低导出率社区在局部谱空间中对应向量一范数较小的特性。
  • 采用贪心阈值策略从稀疏解中恢复社区,确保计算效率。
  • 该方法高度可并行化,运行时间与目标社区大小成正比,而非整个图的规模。

实验结果

研究问题

  • RQ1如何使社区检测在拥有数十亿个节点、社区规模约为100的大型网络中保持高效?
  • RQ2局部谱聚类在社区检测精度上相较于基于随机游走的扩散方法有多大优势?
  • RQ3网络结构的变化(如度分布和社区混合程度)如何影响局部扩展算法的性能?
  • RQ4该方法在真实网络与合成网络中对种子集大小、种子质量及随机游走参数的敏感性如何?
  • RQ5局部谱方法是否能有效检测现实网络中自然形成的社区,即使这些社区并非人为构造?

主要发现

  • 在LFR基准数据集上,LEMON在最先进方法中取得了最高的F1分数,显著优于LC、DEMON及其他基线方法。
  • 在YouTube和DBLP等真实网络中,LEMON在极少参数调优下仍保持高精度,尤其当(k,l) = (3,3)且种子集大小为3时表现优异。
  • 与合成LFR图相比,LEMON在真实网络中对随机游走步数k和子空间维数l的敏感性更低,表明其在实际应用中更具鲁棒性。
  • LEMON对真实网络中的高阶度节点更敏感,但可通过减少在这些节点上的初始概率质量来缓解。
  • LC与DEMON在合成数据上表现不佳,LC导致社区碎片化,DEMON则过度扩展,表明其结构与真实社区存在错位。
  • 该方法能一致地识别出第一个导出率较低的社区,且与真实社区高度相似,表明其在层次化社区发现方面具有潜力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。