Skip to main content
QUICK REVIEW

[论文解读] Detecting Overlapping Communities in Networks Using Spectral Methods

Yuan Zhang, Elizaveta Levina|arXiv (Cornell University)|Dec 10, 2014
Complex Network Analysis Techniques参考文献 45被引用 45
一句话总结

本文提出一种谱方法,通过将随机块模型扩展以允许多重社区成员身份,实现对网络中重叠社区的检测。该方法在谱空间中使用K-中位数聚类而非K-均值聚类,在适度稀疏性和重叠条件下实现了渐近一致性,并在模拟网络和真实网络中表现出强劲的实证性能。

ABSTRACT

Community detection is a fundamental problem in network analysis which is made more challenging by overlaps between communities which often occur in practice. Here we propose a general, flexible, and interpretable generative model for overlapping communities, which can be thought of as a generalization of the degree-corrected stochastic block model. We develop an efficient spectral algorithm for estimating the community memberships, which deals with the overlaps by employing the K-medians algorithm rather than the usual K-means for clustering in the spectral domain. We show that the algorithm is asymptotically consistent when networks are not too sparse and the overlaps between communities not too large. Numerical experiments on both simulated networks and many real social networks demonstrate that our method performs very well compared to a number of benchmark methods for overlapping community detection.

研究动机与目标

  • 解决网络中节点可属于多个社区的重叠社区检测挑战。
  • 开发一种灵活且可解释的生成模型,以推广现有的重叠社区模型。
  • 设计一种可扩展的谱算法,通过在谱空间中使用K-中位数聚类,高效估计重叠成员身份。
  • 在温和的网络稀疏性和有界重叠条件下,建立该方法的理论一致性。
  • 在合成网络和真实世界网络数据集上,与基准方法相比展示出优越性能。

提出的方法

  • 通过允许成员矩阵中每个节点具有多个非零条目,提出一种重叠社区的生成模型,从而推广随机块模型。
  • 对邻接矩阵应用谱聚类,利用图拉普拉斯矩阵或邻接矩阵的特征向量将节点投影到低维空间。
  • 在谱空间中,用K-中位数聚类替代标准的K-均值聚类,以更好地处理重叠社区结构。
  • 使用K-中位数算法,基于节点在谱嵌入中与聚类中心的距离,将每个节点分配到多个社区。
  • 通过在正则性条件下有界估计成员矩阵与真实成员矩阵之间差值的Frobenius范数,建立理论一致性。
  • 利用矩阵扰动理论和特征值集中性界,控制谱空间中的估计误差。

实验结果

研究问题

  • RQ1在稀疏网络中,使用K-中位数聚类的谱方法能否一致地检测重叠社区?
  • RQ2与现有基准算法相比,该方法在重叠社区检测中的准确性和鲁棒性如何?
  • RQ3随着网络规模增大,谱K-中位数方法在何种理论条件下仍保持一致性?
  • RQ4该方法在具有已知重叠社区结构的真实世界网络中的表现如何?
  • RQ5与K-均值相比,使用K-中位数在重叠社区检测中能在多大程度上提升性能?

主要发现

  • 当网络不过于稀疏且社区间重叠有界时,所提出的谱K-中位数算法在重叠社区检测中实现了渐近一致性。
  • 在模拟网络和真实世界社交网络中,该方法在调整兰德指数及其他聚类指标上的表现显著优于基准算法。
  • 理论分析表明,成员矩阵中的估计误差以 $ O((nar{ u}_n)^{-1/5}) $ 的速率衰减,其中 $ n $ 为节点数,$ ar{ u}_n $ 为平均度数。
  • 在谱空间中使用K-中位数聚类相比K-均值能更准确地恢复社区结构,尤其是在存在重叠成员身份时。
  • 即使在网络节点度数异质且社区间存在中等重叠时,该方法仍保持鲁棒性。
  • 实证结果证实,该算法具有良好的可扩展性,并在真实数据集(如社交网络和合作图)上生成了可解释的重叠社区结构。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。