Skip to main content
QUICK REVIEW

[论文解读] Detecting highly overlapping community structure by greedy clique expansion

Conrad Lee, Fergal Reid|arXiv (Cornell University)|Feb 9, 2010
Complex Network Analysis Techniques参考文献 32被引用 280
一句话总结

本文提出了一种新型局部聚类算法——贪心团扩展(Greedy Clique Expansion, GCE),通过贪心优化适应度函数来扩展种子团,从而检测复杂网络中的高度重叠社区结构。在每个节点属于四个社区的合成网络中,GCE 在所有其他重叠社区检测算法中表现最优,展现出在多样化拓扑结构下的鲁棒性能,并在真实世界中的蛋白质相互作用网络和 Facebook 朋友关系数据上取得了具有竞争力的结果。

ABSTRACT

In complex networks it is common for each node to belong to several communities, implying a highly overlapping community structure. Recent advances in benchmarking indicate that existing community assignment algorithms that are capable of detecting overlapping communities perform well only when the extent of community overlap is kept to modest levels. To overcome this limitation, we introduce a new community assignment algorithm called Greedy Clique Expansion (GCE). The algorithm identifies distinct cliques as seeds and expands these seeds by greedily optimizing a local fitness function. We perform extensive benchmarks on synthetic data to demonstrate that GCE's good performance is robust across diverse graph topologies. Significantly, GCE is the only algorithm to perform well on these synthetic graphs, in which every node belongs to multiple communities. Furthermore, when put to the task of identifying functional modules in protein interaction data, and college dorm assignments in Facebook friendship data, we find that GCE performs competitively.

研究动机与目标

  • 解决现有社区检测算法在复杂网络中难以处理高节点重叠水平的问题。
  • 开发一种新算法,使其在具有重叠社区、异质度分布和三角闭包特征的现实合成基准上表现优异。
  • 评估 GCE 在具有极端重叠的合成图以及具有已知真实社区结构的实证数据集上的性能。
  • 证明当每个节点属于多个社区时,GCE 是唯一能保持高准确率的算法。

提出的方法

  • GCE 将密集子图(团)识别为社区扩展的初始种子。
  • 采用贪心扩展策略,通过迭代优化局部适应度函数,将相邻节点逐步加入每个种子。
  • 适应度函数基于内部连通性与外部稀疏性来评估扩展质量。
  • 算法并行处理多个种子,并根据稳定性和相似性合并重叠社区。
  • 探索了一种改进版本的 GCE,通过类似树状图的结构实现分层社区检测。
  • 该方法因其局部贪心的特性而具备可扩展性,并易于实现并行化。

实验结果

研究问题

  • RQ1当每个节点属于四个或更多重叠社区时,社区检测算法是否仍能保持高准确率?
  • RQ2在具有现实拓扑特征的合成网络中,GCE 与现有重叠社区检测算法相比表现如何?
  • RQ3在具有已知真实社区结构的真实世界网络(如蛋白质-蛋白质相互作用网络和 Facebook 朋友关系图)上,GCE 是否表现具有竞争力?
  • RQ4通过改进的并行扩展策略,GCE 是否能够检测到分层社区结构?

主要发现

  • 在加州理工学院的 Facebook 朋友关系网络上,GCE 达到了 0.338 的最高标准化互信息(NMI)得分,显著优于其他算法。
  • 在高重叠的合成 LFR 网络中,当每个节点属于四个社区时,GCE 是唯一保持强性能的算法。
  • 在非重叠的 LFR 图上,GCE 取得了具有竞争力的结果,表明其在不同重叠水平下均具备鲁棒性。
  • 在蛋白质-蛋白质相互作用网络基准测试中,GCE 高度准确地恢复了已知的功能模块。
  • 其他算法(包括 COPRA 和 Blondel)在加州理工学院数据集上的 NMI 得分低于 0.30,而 Clique Percolation 和 abchampions 的得分接近零。
  • 该算法性能稳定且高效,在加州理工学院网络上运行时间不足一秒。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。