Skip to main content
QUICK REVIEW

[论文解读] A New Metric for Quality of Network Community Structure

Mingming Chen, Tommy Nguyen|arXiv (Cornell University)|Jul 15, 2015
Complex Network Analysis Techniques参考文献 37被引用 58
一句话总结

本文提出模块度密度(Modularity Density),一种改进传统模块度的新型度量方法,解决了其两大主要缺陷:偏好小社区以及分辨率极限问题。通过减去社区间边的占比(分裂惩罚)并引入社区密度,模块度密度提供了更一致且准确的社区质量度量,经真实动态网络实验验证,其在与其它成熟度量对齐方面优于模块度。

ABSTRACT

Modularity is widely used to effectively measure the strength of the community structure found by community detection algorithms. However, modularity maximization suffers from two opposite yet coexisting problems: in some cases, it tends to favor small communities over large ones while in others, large communities over small ones. The latter tendency is known in the literature as the resolution limit problem. To address them, we propose to modify modularity by subtracting from it the fraction of edges connecting nodes of different communities and by including community density into modularity. We refer to the modified metric as Modularity Density and we demonstrate that it indeed resolves both problems mentioned above. We describe the motivation for introducing this metric by using intuitively clear and simple examples. We also prove that this new metric solves the resolution limit problem. Finally, we discuss the results of applying this metric, modularity, and several other popular community quality metrics to two real dynamic networks. The results imply that Modularity Density is consistent with all the community quality measurements but not modularity, which suggests that Modularity Density is an improved measurement of the community quality compared to modularity.

研究动机与目标

  • 解决模块度中存在的两个共存问题:偏好小社区与分辨率极限问题。
  • 开发一种与多种成熟度量一致的社区质量度量,避免模块度的不一致性。
  • 提供一种理论基础扎实且经实证验证的模块度替代方案,用于评估社区结构质量。
  • 通过提供一种更少受结构偏差影响的度量,提升社区检测的可靠性。
  • 为未来算法的开发奠定基础,使其以最大化模块度密度而非模块度为目标。

提出的方法

  • 通过从标准模块度中减去社区间边的占比(分裂惩罚),提出模块度密度作为改进度量。
  • 将社区密度引入模块度公式,以惩罚连接稀疏的社区。
  • 形式化证明模块度密度可解决分辨率极限问题,即避免不恰当地合并或分裂社区。
  • 将该度量与模块度及六种其他标准度量(如导电性、展开度、内部边数)一同应用于两个真实动态网络:参议院网络与现实挖掘蓝牙扫描网络。
  • 采用参数化社区检测方法(LabelRankT,q值可调)以评估不同社区结构下度量的一致性。
  • 比较各度量所识别出的最优q值,以检测基于模块度的检测中存在的一致性问题与偏差。

实验结果

研究问题

  • RQ1模块度最大化是否能在不同网络快照中一致地识别出最佳社区结构?
  • RQ2能否通过改进度量同时解决小社区偏好与分辨率极限问题?
  • RQ3在真实动态网络中,模块度密度与其他社区质量度量的一致性如何?
  • RQ4模块度在识别最优社区划分时,与其它度量的不一致程度有多大?
  • RQ5模块度密度能否作为评估和引导社区检测算法的可靠替代方案?

主要发现

  • 模块度密度在参议院与现实挖掘蓝牙扫描数据集中均一致地识别出最优社区结构,而模块度则未能做到。
  • 在参议院数据集中,模块度(Q)与内部边数(Intra-edges)分别选择q=0.5与q=0.7为最优,而其余六项度量均选择q=0.6,表明模块度评估存在不一致。
  • 在现实挖掘蓝牙扫描数据集中,模块度与外部边数(Inter-edges)度量所选最优q值与其他六项度量不同,揭示了其评估结果缺乏一致性。
  • 结果表明,模块度密度与其余六项度量保持一致,表明其是社区质量更可靠且一致的度量。
  • 该度量成功解决了分辨率极限问题,形式化证明其可避免不恰当地合并或分裂社区。
  • 图5至图7显示,Q常为负值,而Q_s与Q_ds始终为正值,证实模块度密度相比标准模块度提供了更稳定且有意义的评估。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。