Skip to main content
QUICK REVIEW

[论文解读] Community Structure in Large Networks: Natural Cluster Sizes and the Absence of Large Well-Defined Clusters

Jure Leskovec, Kevin Lang|ArXiv.org|Oct 8, 2008
Complex Network Analysis Techniques参考文献 122被引用 36
一句话总结

本文引入网络社区轮廓图(NCP)以分析大规模网络中的社区结构,发现仅当社区规模在约100个节点以内时,最优社区(以导纳度衡量)才存在;超过此规模后,社区逐渐失去结构一致性,‘融入’类似扩展图的内核。研究发现,常用网络模型无法再现此行为,但‘森林火灾’生成模型可以。

ABSTRACT

A large body of work has been devoted to defining and identifying clusters or communities in social and information networks. We explore from a novel perspective several questions related to identifying meaningful communities in large social and information networks, and we come to several striking conclusions. We employ approximation algorithms for the graph partitioning problem to characterize as a function of size the statistical and structural properties of partitions of graphs that could plausibly be interpreted as communities. In particular, we define the network community profile plot, which characterizes the "best" possible community--according to the conductance measure--over a wide range of size scales. We study over 100 large real-world social and information networks. Our results suggest a significantly more refined picture of community structure in large networks than has been appreciated previously. In particular, we observe tight communities that are barely connected to the rest of the network at very small size scales; and communities of larger size scales gradually "blend into" the expander-like core of the network and thus become less "community-like." This behavior is not explained, even at a qualitative level, by any of the commonly-used network generation models. Moreover, it is exactly the opposite of what one would expect based on intuition from expander graphs, low-dimensional or manifold-like graphs, and from small social networks that have served as testbeds of community detection algorithms. We have found that a generative graph model, in which new edges are added via an iterative "forest fire" burning process, is able to produce graphs exhibiting a network community profile plot similar to what we observe in our network datasets.

研究动机与目标

  • 理解大规模真实网络中定义良好社区的自然尺寸限制。
  • 探究为何传统网络生成模型无法再现大规模网络中观察到的社区结构。
  • 开发一种可扩展的方法,用于在大规模图中跨多个尺寸尺度评估社区质量。
  • 探索大规模网络的结构特性,这些特性挑战了小规模网络和扩展图理论的假设。
  • 评估现有社区检测算法和近似方法在大规模网络中是否能可靠识别高质量社区。

提出的方法

  • 提出网络社区轮廓图(NCP)作为可视化工具,用于展示在不同社区规模下可达到的最佳导纳度得分。
  • 使用图划分问题的近似算法,计算每个规模下的最低导纳度切割。
  • 应用导纳度度量评估社区质量,导纳度越低表示社区定义越清晰。
  • 分析超过100个大规模真实网络,包括社交网络、网页图和科技网络,节点数从数千到数千万不等。
  • 采用一种生成式‘森林火灾’模型,通过递归的燃烧过程添加边,以模拟社区结构并再现观察到的NCP图形状。
  • 比较真实网络、随机图模型和合成网络生成模型之间的NCP图行为,以识别结构差异。

实验结果

研究问题

  • RQ1大规模真实网络中定义良好社区的自然尺寸限制是什么?
  • RQ2在大规模网络中,最佳社区质量(以导纳度衡量)如何随社区规模变化?
  • RQ3为何标准网络生成模型(如 preferential attachment 或复制模型)无法再现大规模网络中观察到的社区结构?
  • RQ4大规模网络的核心在多大程度上表现出嵌套的核心-外围结构?这如何影响社区检测?
  • RQ5一个简单的生成模型能否再现真实网络中观察到的NCP图向上倾斜的行为?

主要发现

  • 最佳社区质量(以导纳度衡量)在社区规模约为100个节点时达到峰值,此后逐渐下降。
  • 超过约100个节点的社区逐渐‘融入’网络的类似扩展图的内核,失去其独特的结构身份。
  • 在规模超过约100个节点后,NCP图呈现上升趋势,表明社区规模与最佳社区质量之间存在近似反比关系。
  • 观察到的社区结构与扩展图、低维流形以及小世界模型的预期相矛盾。
  • '森林火灾'生成模型成功再现了观察到的NCP图形状,表明其为大规模网络中社区形成提供了一个合理的机制。
  • 大规模网络的核心表现出嵌套的核心-外围结构,较小的社区(‘细须’)依附于一个密集且相互交织的核心。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。