Skip to main content
QUICK REVIEW

[论文解读] Detecting Cohesive and 2-mode Communities in Directed and Undirected Networks

Jaewon Yang, Julian McAuley|arXiv (Cornell University)|Jan 29, 2014
Complex Network Analysis Techniques参考文献 37被引用 38
一句话总结

本文提出 CoDA,一种新颖的重叠社区检测方法,可在有向和无向网络中识别紧密连接(高度互联)的社区以及两两模式(双分图,节点通过共同的外部节点相连)社区。通过使用实数值的成员身份强度来建模节点的连接模式,CoDA 在性能上优于最先进方法,并揭示了在社交、生物和网络图等多种真实网络中,这两类社区共存的现象。

ABSTRACT

Networks are a general language for representing relational information among objects. An effective way to model, reason about, and summarize networks, is to discover sets of nodes with common connectivity patterns. Such sets are commonly referred to as network communities. Research on network community detection has predominantly focused on identifying communities of densely connected nodes in undirected networks. In this paper we develop a novel overlapping community detection method that scales to networks of millions of nodes and edges and advances research along two dimensions: the connectivity structure of communities, and the use of edge directedness for community detection. First, we extend traditional definitions of network communities by building on the observation that nodes can be densely interlinked in two different ways: In cohesive communities nodes link to each other, while in 2-mode communities nodes link in a bipartite fashion, where links predominate between the two partitions rather than inside them. Our method successfully detects both 2-mode as well as cohesive communities, that may also overlap or be hierarchically nested. Second, while most existing community detection methods treat directed edges as though they were undirected, our method accounts for edge directions and is able to identify novel and meaningful community structures in both directed and undirected networks, using data from social, biological, and ecological domains.

研究动机与目标

  • 解决传统社区检测方法仅关注紧密连接、高度互联社区的局限性。
  • 开发一种可同时检测紧密连接和两两模式社区的方法,其中节点通过不直接相连但共享共同外部节点的方式协调连接。
  • 在网络中考虑边的方向性,避免将有向边视为无向边时造成的信息损失。
  • 实现对大规模网络中重叠和分层嵌套社区结构的检测。
  • 提供一个统一框架,以捕捉社交、生物和技术网络中多样的社区类型。

提出的方法

  • CoDA 使用两种实数值的成员身份强度对社区进行建模:每个节点 $u$ 和社区 $c$ 的 $F_{uc}$(紧密连接成员身份)和 $H_{uc}$(两两模式成员身份)。
  • 将社区检测建模为一个优化问题,通过同时基于内部连接(紧密连接)和外部连接模式(两两模式)来最大化节点与社区的匹配度。
  • 该方法采用谱聚类方法,并结合贪心优化步骤,可扩展至包含数百万个节点和边的网络。
  • 通过允许每个节点以不同成员身份强度属于多个社区,支持重叠社区的检测。
  • 该算法通过区分入边和出边来处理有向网络,从而在社区结构检测中保留方向信息。
  • 将紧密连接和两两模式社区检测整合到一个统一框架中,实现两类社区的联合推断。

实验结果

研究问题

  • RQ1社区检测方法如何扩展以识别两两模式社区,即节点之间无直接连接但共享共同邻居?
  • RQ2在真实世界的有向和无向网络中,紧密连接和两两模式社区在多大程度上共存?
  • RQ3考虑边的方向性如何提升有意义社区结构的检测效果,相较于将边视为无向边?
  • RQ4单一方法能否有效检测大规模网络中的重叠和分层社区结构?
  • RQ5在不同网络类型(如社交、生物、网络)中,紧密连接社区与两两模式社区的相对普遍性如何?

主要发现

  • CoDA 在真实基准数据集上的表现优于最先进社区检测方法,显示出在识别已知社区方面更高的准确性。
  • 在 Twitter 和 Google+ 中,分别有 20% 和 30% 的检测社区表现出两两模式结构,表明许多社交社区并非紧密连接,而是通过共享外部链接协调。
  • 在 PPI 网络中,Y2H 数据集中 50% 的社区为两两模式,而 PPI-LC 网络(从文献中整理)几乎完全为紧密连接社区,表明实验偏差更倾向于发现紧密连接社区。
  • 网络图中紧密连接和两两模式社区的比例大致相等,支持两类社区在大规模网络中共存。
  • 食物网和引用网络几乎完全由两两模式社区构成,这是由于缺乏相互或内部链接,与它们的结构约束一致。
  • Facebook 的个人中心网络中超过 95% 的社区为紧密连接,而 Twitter 和 Google+ 的个人中心网络则表现出显著的两两模式结构,凸显了不同平台间网络动态的差异。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。