Skip to main content
QUICK REVIEW

[论文解读] Co-clustering for directed graphs: the Stochastic co-Blockmodel and spectral algorithm Di-Sim

Karl Rohe, Tai Qin|arXiv (Cornell University)|Apr 10, 2012
Complex Network Analysis Techniques参考文献 61被引用 29
一句话总结

该论文提出Di-Sim,一种用于有向图的谱共聚类算法,通过分别建模节点的发送和接收模式来识别非对称角色。它引入了度校正的随机共块模型,并通过正则化和投影技术,在稀疏且度异质的条件下证明了弱一致性,从而能够在真实网络(如Enron、政治博客和C. elegans)中检测到持续存在的发送-接收非对称性。

ABSTRACT

Directed graphs have asymmetric connections, yet the current graph clustering methodologies cannot identify the potentially global structure of these asymmetries. We give a spectral algorithm called di-sim that builds on a dual measure of similarity that correspond to how a node (i) sends and (ii) receives edges. Using di-sim, we analyze the global asymmetries in the networks of Enron emails, political blogs, and the c elegans neural connectome. In each example, a small subset of nodes have persistent asymmetries; these nodes send edges with one cluster, but receive edges with another cluster. Previous approaches would have assigned these asymmetric nodes to only one cluster, failing to identify their sending/receiving asymmetries. Regularization and "projection" are two steps of di-sim that are essential for spectral clustering algorithms to work in practice. The theoretical results show that these steps make the algorithm weakly consistent under the degree corrected Stochastic co-Blockmodel, a model that generalizes the Stochastic Blockmodel to allow for both (i) degree heterogeneity and (ii) the global asymmetries that we intend to detect. The theoretical results make no assumptions on the smallest degree nodes. Instead, the theorem requires that the average degree grows sufficiently fast and that the weak consistency only applies to the subset of the nodes with sufficiently large leverage scores. The results results also apply to bipartite graphs.

研究动机与目标

  • 解决现有聚类方法在捕捉有向网络中全局非对称性方面的局限性。
  • 开发一种计算上可行的谱算法,以处理稀疏且异质的有向图。
  • 通过共聚类将随机块模型扩展至有向网络,区分随机等价的发送者与接收者。
  • 在不依赖最小节点度的前提下,为聚类一致性提供理论保证。
  • 展示该方法在真实世界有向网络(如Enron邮件和C. elegans神经连接组)中揭示持续非对称性的能力。

提出的方法

  • Di-Sim基于节点发送和接收模式的双重相似性度量,构建有向图的共聚类框架。
  • 通过参数τ的正则化,稳定稀疏且非对称邻接矩阵上的奇异值分解。
  • 将左右奇异向量投影到单位球面上,以在度异质条件下改善估计性能。
  • 利用归一化邻接矩阵的主导奇异向量识别发送者与接收者的共聚类。
  • 该方法基于度校正的随机共块模型,可同时处理度异质性和有向非对称性。
  • 理论分析利用杠杆度量控制算法难度,并在不需最小度增长的条件下建立了弱一致性。

实验结果

研究问题

  • RQ1谱共聚类算法能否在有向网络中检测到持久非对称性,即节点向一个聚类发送但从另一个聚类接收?
  • RQ2正则化与投影如何提升谱聚类在稀疏且异质的有向图中的性能?
  • RQ3在度校正的随机共块模型下,Di-Sim算法的弱一致性需满足哪些理论条件?
  • RQ4该算法在具有已知结构非对称性的现实世界有向网络(如Enron邮件和C. elegans神经网络)中的表现如何?
  • RQ5在稀疏有向图中,杠杆度而非最小度在多大程度上决定了奇异向量的收敛性?

主要发现

  • Di-Sim成功识别出Enron邮件网络中Bill Williams节点存在持久非对称性,其向一个聚类发送信息,但从另一个聚类接收信息。
  • 在政治博客网络中,Di-Sim检测到六个表现出非对称链接行为的博客,证实了已知的政治极化模式。
  • 在C. elegans神经连接组中,Di-Sim揭示了由具有不同发送与接收角色的神经元构成的前馈回路。
  • 理论分析表明,Di-Sim在度校正的随机共块模型下实现了弱一致性,且无需最小度增长。
  • 由于正则化和投影稳定了奇异向量估计过程,该算法对度异质性具有鲁棒性。
  • 结果可推广至二分图,表明该方法在有向网络之外也具有更广泛的应用潜力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。