[论文解读] Infinite Edge Partition Models for Overlapping Community Detection and Link Prediction
本文提出了一种分层伽马过程边划分模型(HGP-EPM),用于在无权无向网络中进行重叠社区检测与链接预测。通过使用伯努利-泊松链接仅对观测到的边进行划分,并采用非参数贝叶斯框架,该模型能够在大规模稀疏网络上实现可扩展推理,自动推断社区数量,并在四个真实网络中均实现了社区检测与链接预测的最先进性能。
A hierarchical gamma process infinite edge partition model is proposed to factorize the binary adjacency matrix of an unweighted undirected relational network under a Bernoulli-Poisson link. The model describes both homophily and stochastic equivalence, and is scalable to big sparse networks by focusing its computation on pairs of linked nodes. It can not only discover overlapping communities and inter-community interactions, but also predict missing edges. A simplified version omitting inter-community interactions is also provided and we reveal its interesting connections to existing models. The number of communities is automatically inferred in a nonparametric Bayesian manner, and efficient inference via Gibbs sampling is derived using novel data augmentation techniques. Experimental results on four real networks demonstrate the models' scalability and state-of-the-art performance.
研究动机与目标
- 解决现有社区检测模型假设社区互不重叠或需预先指定社区数量的局限性。
- 开发一种支持重叠社区的生成模型,并以非参数贝叶斯方式自动推断社区数量。
- 通过仅对观测边进行计算,实现大规模稀疏网络中的高效推理与链接预测。
- 在关系网络中同时建模同质性(同配结构)与随机等价性(异配结构)。
- 通过边划分而非所有节点对的划分,为MMSB等二次复杂度模型提供可扩展的替代方案。
提出的方法
- 提出一种分层伽马过程(HGP)边划分模型(EPM),通过伯努利-泊松链接将每个观测边与潜在计数关联。
- 使用分层伽马过程对潜在的 $N \times N$ 计数矩阵进行分解,以支持无限多个社区及社区间交互速率。
- 采用数据增强技术,推导出所有潜在变量的闭式条件更新,实现高效的吉布斯采样。
- 引入一种简化的伽马过程EPM,省略社区间交互项以加快推理速度,代价是部分建模能力的损失。
- 采用非参数贝叶斯先验(分层伽马过程),使社区数量可随数据增长,避免手动调参。
- 通过建模边存在的伯努利试验与泊松分布的潜在计数,将模型应用于二值邻接矩阵。
实验结果
研究问题
- RQ1非参数贝叶斯基于模型能否在不预先指定社区数量的情况下,有效检测大规模稀疏网络中的重叠社区?
- RQ2生成模型如何同时捕捉关系网络中的同质性与随机等价性?
- RQ3仅聚焦于观测边的边划分方法,是否相比基于节点对或边对的模型,能实现更可扩展且准确的社区检测与链接预测?
- RQ4与SBM、MMSB、IRM和Eigenmodel等现有模型相比,所提模型在真实网络中的表现如何?
- RQ5省略社区间交互项的简化伽马过程EPM,在性能与可扩展性方面与完整HGP-EPM相比如何?
主要发现
- 在NIPS12合作者网络上,HGP-EPM实现了0.9762 ± 0.0081的AUC-ROC与0.4493 ± 0.0229的AUC-PR,优于IRM、AGM与GP-EPM。
- 在酿酒酵母蛋白互作网络上,HGP-EPM实现了0.9367 ± 0.0012的AUC-ROC与0.2628 ± 0.0184的AUC-PR,表明其在具有随机等价性的网络中表现强劲。
- HGP-EPM与GP-EPM模型具有高效可扩展性,分别仅需32分钟与12分钟即可在NIPS12网络(2037个节点,3134条边)上完成1000次MCMC迭代。
- 相比之下,IRM模型推断出的社区更少、更大,倾向于将低度数节点聚集到少数主导社区中,从而忽略了更精细的社区结构。
- HGP-EPM与GP-EPM显著快于Eigenmodel与ILA,后两者需$O(N^2)$计算,在NIPS234网络上运行超过18小时。
- 简化GP-EPM在同配网络(如NIPS12)中表现良好,AUC-PR达0.4705 ± 0.0362,表明当社区间交互不那么关键时,其具备强大的链接预测能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。