Skip to main content
QUICK REVIEW

[论文解读] Optimizing Generalized PageRank Methods for Seed-Expansion Community Detection

Li Pan, Eli Chien|arXiv (Cornell University)|May 26, 2019
Complex Network Analysis Techniques参考文献 56被引用 24
一句话总结

本文提出逆PageRank(IPR),一种新型广义PageRank方法,通过优化着陆概率(LP)权重以增强种子扩展社区检测。通过推导在边独立随机图上LP的非渐近收敛界,作者表明LP的判别能力衰减速度比以往认为的更慢,从而导致IPR对早期行走步骤赋予更高权重——在合成网络和真实网络上均优于PPR和HPR。

ABSTRACT

Landing probabilities (LP) of random walks (RW) over graphs encode rich information regarding graph topology. Generalized PageRanks (GPR), which represent weighted sums of LPs of RWs, utilize the discriminative power of LP features to enable many graph-based learning studies. Previous work in the area has mostly focused on evaluating suitable weights for GPRs, and only a few studies so far have attempted to derive the optimal weights of GRPs for a given application. We take a fundamental step forward in this direction by using random graph models to better our understanding of the behavior of GPRs. In this context, we provide a rigorous non-asymptotic analysis for the convergence of LPs and GPRs to their mean-field values on edge-independent random graphs. Although our theoretical results apply to many problem settings, we focus on the task of seed-expansion community detection over stochastic block models. There, we find that the predictive power of LPs decreases significantly slower than previously reported based on asymptotic findings. Given this result, we propose a new GPR, termed Inverse PR (IPR), with LP weights that increase for the initial few steps of the walks. Extensive experiments on both synthetic and real, large-scale networks illustrate the superiority of IPR compared to other GPRs for seeded community detection.

研究动机与目标

  • 为解决种子扩展社区检测中缺乏理论基础且最优的广义PageRank权重的问题。
  • 分析随机图中着陆概率(LPs)的非渐近行为,特别是其收敛至平均场值的过程。
  • 识别出LPs的判别能力比以往假设的持续更久,挑战了渐近分析的结论。
  • 基于此洞察,设计一种新型广义PageRank方法IPR,其对早期行走步骤赋予递增权重。
  • 通过实证验证IPR在多种网络类型中对PPR和HPR的优越性。

提出的方法

  • 推导边独立随机图上LP的非渐近浓度界,表明方差衰减速度快于社区内与跨社区LP均值之间的分离度。
  • 使用改进的随机块模型(SBM)刻画平均场LP行为,并量化不同行走长度下的判别能力。
  • 提出逆PageRank(IPR),其权重为γₖ = θᵏ / (θᵏ + φ)²,其中φ经调优使峰值出现在k=10,从而实现对早期步骤的递增加权。
  • 采用线性分类器框架,其中GPR得分由k步LP的加权和导出,权重针对社区检测进行优化。
  • 仅在有益时才应用度数归一化;否则使用原始LP,如实验所示,这在高阶网络(如Amazon和DBLP)中可提升性能。
  • 通过在合成网络和真实世界网络(如Amazon、DBLP)中使用多个k步的召回率指标,对比IPR、PPR和HPR,验证性能。

实验结果

研究问题

  • RQ1在边独立随机图上,着陆概率(LPs)在非渐近区域的行为如何?
  • RQ2k步LP的预测能力是否随k单调衰减,还是在更长的行走长度下仍能保持?
  • RQ3一种对早期步骤赋予递增权重的广义PageRank能否在种子扩展社区检测中优于标准GPR方法如PPR和HPR?
  • RQ4非渐近方差与平均场收敛速率如何影响GPR权重序列的最优性?
  • RQ5所提出的IPR方法能否在包括高阶和真实世界网络在内的多种网络类型中实现泛化?

主要发现

  • 非渐近分析表明,LP的方差衰减速度快于社区内与跨社区LP均值之间的分离度,意味着判别能力在更长的行走步数下仍能持续。
  • k步LP的预测能力衰减速度比以往基于渐近分析的假设更慢,尤其在早期至中期行走范围内。
  • IPR通过在早期步骤(峰值出现在k=10)赋予递增权重,在合成网络和真实网络(如Amazon和DBLP)中均实现了高于PPR和HPR的召回率。
  • 在Amazon网络中,IPR在k=20时达到48.53%的召回率,优于HPR(48.55%)和PPR(48.43%),且标准差极小。
  • 在DBLP网络中,IPR在k=20时达到29.32%的召回率,超过HPR(28.85%)和PPR(29.06%),证实其在密集高阶网络中的一致优越性。
  • 在高阶网络(如Amazon和DBLP)中,度数归一化会降低LP的预测能力,因此此类情况下更推荐使用原始LP。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。