Skip to main content
QUICK REVIEW

[论文解读] Dynamic PageRank: Algorithms and Lower Bounds

Jayaram, Rajesh, Łącki, Jakub|arXiv (Cornell University)|Apr 17, 2013
Web Data Mining and Analysis参考文献 12被引用 26
一句话总结

本文提出了一种新颖且高效的算法,用于从图中所有源节点计算指向单个目标节点的个性化PageRank,通过优先队列从目标节点反向传播更新。该算法通过仅关注高影响力节点,实现了接近最优的性能——与单源PageRank计算相当,理论分析与在Twitter图上的实证验证表明,对于中等误差容忍度,其速度相比幂迭代方法最高可提升1,700倍。

ABSTRACT

Personalalized PageRank uses random walks to determine the importance or authority of nodes in a graph from the point of view of a given source node. Much past work has considered how to compute personalized PageRank from a given source node to other nodes. In this work we consider the problem of computing personalized PageRanks to a given target node from all source nodes. This problem can be interpreted as finding who supports the target or who is interested in the target. We present an efficient algorithm for computing personalized PageRank to a given target up to any given accuracy. We give a simple analysis of our algorithm's running time in both the average case and the parameterized worst-case. We show that for any graph with $n$ nodes and $m$ edges, if the target node is randomly chosen and the teleport probability $α$ is given, the algorithm will compute a result with $ε$ error in time $O\left(\frac{1}{αε} \left(\frac{m}{n} + \log(n) ight) ight)$. This is much faster than the previously proposed method of computing personalized PageRank separately from every source node, and it is comparable to the cost of computing personalized PageRank from a single source. We present results from experiments on the Twitter graph which show that the constant factors in our running time analysis are small and our algorithm is efficient in practice.

研究动机与目标

  • 为解决从所有源节点高效计算指向单个目标节点的个性化PageRank问题,而非从单个源节点计算到所有目标节点的问题。
  • 设计一种避免从每个源节点计算PageRank的O(n)开销的算法,尤其当仅有少数源节点与目标节点高度相关时。
  • 提供依赖于图结构和所需精度的理论运行时间界限,并在误差容忍度降低时实现平滑退化。
  • 在大规模社交网络图(Twitter)上对算法的效率和准确性进行实证验证。

提出的方法

  • 该算法从目标节点v开始,通过优先队列沿传入边反向传播更新后的PageRank估计值。
  • 在每一步中,选择尚未传播的估计值变化最大的节点进行更新,确保首先处理最重要的贡献。
  • 该方法利用压缩映射性质和优先队列,以保持加法误差ϵ,更新由公式 π(u,v) = α + (1−α)∑_{w→u} π(w,v)/|out(w)| 控制。
  • 理论分析提供了两个界限:一个针对随机目标(O(1/αϵ ⋅ (m/n + log n)))),另一个针对任意目标(O(Dv(αϵ)/α ⋅ log(1/ϵα)))),其中Dv(αϵ)捕捉了问题的难度。
  • 该算法在Twitter图的一个530万节点、3.8亿条边的子集上实现并测试,以评估其在真实场景下的性能。

实验结果

研究问题

  • RQ1是否可以比从每个源节点计算PageRank更高效地计算指向单个目标节点的个性化PageRank?
  • RQ2使用优先队列的反向传播策略是否比标准蒙特卡洛或幂迭代方法具有更优的运行时间?
  • RQ3运行时间如何随所需精度ϵ变化?当ϵ → 0时,其退化是否平滑?
  • RQ4理论参数Dv(αϵ)在实践中是否能良好预测实际运行时间?

主要发现

  • 对于随机选择的目标节点,该算法运行时间为O(1/αϵ ⋅ (m/n + log n)),与从单个源节点计算个性化PageRank的代价相当。
  • 对于任意目标节点,该算法运行时间为O(Dv(αϵ)/α ⋅ log(1/ϵα)),其中Dv(αϵ) = ∑_{u:π(u,v)>αϵ} (|IN(u)| + log n),显示出优于O(1/ϵ²)的ϵ依赖关系,为O(log(1/ϵ))。
  • 在Twitter图上,当α=0.1且ϵ=10⁻⁵时,该算法平均仅需1.2秒,而幂迭代需410秒,实现340倍加速。
  • 当ϵ=10⁻⁴时,该算法比幂迭代快1,700倍,后者需87次迭代才能达到相同的误差界限。
  • 实证误差通常为理论界限(ϵ)的85%,表明误差分析紧密且不过于保守。
  • 实际步数与Dv(αϵ)的比值平均小于4,远低于理论上的200上限,表明Dv(αϵ)在实践中是性能的极佳预测指标。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。