QUICK REVIEW

[論文レビュー] Dynamic PageRank: Algorithms and Lower Bounds

Jayaram, Rajesh, Łącki, Jakub|arXiv (Cornell University)|Apr 17, 2013

Web Data Mining and Analysis参考文献 12被引用数 26

ひとこと要約

この論文は、グラフ内のすべてのソースから1つのターゲットノードへのパーソナライズドPageRankを計算するための新規で効率的なアルゴリズムを提示する。優先度キューを用いてターゲットから逆方向に更新を伝搬する。高影響力ノードに限定して処理することで、理論的境界と実験的検証を併用し、中程度の誤差許容範囲において、パワー反復法と比較して最大1,700倍の高速化を達成。

ABSTRACT

Personalalized PageRank uses random walks to determine the importance or authority of nodes in a graph from the point of view of a given source node. Much past work has considered how to compute personalized PageRank from a given source node to other nodes. In this work we consider the problem of computing personalized PageRanks to a given target node from all source nodes. This problem can be interpreted as finding who supports the target or who is interested in the target. We present an efficient algorithm for computing personalized PageRank to a given target up to any given accuracy. We give a simple analysis of our algorithm's running time in both the average case and the parameterized worst-case. We show that for any graph with $n$ nodes and $m$ edges, if the target node is randomly chosen and the teleport probability $α$ is given, the algorithm will compute a result with $ε$ error in time $O\left(\frac{1}{αε} \left(\frac{m}{n} + \log(n) ight) ight)$. This is much faster than the previously proposed method of computing personalized PageRank separately from every source node, and it is comparable to the cost of computing personalized PageRank from a single source. We present results from experiments on the Twitter graph which show that the constant factors in our running time analysis are small and our algorithm is efficient in practice.

研究の動機と目的

すべてのソースノードから1つのターゲットノードへのパーソナライズドPageRankを効率的に計算する問題に対処すること。
特にターゲットに対して高い関連性を持つ少数のソースのみを対象とすることを想定し、すべてのソースノードからPageRankを計算するO(n)のコストを回避するアルゴリズムを設計すること。
グラフ構造と所望の精度に依存する理論的実行時間境界を提供すること。誤差許容範囲が小さくなるに従い、滑らかに性能が低下するようにすること。
大規模なソーシャルネットワークグラフ（Twitter）上で、アルゴリズムの効率性と正確性を実験的に検証すること。

提案手法

アルゴリズムはターゲットノードvから開始し、優先度キューを用いてインバウンドエッジに沿って逆方向に更新されたPageRank推定値を伝搬する。
各ステップで、未伝搬の推定値変化が最大のノードが選択され、最も重要な寄与が最初に処理されるようにする。
収縮写像性質と優先度キューを用いて加法的誤差ϵを維持する。更新は式 π(u,v) = α + (1−α)∑_{w→u} π(w,v)/|out(w)| で制御される。
理論的分析により2つの境界が得られる：ランダムなターゲットの場合（O(1/αϵ ⋅ (m/n + log n))) と任意のターゲットの場合（O(Dv(αϵ)/α ⋅ log(1/ϵα)))。ここで Dv(αϵ) は問題の難易度を捉える。
アルゴリズムは、Twitterグラフの530万ノード、3億8000万エッジのサブセット上で実装・テストされ、実世界の性能を評価した。

実験結果

リサーチクエスチョン

RQ1すべてのソースノードから1つのターゲットノードへのパーソナライズドPageRankを、すべてのソースから計算するよりも効率的に計算できるか？
RQ2優先度キューを用いた逆方向伝搬戦略は、標準的なモンテカルロ法やパワー反復法よりも優れた実行時間性能を示すか？
RQ3所望の精度ϵに対して実行時間はどのようにスケーリングするか？ϵ → 0 に近づくに従い、性能が滑らかに低下するか？
RQ4理論的パrameter Dv(αϵ) は、実際の実行時間の予測に優れた指標となるか？

主な発見

ランダムに選ばれたターゲットノードに対して、アルゴリズムは O(1/αϵ ⋅ (m/n + log n)) 時間で実行され、これは1つのソースからのパーソナライズドPageRank計算のコストと同等である。
任意のターゲットノードに対して、アルゴリズムは O(Dv(αϵ)/α ⋅ log(1/ϵα)) 時間で実行され、Dv(αϵ) = ∑_{u:π(u,v)>αϵ} (|IN(u)| + log n) である。誤差依存性が O(log(1/ϵ)) であるため、O(1/ϵ²) よりも優れている。
Twitterグラフにおいて、α=0.1、ϵ=10⁻⁵ の場合、アルゴリズムの平均実行時間は1.2秒であったのに対し、パワー反復法は410秒を要し、340倍の高速化が達成された。
ϵ=10⁻⁴ の場合、アルゴリズムはパワー反復法の1,700倍高速であり、同じ誤差境界に到達するにはパワー反復法が87反復を要した。
実験的誤差は理論的境界（ϵ）の平均で85%程度であり、誤差解析がきつすぎず、過剰に慎重であることが示された。
実際のステップ数と Dv(αϵ) の比は平均で4未満であり、理論的上限値200よりもはるかに低く、Dv(αϵ) が実際のパフォーマンスの優れた予測子であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。