Skip to main content
QUICK REVIEW

[論文レビュー] Efficient Algorithms for Personalized PageRank

Peter Lofgren|arXiv (Cornell University)|Dec 15, 2015
Complex Network Analysis Techniques参考文献 47被引用数 23
ひとこと要約

本稿では、線形代数とモンテカルロ法を組み合わせた新規の双方向アルゴリズムを提案し、現在の最先端手法と比較して最大70倍高速にパーソナライズドページランク(PPR)スコアを推定する。ソースノードとターゲットノードからの前方および逆方向のランダムウォークを活用することで、1ターゲットあたりの期待実行時間は $O(\sqrt{m})$ に抑えられ、大規模ネットワークにおけるパーソナライズド検索およびレコメンデーションシステムの効率性が著しく向上する。

ABSTRACT

We present new, more efficient algorithms for estimating random walk scores such as Personalized PageRank from a given source node to one or several target nodes. These scores are useful for personalized search and recommendations on networks including social networks, user-item networks, and the web. Past work has proposed using Monte Carlo or using linear algebra to estimate scores from a single source to every target, making them inefficient for a single pair. Our contribution is a new bidirectional algorithm which combines linear algebra and Monte Carlo to achieve significant speed improvements. On a diverse set of six graphs, our algorithm is 70x faster than past state-of-the-art algorithms. We also present theoretical analysis: while past algorithms require $Ω(n)$ time to estimate a random walk score of typical size $\frac{1}{n}$ on an $n$-node graph to a given constant accuracy, our algorithm requires only $O(\sqrt{m})$ expected time for an average target, where $m$ is the number of edges, and is provably accurate. In addition to our core bidirectional estimator for personalized PageRank, we present an alternative algorithm for undirected graphs, a generalization to arbitrary walk lengths and Markov Chains, an algorithm for personalized search ranking, and an algorithm for sampling random paths from a given source to a given set of targets. We expect our bidirectional methods can be extended in other ways and will be useful subroutines in other graph analysis problems.

研究の動機と目的

  • 大規模ネットワークにおける単一ソース・単一ターゲットクエリの既存PPR推定手法の非効率性を解消すること。
  • ソーシャルネットワークやユーザ・アイテムネットワークなどのグラフ上でPPR計算を高速化することで、パーソナライズド検索およびレコメンデーションシステムのパフォーマンスを向上させること。
  • 実行時間の下限を $\Omega(n)$ から $O(\sqrt{m})$ に低下させる、理論的に正確かつスケーラブルなアルゴリズムを構築すること。
  • リアルタイムでのPPR推定を可能にし、複数語キーワード検索やパスサンプリングなどの複雑なクエリをグラフワークロードでサポートすること。

提案手法

  • ソースからの前方ウォークとターゲットからの逆方向ウォークを同時に実行することでPPRスコアを推定する双方向PPR推定器を提案する。
  • 精度と効率のバランスを図るために、線形代数(残差ベクトルの維持)とモンテカルロサンプリングを組み合わせたハイブリッドアプローチを採用する。
  • 無向グラフにおいて、ランダムウォークの可逆性を活用することで性能を向上させる対称性に基づく最適化を導入する。
  • 特定のターゲット集合に到達する条件付きでランダムウォークを生成できるパスサンプリングアルゴリズムを設計する。これはレコメンデーションや探索タスクに有用である。
  • 複数のターゲット間で残差を共有する共通のデータ構造を用いることで、ストレージを削減する事前計算スキームを実装する。
  • 減少する $\delta$ 値を用いたパrameterized推定により、相対誤差の保証を維持しながら効率性を確保する。

実験結果

リサーチクエスチョン

  • RQ1ソースおよびターゲットノードからの双方向ランダムウォークは、単方向またはグローバル手法と比較して、単一のPPRスコア推定に要する時間を著しく短縮できるか?
  • RQ2提案された双方向推定器の理論的時間計算量は何か?また、グラフサイズや構造に依存する点において、先行研究と比較してどのように異なるか?
  • RQ3このアルゴリズムは、到達時間や有効抵抗といった任意のランダムウォークスコアの推定に一般化可能か?
  • RQ4エッジの挿入を伴う動的グラフにおいて、事前に計算された残差を効率的に維持・更新する方法は何か?
  • RQ5ストレージや計算負荷の増加を抑えながら、パーソナライズド検索において複数語や複雑なクエリをサポートできるか?

主な発見

  • 提案された双方向PPRアルゴリズムは、6種類の多様な実世界グラフにおいて、先行する最先端手法と比較して最大70倍の高速化を達成した。
  • アルゴリズムの実行時間は、エッジ数 $m$ を用いて1ターゲットあたり $O(\sqrt{m})$ の期待時間で実現され、従来手法の $\Omega(n)$ の下限を著しく上回る。
  • 理論的に正確であり、標準的な仮定の下でPPR推定における相対誤差の保証が理論的に示されている。
  • 無向グラフでは、対称性に基づく変種(UndirectedBiPPR)が、ランダムウォークの可逆性を活用することで性能がさらに向上する。
  • 事前計算スキームにより、複数のターゲット間で残差を統合することでストレージを削減でき、Twitter-2010グラフにおいて実験的にフォローアップが減少したことが確認された。
  • パスサンプリングアルゴリズムにより、指定されたターゲット集合に到達する条件付きで効率的なランダムウォークの生成が可能となり、高度なレコメンデーションおよび探索ワークロードをサポートできるようになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。