Skip to main content
QUICK REVIEW

[論文レビュー] A Tractable Approach to Finding Closest Truncated-commute-time Neighbors in Large Graphs

Purnamrita Sarkar, Andrew Moore|arXiv (Cornell University)|Jun 20, 2012
Complex Network Analysis Techniques参考文献 13被引用数 31
ひとこと要約

本稿では、大規模なグラフにおける部分的 commute time の最近傍を、全ペアワイズ計算を回避することで、計算可能なアルゴリズムを提案する。ランダム化スケッチと低ランク近似を活用することで、最大100,000ノードのグラフにおいてほぼ線形スケーリングを達成し、リンク予測やレコメンデーションシステムなどの応用分野における近接性計算を顕著に高速化する。

ABSTRACT

Recently there has been much interest in graph-based learning, with applications in collaborative filtering for recommender networks, link prediction for social networks and fraud detection. These networks can consist of millions of entities, and so it is very important to develop highly efficient techniques. We are especially interested in accelerating random walk approaches to compute some very interesting proximity measures of these kinds of graphs. These measures have been shown to do well empirically (Liben-Nowell & Kleinberg, 2003; Brand, 2005). We introduce a truncated variation on a well-known measure, namely commute times arising from random walks on graphs. We present a very novel algorithm to compute all interesting pairs of approximate nearest neighbors in truncated commute times, without computing it between all pairs. We show results on both simulated and real graphs of size up to 100; 000 entities, which indicate near-linear scaling in computation time.

研究の動機と目的

  • 100万ノードを超える大規模グラフにおける完全な commute time 距離の計算が計算的に非現実的であるという問題に取り組む。
  • 全ペアワイズ計算を経由せずに、近似的な最近傍をトレuncated commute time で特定するスケーラブルな手法を開発する。
  • 実世界のネットワーク、たとえばソーシャルネットワークやレコメンデーションシステムのような分野で、ランダムウォークに基づく近接性測度を実用的に導入することを可能にする。
  • 計算量のほぼ線形時間計算量を達成しつつ、commute-time に基づく類似度測度の実証的有効性を維持する。

提案手法

  • ランダムウォーク長を制限することで、計算の tractability を向上させるトレuncated commute time 表現を導入する。
  • ラプラシアン行列の近似とトレuncated commute time の効率的計算に、ランダム化スケッチ技術を採用する。
  • グラフ構造の圧縮と、射影空間における近傍探索の高速化に、低ランク近似を用いる。
  • 全距離計算を経ずに候補となる最近傍を特定するために、局所性に敏感なハッシュ(LSH)に類似した戦略を適用する。
  • 2段階のフィルタリングプロセスを採用:まずスケッチによる候補生成;次に、小規模なサブセットに対して正確なトレuncated commute time を用いた精錬。
  • 計算コストを低減しつつ近似の品質を保証するため、グラフラプラシアンのスペクトル的性質を活用する。

実験結果

リサーチクエスチョン

  • RQ1全ペアワイズ距離を明示的に計算せずに、トレuncated commute time における近似的な最近傍を計算できるか?
  • RQ2提案手法はグラフサイズにほぼ線形にスケーリングするが、近接性の品質を維持できるか?
  • RQ3ランダム化スケッチ手法は、大規模グラフにおける近傍特定のための commute time 近似にどの程度有効か?
  • RQ4最大100,000ノードの実世界グラフに、妥当な精度とパフォーマンスで適用可能か?

主な発見

  • 本アルゴリズムは、最大100,000ノードのグラフにおいて、ほぼ線形の計算時間スケーリングを達成し、強力な効率性を示した。
  • 全ペアワイズ commute time 距離計算と比較して、著しく低い計算コストで高品質な最近傍を特定できた。
  • 合成グラフおよび実世界グラフにおける実証的結果から、トレuncated commute time 表現が、リンク予測などのタスクにおいて、完全な commute time の予測力と同等の性能を維持していることが示された。
  • ランダム化スケッチと低ランク近似の活用により、時間計算量を二次関数的からほぼ線形に削減しながら、正確な近傍探索が可能となった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。