Skip to main content
QUICK REVIEW

[論文レビュー] Estimating and Sampling Graphs with Multidimensional Random Walks

Bruno Ribeiro, Don Towsley|arXiv (Cornell University)|Feb 9, 2010
Complex Network Analysis Techniques参考文献 33被引用数 58
ひとこと要約

本稿では、大規模で非連結、または緩い接続性を持つグラフにおいて推定精度を向上させるために、一様にサンプリングされた頂点から出発するm個の依存するランダムウォークャーを用いる、新しいm次元ランダムウォーク手法であるフロントイヤー・サンプリングを提案する。ランダムウォークャーの連合定常分布を活用することで、標準的なランダムウォークやランダム頂点サンプリングと比較して、次数分布の尾部やグローバルネットワーク特性において低い推定誤差を達成する。

ABSTRACT

Estimating characteristics of large graphs via sampling is a vital part of the study of complex networks. Current sampling methods such as (independent) random vertex and random walks are useful but have drawbacks. Random vertex sampling may require too many resources (time, bandwidth, or money). Random walks, which normally require fewer resources per sample, can suffer from large estimation errors in the presence of disconnected or loosely connected graphs. In this work we propose a new $m$-dimensional random walk that uses $m$ dependent random walkers. We show that the proposed sampling method, which we call Frontier sampling, exhibits all of the nice sampling properties of a regular random walk. At the same time, our simulations over large real world graphs show that, in the presence of disconnected or loosely connected components, Frontier sampling exhibits lower estimation errors than regular random walks. We also show that Frontier sampling is more suitable than random vertex sampling to sample the tail of the degree distribution of the graph.

研究の動機と目的

  • 非連結または緩い接続性を持つグラフにおいて、標準的なランダムウォークが生じる高い推定誤差を是正すること。
  • 次数分布やクラスタリング係数などのグローバルネットワーク特性を推定するための、サンプリング効率と精度を向上させること。
  • スパarsなネットワークやレート制限のあるネットワークにおいて、ランダム頂点サンプリングと比較してリソースコストを低減すること。
  • 独立した複数のランダムウォークに代わるより頑健な代替手法を提供すること、特にサブグラフの探索が不十分になるのを防ぐこと。
  • ランダム頂点サンプリングが不十分に捉える次数分布の尾部を、正確に推定できること。

提案手法

  • フロントイヤー・サンプリングは、各次元が1人のランダムウォークャーの位置に対応するm次元状態空間内で、互いに依存するm個のランダムウォークャーを用いる。
  • 本手法は、元のグラフへの射影がサンプリングプロセスをもたらす、1つのm次元マルコフ連鎖を用いる。
  • 連合定常分布により、個々の頂点が次数に比例する確率で訪問され、標準的なランダムウォークが持つ重要な性質が保持される。
  • 詳細釣合の維持と正しい定常分布への収束を保証する遷移メカニズムに基づき、ランダムウォークャーを同期的に更新する。
  • サンプリングプロセスにより、次数分布、相関性、グローバルクラスタリング係数といったグラフ特性の不偏推定が可能となる。
  • 本手法は完全に分散型であり、ランダムウォークャー間の調整や通信を一切必要としないため、大規模ネットワークにおけるスケーラビリティと実用性に優れる。

実験結果

リサーチクエスチョン

  • RQ1非連結または緩い接続性を持つグラフにおいて、複数のランダムウォークャー戦略が推定誤差を低減できるか。
  • RQ2フロントイヤー・サンプリングは、単一のランダムウォークや独立した複数のランダムウォークと比較して、グローバルネットワーク特性を推定する上で優れているか。
  • RQ3フロントイヤー・サンプリングは、次数分布の尾部を推定する点でランダム頂点サンプリングよりも効果的か。
  • RQ4依存するランダムウォークャーの連合的挙動が、複雑なネットワークにおける混合性と探索性を向上させられるか。
  • RQ5m次元空間における連合定常分布の理論的および実験的性質は何か。

主な発見

  • シミュレーションにより、非連結または緩い接続性を持つグラフにおいて、フロントイヤー・サンプリングは標準的なランダムウォークよりも低い推定誤差を達成することが実証された。
  • 特に、単一のランダムウォークャーが閉じ込められがちなサブグラフの探索において、ランダム頂点から出発する独立した複数のランダムウォークャーと比較して、フロントイヤー・サンプリングが優れた性能を示した。
  • 解析的議論とシミュレーションの両面から、ランダム頂点サンプリングと比較して、フロントイヤー・サンプリングは次数分布の尾部をより正確に推定できることが裏付けられた。
  • m人のランダムウォークャーの連合定常分布により、頂点が次数に比例する確率でサンプリングされ、通常のランダムウォークが持つ統計的性質が保持される。
  • 本手法は完全に分散型であり、調整や通信のオーバーヘッドが一切ないため、大規模ネットワーク解析にスケーラブルかつ適した設計である。
  • シミュレーションの結果、フロントイヤー・サンプリングは、ソーシャルネットワークにおけるインデグリーディストリビューションやグループメンバーシップの割合を推定する点で、より頑健であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。