Skip to main content
QUICK REVIEW

[論文レビュー] On the bias of BFS

Maciej Kurant, Athina Markopoulou|arXiv (Cornell University)|Apr 10, 2010
Complex Network Analysis Techniques参考文献 30被引用数 32
ひとこと要約

この論文は、与えられた次数分布 $p_k$ を持つランダムグラフにおける幅優先探索(BFS)サンプリングの次数バイアスの度合いを定量的に評価し、BFSが高次ノードを系統的に過剰に代表していることを示している。BFS、DFS、フォレストファイア、スノーボールサンプリングが、このようなグラフにおいて同一のバイアスを引き起こすことを示し、Facebookネットワークを用いた実証的検証を通じて補正手法を提供し、偏りのないグラフサンプリングの実用的指針を提示している。

ABSTRACT

Breadth First Search (BFS) and other graph traversal techniques are widely used for measuring large unknown graphs, such as online social networks. It has been empirically observed that an incomplete BFS is biased toward high degree nodes. In contrast to more studied sampling techniques, such as random walks, the precise bias of BFS has not been characterized to date. In this paper, we quantify the degree bias of BFS sampling. In particular, we calculate the node degree distribution expected to be observed by BFS as a function of the fraction of covered nodes, in a random graph $RG(p_k)$ with a given degree distribution $p_k$. Furthermore, we also show that, for $RG(p_k)$, all commonly used graph traversal techniques (BFS, DFS, Forest Fire, and Snowball Sampling) lead to the same bias, and we show how to correct for this bias. To give a broader perspective, we compare this class of exploration techniques to random walks that are well-studied and easier to analyze. Next, we study by simulation the effect of graph properties not captured directly by our model. We find that the bias gets amplified in graphs with strong positive assortativity. Finally, we demonstrate the above results by sampling the Facebook social network, and we provide some practical guidelines for graph sampling in practice.

研究の動機と目的

  • 社会的ネットワークのような未知の大規模グラフにおいて、不完全なBFSが引き起こす次数バイアスを形式的に特徴づけること。
  • DFS、フォレストファイア、スノーボールサンプリングを含む、他の一般的なグラフ走査手法とのバイアス行動を比較すること。
  • 与えられた次数分布 $p_k$ を持つランダムグラフにおける観察されたサンプリングバイアスを補正する手法を開発すること。
  • 正の相関的接続性(positive assortativity)などのグラフ特性が、BFSバイアスの増幅に与える影響を評価すること。
  • 実世界のFacebookソーシャルネットワークを用いた実証的検証を通じて、実用的なサンプリングガイドラインを提供すること。

提案手法

  • ランダムグラフ $RG(p_k)$ において、カバーされたノードの割合を関数としてBFSが観測する期待次数分布の解析的導出。
  • 次数分布 $p_k$ と走査されたノードの割合を用いた走査バイアスの数学的モデリング。
  • BFS、DFS、フォレストファイア、スノーボールサンプリングが、$RG(p_k)$ グラフにおいて同一のバイアスを生じることの証明。これは、共通する構造的性質に起因する。
  • 観察された次数分布のバイアスを補正するための補正式の導出。
  • 正の相関的接続性などのグラフ特性がバイアス増幅に与える影響を評価するためのシミュレーション実験。
  • 理論的予測の妥当性を確認するため、実世界のFacebookソーシャルネットワークデータを用いた実証的検証。

実験結果

リサーチクエスチョン

  • RQ1ランダムグラフにおいて、次数分布 $p_k$ を持つグラフで、BFSの次数バイアスは、カバーされたノードの割合にどのように依存するか?
  • RQ2DFS、フォレストファイア、スノーボールサンプリングといった他の一般的なグラフ走査手法も、$RG(p_k)$ グラフにおいてBFSと同一の次数バイアスを生じるか?
  • RQ3理論モデルを用いてBFSサンプリングのバイアスを補正できるか?また、その補正手法の有効性はいかがなものか?
  • RQ4正の相関的接続性などのグラフ特性は、BFSサンプリングバイアスの大きさにどのように影響するか?
  • RQ5理論的分析から、実世界のグラフ測定に応用可能な実用的なサンプリング戦略はどのようなものか?

主な発見

  • BFSサンプリングは高次ノードへの系統的なバイアスを示しており、サンプルノードの次数分布は真の分布と著しくずれている。
  • BFS、DFS、フォレストファイア、スノーボールサンプリングの4つの走査手法は、$RG(p_k)$ グラフにおいて同一のバイアスを生じる。これは、バイアスの背後にある共通の構造的要因を示している。
  • 観察された次数分布のバイアスを補正するための解析的補正式が導出可能であり、カバーされたノードの割合に基づいて補正が可能である。
  • グラフに正の相関的接続性があると、BFSサンプリングの次数バイアスが増幅され、高次ノードの過剰代表がさらに顕著になる。
  • Facebookネットワークにおける実証的結果が理論的予測を裏付け、モデルの実世界での正確性が確認された。
  • 本研究は、研究者が代表的なグラフ測定を達成するためにサンプリング戦略を選択し、バイアス補正を適用するための実用的ガイドラインを提供している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。