Skip to main content
QUICK REVIEW

[論文レビュー] A Walk in Facebook: Uniform Sampling of Users in Online Social Networks

Minas Gjoka, Maciej Kurant|arXiv (Cornell University)|May 30, 2009
Complex Network Analysis Techniques参考文献 70被引用数 86
ひとこと要約

本稿では、グラフクローリングを用いたオンラインソーシャルネットワーク(OSN)におけるユーザーの均一サンプリングの実用的フレームワークを提案する。メトロポリス・ハスティングス・ランダムウォーク(MHRW)と再重み付けランダムウォーク(RWRW)を比較し、RWRWがMHRWに比べ1.5~7倍少ない一意なサンプル数でより高い推定精度を達成することを示している。これは大規模OSNのサンプリングにおいて帯域幅効率が優れていることを意味し、本手法はFacebookユーザーの最初の公開可能で代表的なサンプルの収集に応用された。

ABSTRACT

Our goal in this paper is to develop a practical framework for obtaining a uniform sample of users in an online social network (OSN) by crawling its social graph. Such a sample allows to estimate any user property and some topological properties as well. To this end, first, we consider and compare several candidate crawling techniques. Two approaches that can produce approximately uniform samples are the Metropolis-Hasting random walk (MHRW) and a re-weighted random walk (RWRW). Both have pros and cons, which we demonstrate through a comparison to each other as well as to the "ground truth." In contrast, using Breadth-First-Search (BFS) or an unadjusted Random Walk (RW) leads to substantially biased results. Second, and in addition to offline performance assessment, we introduce online formal convergence diagnostics to assess sample quality during the data collection process. We show how these diagnostics can be used to effectively determine when a random walk sample is of adequate size and quality. Third, as a case study, we apply the above methods to Facebook and we collect the first, to the best of our knowledge, representative sample of Facebook users. We make it publicly available and employ it to characterize several key properties of Facebook.

研究の動機と目的

  • オンラインソーシャルネットワーク(OSN)におけるユーザーの均一または再重み付け可能なサンプルを、ソーシャルグラフクローリングによって得るための実用的フレームワークを開発すること。
  • MHRW、RWRW、RW、BFSといった複数のクローリング手法のサンプリングバイアスおよび効率性の観点での性能を比較すること。
  • データ収集中にサンプル品質をリアルタイムで評価するためのオンライン収束診断を導入すること。
  • フレームワークをFacebookに適用し、そのユーザーの最初の公開可能で代表的なサンプルを生成すること。
  • 収集したサンプルを用いてFacebookの重要な構造的およびユーザーレベルの特性を同定すること。

提案手法

  • サンプリングフレームに依存しないように、ソーシャルグラフ上でランダムウォークベースのクローリングを用いてユーザーをサンプリングする。
  • ノード次数に基づく遷移確率の調整によりバイアスを補正するため、メトロポリス・ハスティングス・ランダムウォーク(MHRW)を採用する。
  • 均一性を近似するためにサンプルを再重み付する、変更されたランダムウォークである再重み付けランダムウォーク(RWRW)を適用する。
  • クローリング中にリアルタイムでサンプル品質を監視できるオンライン収束診断を導入する。
  • 実世界のトポロジ(例:AS、メール、WWW、P2P、Slashdot)を用いたシミュレーションにより、グラフパラメータの推定精度を評価する。
  • 合成および実データセットを用いて真値と照合し、各手法間での推定誤差を比較することで結果を妥当性検証する。

実験結果

リサーチクエスチョン

  • RQ1サンプリングフレームが存在しない状況下でも、ランダムウォークベースのクローリングによってOSNにおけるユーザーの近似的に均一なサンプルを生成できるか?
  • RQ2実世界のOSNトポロジにおいて、MHRWとRWRWは推定精度およびサンプリング効率の観点でどのように比較できるか?
  • RQ3オンライン収束診断は、ランダムウォークサンプルが十分な品質とサイズに達したタイミングを効果的に特定できるか?
  • RQ4同等の推定精度を達成するために、RWRWはMHRWに比べて必要な一意なサンプル数を著しく減らせるか?
  • RQ5代表的なサンプルを用いて、Facebookの構造的およびユーザーレベルの特性はどのように特定できるか?

主な発見

  • 実世界のトポロジにおいて、RWRWはMHRWに比べ1.5~7倍少ない一意なサンプル数で同じ推定誤差を達成でき、帯域幅の大幅な節約が可能であることが示された。
  • MHRWは、高次数ノードを避ける傾向があるため、多くの実世界トポロジでRWRWに劣り、重要な混合機会を逃す。
  • 幅優先探索(BFS)および調整なしランダムウォーク(RW)は顕著なバイアスを生じるため、均一サンプリングには不適切である。
  • 図21に示される反例は、連結されていないコミュニティが長いパスで接続された病理的ケースではMHRWがRWを上回ることを示しているが、このようなケースは実際にはまれである。
  • 本研究では、Facebookユーザーの最初の公開可能で代表的なサンプルを収集・公開することに成功し、そのユーザーおよびネットワーク特性の大規模な特徴化を可能にした。
  • オンライン収束診断が、クローリング中の最適な停止時刻を特定するのに有効であることが実証され、リアルタイムでのサンプル品質評価が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。