Skip to main content
QUICK REVIEW

[论文解读] A Walk in Facebook: Uniform Sampling of Users in Online Social Networks

Minas Gjoka, Maciej Kurant|arXiv (Cornell University)|May 30, 2009
Complex Network Analysis Techniques参考文献 70被引用 86
一句话总结

本文提出了一种使用图爬取实现在线社交网络(OSNs)用户均匀采样的实用框架,对比了Metropolis-Hastings随机游走(MHRW)与加权重平衡随机游走(RWRW)。结果表明,RWRW在实现相同估计精度的情况下,所需唯一采样数仅为MHRW的1.5–7倍,显著提升了大规模OSN采样中的带宽效率,并成功应用于收集首个公开可用的Facebook用户代表性样本。

ABSTRACT

Our goal in this paper is to develop a practical framework for obtaining a uniform sample of users in an online social network (OSN) by crawling its social graph. Such a sample allows to estimate any user property and some topological properties as well. To this end, first, we consider and compare several candidate crawling techniques. Two approaches that can produce approximately uniform samples are the Metropolis-Hasting random walk (MHRW) and a re-weighted random walk (RWRW). Both have pros and cons, which we demonstrate through a comparison to each other as well as to the "ground truth." In contrast, using Breadth-First-Search (BFS) or an unadjusted Random Walk (RW) leads to substantially biased results. Second, and in addition to offline performance assessment, we introduce online formal convergence diagnostics to assess sample quality during the data collection process. We show how these diagnostics can be used to effectively determine when a random walk sample is of adequate size and quality. Third, as a case study, we apply the above methods to Facebook and we collect the first, to the best of our knowledge, representative sample of Facebook users. We make it publicly available and employ it to characterize several key properties of Facebook.

研究动机与目标

  • 开发一种实用框架,通过社交图爬取实现在线社交网络(OSNs)用户均匀或可重加权采样的方法。
  • 从采样偏差和效率的角度,对比多种爬取技术(MHRW、RWRW、RW和BFS)的性能。
  • 提出在线收敛诊断方法,用于在数据收集过程中实时评估样本质量。
  • 将该框架应用于Facebook,生成其用户首个公开可用的代表性样本。
  • 利用所收集的样本,刻画Facebook的关键结构特性和用户层面属性。

提出的方法

  • 基于随机游走的图爬取方法采样用户,避免依赖采样框架。
  • 采用Metropolis-Hastings随机游走(MHRW)通过基于节点度数调整转移概率来纠正偏差。
  • 应用加权重平衡随机游走(RWRW),一种修改后的随机游走方法,通过重新加权样本以逼近均匀分布。
  • 引入在线收敛诊断方法,实现实时监控爬取过程中的样本质量。
  • 通过在真实拓扑结构(如AS、Email、WWW、P2P、Slashdot)上的仿真,评估图参数估计的准确性。
  • 利用合成数据集和真实数据集与真实值对比,比较各方法的估计误差。

实验结果

研究问题

  • RQ1基于随机游走的爬取能否在无采样框架的情况下,为OSNs中的用户生成近似均匀的样本?
  • RQ2在真实世界OSN拓扑结构中,MHRW与RWRW在估计精度和采样效率方面如何比较?
  • RQ3在线收敛诊断能否有效判断随机游走样本是否达到足够质量和规模?
  • RQ4RWRW是否在实现相同估计精度的前提下,所需唯一样本数少于MHRW?
  • RQ5通过代表性样本揭示的Facebook的结构特性和用户层面属性是什么?

主要发现

  • 在真实世界拓扑结构中,RWRW实现相同估计误差所需唯一样本数仅为MHRW的1.5至7倍,表明带宽节省显著。
  • 由于MHRW倾向于避开高阶节点,错失关键混合机会,因此在大多数真实世界拓扑中表现不如RWRW。
  • 广度优先搜索(BFS)和未经调整的随机游走(RW)产生显著偏差的样本,因此不适合用于均匀采样。
  • 图21中的反例表明,在由长路径连接的孤立社区构成的病态情况下,MHRW可能优于RW,但此类情况在实践中极为罕见。
  • 本研究成功收集并发布了首个公开可用的Facebook用户代表性样本,为大规模刻画其用户和网络属性提供了可能。
  • 在线收敛诊断被证明能有效确定爬取过程中的最优停止时间,实现实时提升样本质量评估。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。