[论文解读] The Anatomy of the Facebook Social Graph
本研究迄今对社交网络进行了最大规模的分析,使用了2011年5月来自7.21亿名活跃Facebook用户的匿名数据。研究发现,Facebook社交图谱几乎完全连通(99.91%属于单一巨大连通分量),具有小世界结构,平均路径长度为4.7,尽管整体稀疏,但局部邻里关系紧密,同时识别出由国籍和年龄同质性驱动的显著社区结构。
We study the structure of the social graph of active Facebook users, the largest social network ever analyzed. We compute numerous features of the graph including the number of users and friendships, the degree distribution, path lengths, clustering, and mixing patterns. Our results center around three main observations. First, we characterize the global structure of the graph, determining that the social network is nearly fully connected, with 99.91% of individuals belonging to a single large connected component, and we confirm the "six degrees of separation" phenomenon on a global scale. Second, by studying the average local clustering coefficient and degeneracy of graph neighborhoods, we show that while the Facebook graph as a whole is clearly sparse, the graph neighborhoods of users contain surprisingly dense structure. Third, we characterize the assortativity patterns present in the graph by studying the basic demographic and network properties of users. We observe clear degree assortativity and characterize the extent to which "your friends have more friends than you". Furthermore, we observe a strong effect of age on friendship preferences as well as a globally modular community structure driven by nationality, but we do not find any strong gender homophily. We compare our results with those from smaller social networks and find mostly, but not entirely, agreement on common structural network characteristics.
研究动机与目标
- 对全球最大的社交网络Facebook的全局结构特性进行大规模表征。
- 研究Facebook社交图谱中连通性、路径长度、聚类和社区结构的程度。
- 考察人口统计学混合模式,包括按年龄、性别和国家的同质性,及其对网络结构的影响。
- 将研究结果与较小规模社交网络进行比较,评估已知网络特性在超大规模下的普适性。
提出的方法
- 使用2011年5月的匿名数据,分析了全部活跃用户(n ≈ 7.21亿)的Facebook社交图谱。
- 采用Newman-Zipf(NZ)算法,通过单台机器上的流式边处理计算连通分量结构。
- 在24核机器上使用HyperANF算法,通过10次运行估算平均最短路径长度。
- 采用水库采样方法,选取50万名用户(每100个对数间隔的邻域大小对应5,000名用户)进行局部网络分析。
- 计算采样用户邻域中聚类系数和退化性的经验百分位数。
- 利用2,250台机器的Hadoop/Hive集群进行大规模数据处理和网络特征提取。
实验结果
研究问题
- RQ1Facebook社交图谱在多大程度上是全局连通的?用户之间的平均路径长度是多少?
- RQ2用户的局部网络邻域在密度和聚类方面与全局图谱结构相比如何?
- RQ3年龄、性别和国籍等人口统计因素在多大程度上影响友谊模式和网络混合?
- RQ4Facebook网络的社区结构在国家和区域层面上如何体现?
- RQ5在真实世界的社交网络中,度数同质性与“朋友悖论”等网络特性在超大规模下是否依然成立?
主要发现
- Facebook社交图谱几乎完全连通,99.91%的活跃用户属于单一巨大连通分量。
- 巨大连通分量中用户之间的平均最短路径长度为4.7,证实了全球范围内的“六度分隔”现象。
- 尽管整体稀疏,用户的局部邻域仍表现出高度聚类和退化性,表明个体周围存在紧密的结构核心。
- 存在显著的度数同质性,用户的朋友通常比他们自己拥有更多好友,证实了在大规模下“朋友悖论”的存在。
- 年龄同质性表现明显,用户明显偏好与自己年龄相近的人交友,而国籍是社区结构的主要驱动因素。
- 地理距离强烈影响跨国友谊,国家层面的社区结构主要由距离以及历史和文化联系塑造。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。