QUICK REVIEW

[论文解读] A Gap in the Community-Size Distribution of a Large-Scale Social Networking Site

Kikuo Yuta, Naoaki Ono|ArXiv.org|Jan 15, 2007

Complex Network Analysis Techniques参考文献 5被引用 40

一句话总结

本文揭示了一项大规模社交网络平台（SNS）中社区规模分布的先前未被注意到的空缺，即在特定规模范围内社区数量稀少。作者提出一种双过程模型——最近邻连接与随机连接——来解释该空缺，同时解释了长尾度分布、高聚类性以及度相关性等特性，表明在线SNS中随机相识过程比线下网络更为活跃。

ABSTRACT

Social networking sites (SNS) have recently used by millions of people all over the world. An SNS is a society on the Internet, where people communicate and foster friendship with each other. We examine a nation-wide SNS (more than six million users at present), mutually acknowledged friendship network with third million people and nearly two million links. By employing a community-extracting method developed by Newman and others, we found that there exists a range of community-sizes in which only few communities are detected. This novel feature cannot be explained by previous growth models of networks. We present a simple model with two processes of acquaintance, connecting nearest neighbors and random linkage. We show that the model can explain the gap in the community-size distribution as well as other statistical properties including long-tail degree distribution, high transitivity, its correlation with degree, and degree-degree correlation. The model can estimate how the two processes, which are ubiquitous in many social networks, are working with relative frequencies in the SNS as well as other societies.

研究动机与目标

研究一个用户规模超过360,000、互惠好友关系接近200万条的全国性大规模社交网络平台的结构特性。
识别并表征社区规模分布中一种新型空缺，即在特定规模范围内社区数量稀少。
通过一个最小生成模型解释该空缺的成因，该模型捕捉了两种关键社交过程：与邻居连接和随机相识。
量化这些过程的相对频率，并评估其对网络结构（尤其是社区形成）的影响。
将模型预测结果与真实数据进行比较，包括度分布、聚类系数和度相关性。

提出的方法

应用Newman-Girvan社区检测算法（CNM）从SNS好友关系网络中提取社区。
提出一种双过程网络增长模型：(1) 最近邻连接（朋友的朋友），(2) 基于超越直接关系的社会属性的随机连接。
使用参数r控制模型中随机连接相对于最近邻连接的相对频率。
模拟不同r值和网络规模N的网络，使其规模（N ≈ 360,802）和边数（M ≈ 200万）与真实数据匹配。
计算模块度Q以评估模型拟合程度，并将模型输出（度分布、聚类系数、社区规模）与真实数据进行比较。
使用参数u = 0.81将模拟网络缩放至与真实网络规模和边数一致。

实验结果

研究问题

RQ1为何在大规模SNS的社区规模分布中会出现空缺，即在特定规模范围内社区数量稀少？
RQ2一个简单的网络模型能否同时解释观察到的空缺以及诸如无标度度分布和高聚类性等已知网络特性？
RQ3最近邻连接与随机连接在在线社交网络的社区结构形成中分别起到何种作用？
RQ4随机连接的相对频率（由参数r控制）如何影响空缺的出现？
RQ5随着网络规模增大，空缺是否变得更加显著？这一行为是否与真实数据一致？

主要发现

该SNS的社区规模分布中存在显著空缺，即在特定规模范围内社区数量稀少，这一特征在其他网络（如共同购买或学术合作网络）中并不存在。
当r = 0（无随机连接）时，模型中空缺消失，表明随机连接是空缺产生的必要条件。
该模型能够再现关键经验特性：长尾度分布、随度数增加而下降的聚类系数，以及正向的度-度相关性。
在模型中，随着网络规模增大，空缺也愈发显著，与真实数据在较大N下的观察结果一致。
最优参数r ≈ 0.04（即4%）最匹配真实网络的模块度Q，表明在该SNS中，随机连接以约4%的相对频率发生。
该模型表明，在线SNS中随机相识过程比线下社交网络更为活跃，可能由于平台设计促进了更广泛的连接。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。