[论文解读] The Directed Closure Process in Hybrid Social-Information Networks, with an Analysis of Link Formation on Twitter
本文提出了在混合型社交-信息网络中定向闭包过程的正式定义并进行了实证验证,表明Twitter用户更有可能通过共同联系人与两步之内的用户建立关注关系。通过时间网络分析及偏好附加带能力模型、社区模型等,研究发现用户关注对象的入度总和(而非其自身入度)是闭包行为的更强预测因子,揭示了链接形成中隐藏的结构异质性。
It has often been taken as a working assumption that directed links in information networks are frequently formed by "short-cutting" a two-step path between the source and the destination -- a kind of implicit "link copying" analogous to the process of triadic closure in social networks. Despite the role of this assumption in theoretical models such as preferential attachment, it has received very little direct empirical investigation. Here we develop a formalization and methodology for studying this type of directed closure process, and we provide evidence for its important role in the formation of links on Twitter. We then analyze a sequence of models designed to capture the structural phenomena related to directed closure that we observe in the Twitter data.
研究动机与目标
- 正式定义并实证研究信息网络中的定向闭包过程,即用户通过两步路径连接至目标对象的机制。
- 检验该闭包机制是否在现实世界中混合型网络(如Twitter)中大规模运作,此类网络兼具社交网络与信息网络的特性。
- 识别不同用户类型(尤其是高影响力用户‘微型名人’)在闭包行为中的结构异质性。
- 开发并评估能够捕捉观测到的闭包动态的网络生成模型,特别是整合社区结构与能力参数的模型。
- 挑战并改进标准偏好附加模型,识别出超越个体入度的更精细的链接形成预测因子。
提出的方法
- 将定向闭包过程定义为:仅当源节点通过中间节点已存在一条两步有向路径通往目标节点时,源节点才与目标节点建立链接。
- 采用时间随机化检验,将观测到的闭包率与零模型进行比较,以确立该过程的统计显著性。
- 偏好附加带能力模型为每个节点分配一个能力参数,边形成的概率与目标节点能力值和入度的乘积成正比。
- 偏好附加带社区模型在此基础上扩展:将节点分配至社区,对同社区成员的连接概率更高,并结合偏好附加与社区特定的连接规则。
- 通过模拟实验,设置参数如N=200,000个节点、每个节点D=10条出边、α=0.3(偏好附加权重)和β=0.8(社区偏向),评估闭包比率。
- 闭包比率定义为节点出边中完成两步路径的比例,分析其随入度及入边邻居入度总和的变化关系。
实验结果
研究问题
- RQ1在真实的Twitter关注网络中,用户通过两步路径连接目标对象的定向闭包过程在多大程度上发生?
- RQ2该闭包机制的强度在不同用户类型之间有何差异,特别是在高影响力用户中?
- RQ3标准偏好附加模型是否足以解释观测到的闭包模式,还是需要引入额外参数?
- RQ4用户关注对象的入度总和是否比用户自身入度更能预测闭包行为?
- RQ5是否可通过整合社区结构与能力参数的模型更好地再现观测到的闭包比率异质性?
主要发现
- 在Twitter关注网络中,定向闭包过程的发生率显著高于随机机会,随机化检验提供了强有力的统计支持。
- 用户的闭包比率与关注者入度总和的相关性显著高于其自身入度,尤其在高影响力用户中表现明显。
- 在偏好附加带能力模型中,节点的闭包比率更受其关注者入度总和的影响,而非其自身入度。
- 偏好附加带社区模型成功生成了具有非平凡闭包比率的节点,尤其在高影响力用户中,且能捕捉到观测到的闭包行为异质性。
- 节点的闭包比率与来自其自身社区的关注者入度总和的相关性,高于与所有关注者入度总和的相关性,表明社区结构起着关键作用。
- 模拟结果表明,随着入度增加,闭包比率趋于收敛,且最终闭包比率与入度无紧密关联,表明真实网络中存在复杂且非线性的关系。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。