[论文解读] Information Diffusion and External Influence in Networks
本文提出一种概率模型,用于在Twitter上的信息传播中分离内部网络扩散与外部影响(如媒体)的影响。通过分析一个月的Twitter数据,发现71%的URL提及源于网络扩散,而29%源自外部来源,揭示了显著的未观测到的外部影响,导致信息传播出现‘跳跃’现象。
Social networks play a fundamental role in the diffusion of information. However, there are two different ways of how information reaches a person in a network. Information reaches us through connections in our social networks, as well as through the influence of external out-of-network sources, like the mainstream media. While most present models of information adoption in networks assume information only passes from a node to node via the edges of the underlying network, the recent availability of massive online social media data allows us to study this process in more detail. We present a model in which information can reach a node via the links of the social network or through the influence of external sources. We then develop an efficient model parameter fitting technique and apply the model to the emergence of URL mentions in the Twitter network. Using a complete one month trace of Twitter we study how information reaches the nodes of the network. We quantify the external influences over time and describe how these influences affect the information adoption. We discover that the information tends to "jump" across the network, which can only be explained as an effect of an unobservable external influence on the network. We find that only about 71% of the information volume in Twitter can be attributed to network diffusion, and the remaining 29% is due to external events and factors outside the network.
研究动机与目标
- 理解信息如何通过Twitter内部网络扩散和外部非网络来源(如媒体)共同作用而出现。
- 解决标准扩散模型中内部与外部影响难以区分的混淆效应。
- 开发一种模型,以分离并量化内部网络扩散与外部影响对信息采纳的贡献。
- 利用真实世界的Twitter数据推断暴露响应曲线的形状以及外部来源的时间活动特征。
提出的方法
- 提出一种生成模型,其中节点的感染(URL提及)由邻居带来的内部影响和未观测到的外部源带来的外部影响共同决定。
- 使用依赖于随时间累积的内部暴露量和外部活动的危险函数来建模感染概率。
- 引入一个暴露曲线η(x),用于捕捉感染概率随内部来源暴露次数变化的规律。
- 采用最大似然估计法,并结合高效的推理算法,联合估计外部活动λ_ext(t)、暴露曲线η(x)以及内部扩散参数。
- 将该模型应用于包含30亿条推文的完整一个月数据追踪,以推断数千个URL的外部影响动态。
- 采用非参数方法来估计暴露曲线的形状以及外部影响随时间变化的强度。
实验结果
研究问题
- RQ1来自大众媒体的外部影响在多大程度上促进了Twitter上URL的出现,超出了网络扩散的影响?
- RQ2如何区分因社交网络影响而采纳的信息与因外部媒体曝光而采纳的信息?
- RQ3外部影响的时间模式是怎样的?它如何随时间与内部网络扩散相互作用?
- RQ4随着来自网络邻居的重复曝光,采纳URL的概率如何变化?
- RQ5Twitter上信息传播的多大比例可归因于外部来源,多大比例可归因于内部网络扩散?
主要发现
- 在Twitter上,仅有71%的URL提及可归因于内部网络扩散,而29%源于媒体曝光等外部影响。
- 暴露曲线η(x)的峰值ρ₁ ≈ 0.0005,表明用户具有高度选择性,仅需少量暴露即可能采纳URL。
- 暴露曲线的峰值ρ₂最常出现在1处,表明用户通常在经历一次或两次内部暴露后即采纳URL。
- 早期感染主要由外部驱动,但随着扩散进程推进,内部影响逐渐占主导地位,暴露曲线中观察到内部驱动感染的显著增长。
- 存在一个密集的低暴露水平感染簇,几乎完全由内部扩散导致,表明这是早期阶段的网络传播特征。
- 该模型成功捕捉了信息出现的动力学特征,揭示了网络中的‘跳跃’现象(即无直接前驱感染的感染事件)最可能由未观测到的外部影响解释。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。