[论文解读] Modeling Information Propagation with Survival Theory
本文提出了一种基于生存理论的框架,用于在未观测到的网络上建模信息传播,采用加法和乘法风险模型。通过将感染时间视为协变量,该方法可借助凸优化实现高效的网络推断,其中乘法模型独特地允许风险增加和风险减少的影响——在真实世界的信息传播事件中表现出强劲的预测性能。
Networks provide a skeleton for the spread of contagions, like, information, ideas, behaviors and diseases. Many times networks over which contagions diffuse are unobserved and need to be inferred. Here we apply survival theory to develop general additive and multiplicative risk models under which the network inference problems can be solved efficiently by exploiting their convexity. Our additive risk model generalizes several existing network inference models. We show all these models are particular cases of our more general model. Our multiplicative model allows for modeling scenarios in which a node can either increase or decrease the risk of activation of another node, in contrast with previous approaches, which consider only positive risk increments. We evaluate the performance of our network inference algorithms on large synthetic and real cascade datasets, and show that our models are able to predict the length and duration of cascades in real data.
研究动机与目标
- 开发一个通用的理论框架,用于基于生存分析在未观测网络上建模信息传播。
- 解决先前模型仅假设正向影响的局限性,引入一种乘法风险模型,可同时捕捉风险增加和风险减少的影响。
- 通过利用加法和乘法风险模型的结构,借助凸优化实现高效的网络推断。
- 在大规模真实数据上验证模型,特别是预测传播事件的规模和持续时间。
- 在单一生存理论框架下,统一推广现有网络推断模型。
提出的方法
- 将感染过程建模为非递减计数过程,其中每个节点的危险率取决于先前感染节点的感染时间。
- 引入一种加法风险模型,其中危险率是其他节点感染事件经时间变换后的线性叠加。
- 开发一种乘法风险模型,其中危险率是基线风险与影响函数的乘积,可同时捕捉正向和负向影响。
- 使用最大似然估计结合凸优化,高效学习加法和乘法模型的参数。
- 应用时间整形函数(例如,倒数线性函数)以建模影响随时间的衰减或增强。
- 利用训练模型生成的合成传播事件,评估在真实数据上的预测性能。
实验结果
研究问题
- RQ1能否通过统一的生存理论框架,推广现有的信息传播网络推断模型?
- RQ2乘法危险率模型是否能捕捉信息传播中正向和负向影响,而不仅限于先前仅支持加法模型的正向影响?
- RQ3所提出的模型在预测真实世界信息传播事件的规模和持续时间方面表现如何?
- RQ4在预测准确性方面,这些模型在多大程度上优于或推广了现有方法?
- RQ5尽管存在复杂的时序依赖关系,这些模型能否通过凸优化实现高效训练?
主要发现
- 乘法风险模型成功捕捉了先前感染可能增加或减少感染风险的场景,从而能够建模复杂的社会动态,例如引领者避开主流内容的现象。
- 采用倒数线性时间整形函数的加法模型略微低估传播规模,但在前10个感染节点范围内,其分布与经验分布高度吻合。
- 模型生成的合成传播事件在规模和持续时间分布上与真实测试数据非常相似,尤其在小规模传播事件中表现突出。
- 与加法模型相比,乘法模型在预测传播持续时间方面表现更优,尤其在匹配经验持续时间分布方面更为准确。
- 所提出的框架可将多种现有网络推断模型(包括Gomez-Rodriguez等人(2011, 2013)以及Du等人(2012)的模型)作为特例统一推广。
- 凸优化使参数拟合高效可行,使该方法可扩展至包含超过1000万条信息和330万个网站的大规模合成与真实世界数据集。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。