Skip to main content
QUICK REVIEW

[论文解读] Discriminative Modeling of Social Influence for Prediction and Explanation in Event Cascades.

Sandeep Soni, Shawn Ling Ramirez|arXiv (Cornell University)|Feb 16, 2018
Opinion Dynamics and Social Influence参考文献 30被引用 1
一句话总结

本文提出一种判别式排序方法,用于从观测数据中检测事件级联中的社会影响,通过与不包含影响特征的基线模型对比其样本外准确率。该方法在合成数据和真实世界数据(美国国会共赞助关系与希格斯玻色子谣言)中成功识别出影响,提升预测准确率,同时对混杂因素和缺失数据保持鲁棒性。

ABSTRACT

The global dynamics of event cascades are often governed by the local dynamics of peer influence. However, detecting social influence from observational data is challenging, due to confounds like homophily and practical issues like missing data. In this work, we propose a novel discriminative method to detect influence from observational data. The core of the approach is to train a ranking algorithm to predict the source of the next event in a cascade, and compare its out-of-sample accuracy against a competitive baseline which lacks access to features corresponding to social influence. Using synthetically generated data, we provide empirical evidence that this method correctly identifies influence in the presence of confounds, and is robust to both missing data and misspecification --- unlike popular alternatives. We also apply the method to two real-world datasets: (1) cascades of co-sponsorship of legislation in the U.S. House of Representatives, on a social network of shared campaign donors; (2) rumors about the Higgs boson discovery, on a follower network of $10^5$ Twitter accounts. Our model identifies the role of peer influence in these scenarios, and uses it to make more accurate predictions about the future trajectory of cascades.

研究动机与目标

  • 解决从观测数据中检测事件级联内社会影响的挑战,其中同质性等混杂因素及缺失数据会掩盖真实影响。
  • 开发一种方法,以区分真实同龄人影响与现实社会动态中的虚假相关性。
  • 通过识别和利用网络数据中的社会影响,提升级联轨迹的预测准确率。
  • 为复杂社会过程中的影响机制提供可解释的说明。

提出的方法

  • 训练一个排序算法,基于网络特征预测级联中下一个事件的来源。
  • 将模型的样本外准确率与排除影响相关特征的基线模型进行对比。
  • 使用合成数据验证该方法在存在混杂因素和数据稀疏性条件下的影响检测能力。
  • 将该方法应用于真实世界数据集:美国国会共赞助网络与Twitter谣言级联。
  • 利用共享捐赠人和关注者关系所推导的网络结构,定义影响特征。
  • 采用判别式训练,以级联推进的预测性能为目标,而非生成似然性。

实验结果

研究问题

  • RQ1当存在同质性等混杂因素时,判别式方法能否可靠检测事件级联中的社会影响?
  • RQ2与现有方法相比,该方法在缺失数据和模型误设条件下的表现如何?
  • RQ3在多大程度上,整合检测到的影响能提升未来级联事件的预测准确率?
  • RQ4同龄人影响在现实级联(如立法共赞助与病毒式谣言)中扮演何种角色?

主要发现

  • 该方法在合成数据中即使受到同质性和缺失数据的干扰,也能正确识别社会影响。
  • 该方法对数据稀疏性和模型误设具有鲁棒性,在这些设定下优于主流替代方法。
  • 在美国国会共赞助网络中,模型基于捐赠人共享关系识别出关键影响性议员,提升了级联预测性能。
  • 在Twitter上的希格斯玻色子谣言级联中,该方法检测到推动信息传播的关键转发者,增强了轨迹预测能力。
  • 判别式方法的样本外准确率高于缺乏影响特征的基线模型,证实了检测到的影响具有预测价值。
  • 该方法提供了对影响机制的可解释洞察,使人们能够超越单纯预测,理解级联动态的成因。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。