[论文解读] Predicting Influential Users in Online Social Networks
本文提出,影响模型必须与所要预测的动态过程保持一致,证明了在具有非保守信息流的社交新闻平台 Digg 上,非保守模型(如归一化 α-中心性)在预测影响力用户方面优于保守模型。实证验证显示,归一化 α-中心性实现了 0.76 的召回率,显著优于 PageRank(0.29)和入度中心性(0.60)。
Who are the influential people in an online social network? The answer to this question depends not only on the structure of the network, but also on details of the dynamic processes occurring on it. We classify these processes as conservative and non-conservative. A random walk on a network is an example of a conservative dynamic process, while information spread is non-conservative. The influence models used to rank network nodes can be similarly classified, depending on the dynamic process they implicitly emulate. We claim that in order to correctly rank network nodes, the influence model has to match the details of the dynamic process. We study a real-world network on the social news aggregator Digg, which allows users to post and vote for news stories. We empirically define influence as the number of in-network votes a user's post generates. This influence measure, and the resulting ranking, arises entirely from the dynamics of voting on Digg, which represents non-conservative information flow. We then compare predictions of different influence models with this empirical estimate of influence. The results show that non-conservative models are better able to predict influential users on Digg. We find that normalized alpha-centrality metric turns out to be one of the best predictors of influence. We also present a simple algorithm for computing this metric and the associated mathematical formulation and analytical proofs.
研究动机与目标
- 识别预测在线社交网络中影响力用户最准确的影响模型。
- 区分网络流中的保守与非保守动态过程。
- 使用从 Digg 上实际用户行为中派生的实证影响度量来评估影响模型。
- 证明模型选择必须与网络的底层动态过程相匹配。
- 提供一种简单算法及归一化 α-中心性的解析证明。
提出的方法
- 根据质量守恒性,将动态过程分类为保守型(如随机游走)或非保守型(如信息传播)。
- 将实证影响定义为用户在 Digg 上的帖子所获得的网络内投票数,基于真实用户投票行为。
- 通过将预测排名与实证影响排名的相关性来评估 12 种影响模型。
- 将归一化 α-中心性用作非保守模型,同时提供简单算法与解析推导。
- 计算相关系数与召回率指标以比较模型性能,其中召回率衡量模型对前排影响力用户的预测效果。
- 将模型应用于 69,524 名用户,重点关注实证影响度量最高的前 100 名提交者。
实验结果
研究问题
- RQ1在信息非保守传播的在线社交网络中,哪种影响模型最能预测用户的影响?
- RQ2在 Digg 上预测现实世界影响力时,保守型影响模型(如 PageRank、接近度中心性)与非保守型模型(如 α-中心性)的性能如何比较?
- RQ3归一化 α-中心性与 Digg 网络中实证观察到的影响的相关性有多大?
- RQ4为何在信息传播等非保守动态的网络中,非保守模型优于保守模型?
- RQ5一种简单且具有解析基础的归一化 α-中心性算法,能否有效预测现实社交网络中的影响力用户?
主要发现
- 归一化 α-中心性在 Digg 上与实证影响度量的相关系数达到 0.92,显著优于其他模型。
- 归一化 α-中心性的召回率为 0.76,意味着模型在前 100 名预测中正确识别了 76% 的前 100 名实证影响力用户。
- 入度中心性的召回率为 0.60,而 PageRank 和接近度中心性的召回率分别仅为 0.29 和 0.21。
- 接近度中心性和图中心性相关系数较低(分别为 0.116 和 0.097),表明预测能力差。
- SenderRank 相关系数为 0.407,属中等水平,但仍逊于归一化 α-中心性。
- 研究证实,非保守模型更适合于信息传播等非保守动态的网络。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。