Skip to main content
QUICK REVIEW

[论文解读] Popularity Prediction in Microblogging Network: A Case Study on Sina Weibo

Peng Bao, Huawei Shen|arXiv (Cornell University)|Apr 16, 2013
Complex Network Analysis Techniques参考文献 7被引用 33
一句话总结

本文通过结合早期转发网络的结构特征——特别是链接密度和扩散深度——提出了一种针对新浪微博微博内容流行度的预测模型。该方法通过利用早期采纳者网络中的结构多样性,显著提升了基线方法的预测准确率,将RMSE从0.77降低至0.61。

ABSTRACT

Predicting the popularity of content is important for both the host and users of social media sites. The challenge of this problem comes from the inequality of the popularity of con- tent. Existing methods for popularity prediction are mainly based on the quality of content, the interface of social media site to highlight contents, and the collective behavior of user- s. However, little attention is paid to the structural charac- teristics of the networks spanned by early adopters, i.e., the users who view or forward the content in the early stage of content dissemination. In this paper, taking the Sina Weibo as a case, we empirically study whether structural character- istics can provide clues for the popularity of short messages. We find that the popularity of content is well reflected by the structural diversity of the early adopters. Experimental results demonstrate that the prediction accuracy is signif- icantly improved by incorporating the factor of structural diversity into existing methods.

研究动机与目标

  • 探究早期转发网络的结构特征是否能够预测微博平台上的长期内容流行度。
  • 解决现有流行度预测方法忽视早期传播中网络结构的局限性。
  • 通过引入链接密度和扩散深度等网络层面指标,提升预测准确率。
  • 通过实证验证,多样化的早期传播路径与更高的最终流行度存在相关性。
  • 开发并评估一种结合早期流行度与结构网络特征的混合预测模型。

提出的方法

  • 该方法将最终流行度建模为早期流行度对数与对数链接密度的线性组合:$\ln{\hat{p}_{k}(t_{r})} = \alpha_{1}\ln{p_{k}(t_{i})} + \alpha_{2}\ln{\rho_{k}(t_{i})} + \alpha_{3}$。
  • 另一种模型使用扩散深度替代链接密度:$\ln{\hat{p}_{k}(t_{r})} = \beta_{1}\ln{p_{k}(t_{i})} + \beta_{2}d_{k}(t_{i}) + \beta_{3}$。
  • 链接密度定义为早期转发者之间实际关注关系数量与该子图中所有可能连接数的比值。
  • 扩散深度衡量的是从原始发布者到任意转发者在早期传播网络中的最长路径长度。
  • 模型系数($\alpha_{1}, \alpha_{2}, \alpha_{3}$ 等)通过回归方法从训练数据中学习得到。
  • 该方法与仅使用早期流行度的基线方法进行对比,采用RMSE和MAE作为评估指标。

实验结果

研究问题

  • RQ1早期转发网络的结构特征能否预测微博内容的最终流行度?
  • RQ2早期采纳者网络中的链接密度与长期流行度之间是否存在显著相关性?
  • RQ3早期传播路径中的扩散深度是否与更广泛的内容传播相关?
  • RQ4将早期流行度与结构特征结合,能否在基线模型之上进一步提升预测准确率?
  • RQ5早期传播路径中的结构多样性在多大程度上提升了流行度预测能力?

主要发现

  • 最终流行度与早期转发网络中链接密度之间存在强烈的负线性相关性,表明网络越稀疏,越可能实现更高程度的病毒式传播。
  • 最终流行度与扩散深度之间存在强烈的正向近似线性相关性,表明传播路径越深,内容传播范围越大。
  • 在预测模型中引入链接密度后,RMSE从基线的0.77降低至0.63,改善幅度达18.2%。
  • 使用扩散深度替代链接密度时,RMSE进一步降低至0.61,相比基线模型降低20.8%。
  • 扩散深度的模型学习系数$\beta_2$为0.07,表明其对预测准确率有显著贡献。
  • 实证结果证实,早期采纳者网络中的结构多样性是长期内容流行度的强有力预测因子。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。