[论文解读] TiDeH: Time-Dependent Hawkes Process for Predicting Retweet Dynamics
TiDeH 用带有时变传染率的 Hawkes 过程来预测 Twitter 转发活动的时间演化,考虑昼夜节律和信息衰减,并在跨时间尺度上优于现有方法。
Online social networking services allow their users to post content in the form of text, images or videos. The main mechanism driving content diffusion is the possibility for users to re-share the content posted by their social connections, which may then cascade across the system. A fundamental problem when studying information cascades is the possibility to develop sound mathematical models, whose parameters can be calibrated on empirical data, in order to predict the future course of a cascade after a window of observation. In this paper, we focus on Twitter and, in particular, on the temporal patterns of retweet activity for an original tweet. We model the system by Time-Dependent Hawkes process (TiDeH), which properly takes into account the circadian nature of the users and the aging of information. The input of the prediction model are observed retweet times and structural information about the underlying social network. We develop a procedure for parameter optimization and for predicting the future profiles of retweet activity at different time resolutions. We validate our methodology on a large corpus of Twitter data and demonstrate its systematic improvement over existing approaches in all the time regimes.
研究动机与目标
- 通过预测活动随时间的演化来激励并改进对转发级联超越最终规模的预测。
- 将昼夜节律模式和信息 aging into Hawkes 过程,以更好地捕捉转发动态。
- 提供一个从观测到的转发时间和关注者数据进行参数估计的、在数学上一致的预测框架。
- 在一个大型 Twitter 数据集上将 TiDeH 与最先进的基线进行比较,并在各时间尺度上显示出系统性改进。
提出的方法
- 将转发到达建模为一个时间相关的 Hawkes 过程,强度为 lambda(t) = p(t) ∑_{i: t_i < t} d_i phi(t - t_i)。
- 将每个转发用户的关注者数量 d_i 纳入,以对分支过程进行加权。
- 使用尾部较重的记忆核 phi(s) 来建模反应时间,并使用时变的传染率 p(t) 来捕捉昼夜节律和老化效应。
- 将 p(t) 模型为 p(t) = p0 {1 - r0 sin(2 pi / Tm (t + phi0))} exp(-(t - t0)/tau_m),其中 Tm = 1 day,并通过带移动窗口的最小二乘法估计参数。
- 通过求解条件转发率 hat{lambda}(t) 的自洽 Volterra 积分方程来预测未来活动。
实验结果
研究问题
- RQ1在观测到的转发时间和关注者信息上进行标定的时间相关 Hawkes 过程,是否能够准确预测转发活动的时间演化?
- RQ2明确建模昼夜节律和信息老化是否相较于固定 Hawkes 和其他基线能提高预测精度?
- RQ3观测窗口长度和预测时间粒度对 TiDeH 的预测性能有何影响?
- RQ4从数据估计形状参数的训练如何影响短观测窗口的预测准确性?
主要发现
- TiDeH 在所有观测窗口和预测粒度下持续优于基线方法,能够预测未来转发活动。
- 在有训练的情况下,TiDeH 在 1-day 观测窗口时的中位绝对误差为 1.6,在 1-hour 窗口时为 8.2(相较于基线具有更高误差)。
- TiDeH 的预测误差大致与预测时间分辨率 Delta_pred 无关,在不同粒度下均优于标准 Hawkes 和其他基线。
- 与强化泊松过程 (RPP) 和线性回归变体相比,TiDeH 在最终转发计数上的平均误差减少约 17.9%,中位误差减少约 21.7%,对时间分辨的预测收益更大。
- 包含关注者信息 (d_i) 与昼夜/节律效应显著提升短期预测,特别是在使用训练来估计形状参数时。
- 在参数优化后的 TiDeH 计算成本的尺度为 O(R(T) T_pred) + O(T_pred^2),其中 R(T) 是观测到的转发数量,T_pred 是预测时域。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。