[논문 리뷰] TiDeH: Time-Dependent Hawkes Process for Predicting Retweet Dynamics
TiDeH는 circadian 리듬과 정보 노화 등을 고려하여 Hawkes 프로세스를 시간 가변으로 확장하고, Twitter의 리트윗 활동의 시간적 진화를 예측하며 다양한 시간 규모에서 기존 방법을 능가합니다.
Online social networking services allow their users to post content in the form of text, images or videos. The main mechanism driving content diffusion is the possibility for users to re-share the content posted by their social connections, which may then cascade across the system. A fundamental problem when studying information cascades is the possibility to develop sound mathematical models, whose parameters can be calibrated on empirical data, in order to predict the future course of a cascade after a window of observation. In this paper, we focus on Twitter and, in particular, on the temporal patterns of retweet activity for an original tweet. We model the system by Time-Dependent Hawkes process (TiDeH), which properly takes into account the circadian nature of the users and the aging of information. The input of the prediction model are observed retweet times and structural information about the underlying social network. We develop a procedure for parameter optimization and for predicting the future profiles of retweet activity at different time resolutions. We validate our methodology on a large corpus of Twitter data and demonstrate its systematic improvement over existing approaches in all the time regimes.
연구 동기 및 목표
- 리트윗 캐스케이드를 최종 크기 이상으로 예측하여 활동의 시간적 진화를 예측하고 예측을 개선한다.
- circadian 패턴과 정보 노화를 Hawkes 프로세스에 통합하여 리트윗 다이나믹을 더 잘 포착한다.
- 관찰된 리트윗 시간과 팔로워 데이터로 매개변수를 추정하는 수학적으로 일관된 예측 프레임워크를 제공한다.
- 대형 Twitter 데이터 세트에서 TiDeH를 최첨단 베이스라인과 비교 평가하고 시간 범위 전반에서 체계적인 개선을 보인다.
제안 방법
- 리트윗 도착을 lambda(t) = p(t) sum_{i: t_i < t} d_i phi(t - t_i)로 표현되는 시간 의존 Hawkes 프로세스로 모델링한다.
- 각 리트윗 작성 사용자의 팔로워 수 d_i를 포함하여 브랜칭 프로세스를 가중한다.
- 반응 시간의 무게를 모델링하기 위해 heavy tail를 가지는 기억 커널 phi(s)와 circadian 및 aging 효과를 반영하기 위한 시간 가변 감염률 p(t)를 사용한다.
- p(t)를 p(t) = p0 {1 - r0 sin(2 pi / Tm (t + phi0))} exp(-(t - t0)/tau_m) 로 모델링하고 Tm = 1 day로 두며, 이동 창을 이용한 최소제곱으로 매개변수를 추정한다.
- m hat{lambda}(t)의 조건부 리트윗 속도에 대한 자가 일관 Volterra 적분 방정식을 푸는 것으로 미래 활동을 예측한다.
실험 결과
연구 질문
- RQ1관찰된 리트윗 시간과 팔로워 정보를 바탕으로 보정된 시간 의존 Hawkes 프로세스가 리트윗 활동의 시간 진화를 정확히 예측할 수 있는가?
- RQ2circadian 리듬과 정보 노화를 명시적으로 모델링하는 것이 정적 Hawkes 및 다른 베이스라인과 비교하여 예측 정확도를 향상시키는가?
- RQ3관찰 창 길이와 예측 시간 그리다리에 대한 TiDeH의 예측 성능에 어떤 영향이 있는가?
- RQ4데이터로부터 형태 매개변수를 추정하는 학습이 짧은 관찰 창에서의 예측 정확도에 어떤 영향을 미치는가?
주요 결과
- TiDeH는 모든 관찰 창과 예측 그리다리에 걸쳐 미래 리트윗 활동 예측에서 일관되게 베이스라인 방법을 상회한다.
- 학습이 있으면 1일 관찰 창에서 중앙값 절대 오차가 1.6이고 1시간 관찰 창에서 8.2인 반면 베이스라인의 오차는 더 높다.
- TiDeH의 예측 오차는 예측 시간 해상도 Delta_pred에 거의 의존하지 않으며, 그리다리 전체에서 표준 Hawkes 및 다른 베이스라인을 능가한다.
- 강화된 포아송 프로세스(RPP) 및 선형 회귀 변형과 비교할 때 TiDeH는 최종 리트윗 수에 대해 평균 약 17.9%, 중앙값 약 21.7%의 오차 감소를 제공하며, 시간 해상도에 따른 이득은 더 크다.
- 팔로워 정보(d_i)와 circadian/페이싱 효과를 포함하는 것이 단기 예측을 크게 개선하며, 특히 모형 학습으로 형태 매개변수를 추정할 때 그렇다.
- TiDeH의 매개변수 최적화 후 계산 비용은 O(R(T) T_pred) + O(T_pred^2)로 확장되며, 여기서 R(T)는 관찰된 리트윗 수이고 T_pred는 예측 지평선이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.