[论文解读] The Social Media Genome: Modeling Individual Topic-Specific Behavior in Social Media
本文提出了“社交媒体基因型”——一种捕捉个体用户兴趣、活动及信息采纳易感性的主题特定行为模型。通过将用户行为建模为不变的基因型,并推导出主题特定的影响骨干结构,该框架使影响力预测性能提升超过20%,并通过仅针对1%的关键用户,实现了信息传播延迟最高达40%的降低。
Information propagation in social media depends not only on the static follower structure but also on the topic-specific user behavior. Hence novel models incorporating dynamic user behavior are needed. To this end, we propose a model for individual social media users, termed a genotype. The genotype is a per-topic summary of a user's interest, activity and susceptibility to adopt new information. We demonstrate that user genotypes remain invariant within a topic by adopting them for classification of new information spread in large-scale real networks. Furthermore, we extract topic-specific influence backbone structures based on information adoption and show that they differ significantly from the static follower network. When employed for influence prediction of new content spread, our genotype model and influence backbones enable more than $20% improvement, compared to purely structural features. We also demonstrate that knowledge of user genotypes and influence backbones allow for the design of effective strategies for latency minimization of topic-specific information spread.
研究动机与目标
- 通过捕捉主题特定的兴趣和采纳模式,超越静态关注者网络,对社交媒体中的个体用户行为进行建模。
- 利用来自Twitter的实证数据,验证用户行为在时间和主题上的一致性。
- 提取与静态关注者网络不同的主题特定影响骨干结构,以改进预测建模。
- 应用基因型和骨干结构,准确预测新内容的采纳者/影响者。
- 设计有效策略,利用用户基因型知识最小化信息传播延迟。
提出的方法
- 将用户基因型定义为基于Twitter上话题标签采纳模式的主题相关兴趣、活动及信息采纳易感性的汇总,实现主题层面的表征。
- 从大规模Twitter数据集中构建基因组,结合关注者结构与用户发帖内容,提取主题特定的行为特征。
- 使用基于基因型的分类器预测未观测到的话题标签的主题,分类准确率达87%。
- 通过识别基于实际信息采纳行为而非仅关注者关系的活跃传播路径,提取主题特定的影响骨干结构。
- 将路径延迟建模为骨干结构中沿有向路径各节点响应时间(Time(u))之和,将源-目标延迟定义为该和的最小值。
- 应用三种启发式方法——Max Lat、Max BC 和 Greedy——实现k-延迟最小化,结合节点延迟与结构介数,选择最优节点以降低延迟。
实验结果
研究问题
- RQ1社交媒体中的个体用户行为能否被一致地建模为随时间保持不变的主题特定特征(即基因型)?
- RQ2主题特定的影响骨干结构在结构上与静态关注者网络有何不同?
- RQ3与仅依赖结构特征相比,基于基因型的模型能否提升对新信息采纳者和影响者的预测性能?
- RQ4对用户基因型和影响骨干结构的了解,能在多大程度上降低社交网络中信息传播的延迟?
- RQ5在选择关键节点以最小化全网传播延迟方面,哪些启发式方法最为有效?
主要发现
- 基因型模型利用复合基因型分类器对未观测到的话题标签主题分类,准确率达87%。
- 主题特定的影响骨干结构与静态关注者网络存在显著差异,揭示了动态的、由行为驱动的传播结构。
- 与仅使用关注者结构相比,基因型模型使新话题标签的影响预测性能提升超过20%。
- k-延迟最小化问题的Greedy启发式方法通过仅修改最响应迅速的1%节点,使平均网络延迟降低超过40%。
- 在体育和名人话题中,由于存在高阶数中心节点,介数中心性(Max BC)的性能几乎与Greedy启发式方法相当。
- k-延迟最小化问题是NP难的,但结合基因型与结构信息的Greedy启发式方法优于仅依赖任一因素的方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。