Skip to main content
QUICK REVIEW

[论文解读] ET-LDA: Joint Topic Modeling for Aligning Events and their Twitter Feedback

Yuheng Hu, Ajita John|arXiv (Cornell University)|Nov 13, 2012
Topic Modeling参考文献 22被引用 50
一句话总结

本文提出ET-LDA,一种联合贝叶斯模型,可同时对直播广播事件中的Twitter数据进行主题建模与事件分割。通过联合建模主题与时间片段,该方法在孤立方法之上实现了性能提升,在两个大规模事件数据集上均表现出显著优势。

ABSTRACT

During broadcast events such as the Superbowl, the U.S. Presidential and Primary debates, etc., Twitter has become the de facto platform for crowds to share perspectives and commentaries about them. Given an event and an associated large-scale collection of tweets, there are two fundamental research problems that have been receiving increasing attention in recent years. One is to extract the topics covered by the event and the tweets; the other is to segment the event. So far these problems have been viewed separately and studied in isolation. In this work, we argue that these problems are in fact inter-dependent and should be addressed together. We develop a joint Bayesian model that performs topic modeling and event segmentation in one unified framework. We evaluate the proposed model both quantitatively and qualitatively on two large-scale tweet datasets associated with two events from different domains to show that it improves significantly over baseline models.

研究动机与目标

  • 为解决在实时事件分析中将主题建模与事件分割视为独立任务所带来的局限性。
  • 探究识别推文中的主题与分割事件时间线之间的相互依赖关系。
  • 开发一种统一的概率模型,从大规模Twitter数据中联合学习主题与时间片段。
  • 在来自不同领域的实际广播事件上评估模型性能。
  • 证明联合建模相比独立模型能带来更优的主题质量与更准确的事件分割。

提出的方法

  • ET-LDA采用联合贝叶斯生成模型,从推文序列中联合推断主题与时间片段。
  • 将每条推文建模为同时依赖于主题与时间片段,且两个任务共享潜在变量。
  • 对主题使用狄利克雷过程先验,并采用类似中国人餐厅过程的结构进行片段分配。
  • 通过吉布斯采样进行推断,联合更新每条推文的主题分配与片段边界。
  • 似然函数整合了主题与片段指标,以在两个维度上最大化一致性。
  • 该框架支持端到端学习,无需预分割数据或外部监督。

实验结果

研究问题

  • RQ1与独立建模相比,联合建模主题与事件片段是否能提升性能?
  • RQ2联合模型识别出的主题与独立主题模型相比有何差异?
  • RQ3该模型在多大程度上捕捉到了直播事件的有意义的时间分割?
  • RQ4该模型是否能在不同类型广播事件间实现泛化?
  • RQ5建模主题与分割依赖关系对整体推断质量有何影响?

主要发现

  • ET-LDA在两个大规模数据集上均显著优于基线模型,在主题一致性和事件分割准确率方面表现更优。
  • 与独立主题建模相比,联合模型在主题上取得了更高的归一化点互信息(NPMI)得分。
  • 事件分割结果表明,F1得分优于基线分割模型,表明其在检测事件边界方面表现更佳。
  • 定性分析证实,该模型能识别出语义一致的主题,并捕捉到事件报道中的有意义时间阶段。
  • 该模型在不同领域(包括体育赛事与政治辩论)中均表现出鲁棒性。
  • 主题与分割建模的整合带来了更具可解释性且时间对齐更优的结果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。