Skip to main content
QUICK REVIEW

[论文解读] Dependent Hierarchical Normalized Random Measures for Dynamic Topic Modeling

Changyou Chen, Nan Ding|arXiv (Cornell University)|Jun 18, 2012
Bayesian Methods and Mixture Models参考文献 19被引用 17
一句话总结

该论文提出了一种新颖的动态主题建模框架,采用依赖性分层归一化随机测度,利用归一化广义伽马过程捕捉幂律主题分布。通过泊松过程叠加和点转移建模时间依赖性,并采用切片采样器进行推断,该方法在新闻、博客、学术文献和Twitter数据集上的困惑度表现优于先前模型。

ABSTRACT

We develop dependent hierarchical normalized random measures and apply them to dynamic topic modeling. The dependency arises via superposition, subsampling and point transition on the underlying Poisson processes of these measures. The measures used include normalised generalised Gamma processes that demonstrate power law properties, unlike Dirichlet processes used previously in dynamic topic modeling. Inference for the model includes adapting a recently developed slice sampler to directly manipulate the underlying Poisson process. Experiments performed on news, blogs, academic and Twitter collections demonstrate the technique gives superior perplexity over a number of previous models.

研究动机与目标

  • 为解决基于狄利克雷过程的模型在捕捉动态文本集合中幂律主题分布方面的局限性。
  • 比现有非参数贝叶斯方法更灵活地建模主题演化中的时间依赖性。
  • 开发一种可扩展的推断算法,直接操作随机测度的泊松过程表示。
  • 提升在新闻、博客和社交媒体等时间演化文本数据上的主题建模性能。
  • 证明归一化广义伽马过程在动态主题建模中优于狄利克雷过程。

提出的方法

  • 该框架采用归一化广义伽马过程作为基测度,其天然表现出幂律行为,与狄利克雷过程不同。
  • 通过底层随机测度的泊松过程的叠加、子采样和点转移来引入时间依赖性。
  • 适配一种新型切片采样器,直接操作泊松过程表示,实现高效的后验推断。
  • 模型采用分层结构,允许在时间点之间共享主题结构,同时保持动态演化特性。
  • 该构造确保交换性,并支持对无界数量主题的非参数推断。
  • 通过利用泊松过程表示的条件共轭性,支持在线和批量推断。

实验结果

研究问题

  • RQ1归一化广义伽马过程是否能通过更好地捕捉幂律主题分布来改进动态主题建模?
  • RQ2如何利用依赖性归一化随机测度有效建模主题演化中的时间依赖性?
  • RQ3在该框架中,直接在泊松过程表示上操作的切片采样器能否实现高效且准确的推断?
  • RQ4该模型在多样化文本集合中的困惑度是否优于现有动态主题模型?
  • RQ5该模型的非参数特性与幂律行为在时间演化文本数据上的性能提升中起到多大作用?

主要发现

  • 所提模型在新闻、博客、学术文献和Twitter文本集合上的困惑度显著低于先前模型。
  • 使用归一化广义伽马过程相比狄利克雷过程能更有效地捕捉幂律主题分布。
  • 在泊松过程表示上操作的切片采样器实现了高效且准确的后验推断,无需依赖共轭先验。
  • 该模型在多种文本类型中表现稳健,包括Twitter等短文本社交媒体内容。
  • 通过泊松过程叠加和点转移构建的依赖结构能有效建模主题随时间的演化。
  • 实证结果证实,该框架在动态主题建模任务中优于基线模型。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。