Skip to main content
QUICK REVIEW

[论文解读] The Dynamic Embedded Topic Model

Adji Bousso Dieng, Francisco J. R. Ruiz|arXiv (Cornell University)|Jul 12, 2019
Computational and Text Analysis Methods参考文献 57被引用 26
一句话总结

动态嵌入主题模型(d-ETM)将动态潜在狄利克雷分配(d-LDA)与词嵌入相结合,用于建模文档集合中随时间演化的主题。通过在词嵌入空间中将主题表示为随时间变化的向量,并使用随机游走先验以实现平滑的演化轨迹,d-ETM 在主题一致性与多样性方面表现更优,同时相比 d-LDA 显著缩短了训练时间。

ABSTRACT

Topic modeling analyzes documents to learn meaningful patterns of words. For documents collected in sequence, dynamic topic models capture how these patterns vary over time. We develop the dynamic embedded topic model (D-ETM), a generative model of documents that combines dynamic latent Dirichlet allocation (D-LDA) and word embeddings. The D-ETM models each word with a categorical distribution parameterized by the inner product between the word embedding and a per-time-step embedding representation of its assigned topic. The D-ETM learns smooth topic trajectories by defining a random walk prior over the embedding representations of the topics. We fit the D-ETM using structured amortized variational inference with a recurrent neural network. On three different corpora---a collection of United Nations debates, a set of ACL abstracts, and a dataset of Science Magazine articles---we found that the D-ETM outperforms D-LDA on a document completion task. We further found that the D-ETM learns more diverse and coherent topics than D-LDA while requiring significantly less time to fit.

研究动机与目标

  • 为解决传统主题模型在捕捉时间文档集合中罕见词和长尾语言模式方面的局限性。
  • 将嵌入主题模型(ETM)扩展至建模主题随时间的演化,克服 ETM 的静态特性。
  • 开发一种可扩展的推理方法,以实现在大规模、时间有序文档语料上的高效训练。
  • 评估将词嵌入与动态主题建模结合是否能提升 d-LDA 在预测性能与主题质量方面的表现。

提出的方法

  • 将每个主题表示为预训练词嵌入空间中的时变向量,主题-词概率通过词嵌入与主题嵌入之间的点积导出。
  • 在时间步之间对主题嵌入实施随机游走先验,以确保主题演化的平滑与连续。
  • 使用长短期记忆(LSTM)网络参数化潜在变量的变分后验,结合结构化变分推断。
  • 通过数据子采样与重参数化梯度,实现随机优化,并在大规模语料上实现可扩展训练。
  • 在推理过程中对离散主题指标进行折叠,以实现通过随机性进行反向传播,并提升优化效率。
  • 对大多数潜在变量采用完全分解的高斯近似,对主题嵌入轨迹则使用全协方差高斯分布以捕捉依赖关系。

实验结果

研究问题

  • RQ1将词嵌入与动态主题建模结合是否能提升时间文档集合中的主题一致性与多样性?
  • RQ2d-ETM 在文档补全任务中的预测性能是否优于 d-LDA?
  • RQ3d-ETM 的性能提升是否源于其模型结构,而非所采用的推理方法?
  • RQ4所学习的主题轨迹在多大程度上与真实世界的历史事件及语言使用中的语义演变相吻合?

主要发现

  • d-ETM 在文档补全任务中优于 d-LDA,其在三个评估语料(联合国辩论、ACL 摘要、《科学》杂志文章)中均实现了更低的困惑度。
  • d-ETM 生成的主题在一致性和多样性方面显著优于 d-LDA,所有数据集的主题质量(一致性与多样性乘积)均得到提升。
  • 尽管模型结构更复杂,d-ETM 的训练时间远短于 d-LDA,展现出更高的计算效率。
  • 该模型成功捕捉了随时间演变的语义变化,例如气候变迁主题从 1990 年代的臭氧层问题演变为 2015 年的全球变暖与排放问题。
  • 词概率轨迹反映了历史事件,例如 1975 年后东南亚主题中 '越南' 的相关性下降,而 '伊朗' 在核武器讨论中的相关性持续上升。
  • 消融实验表明,采用相同推理设置的 d-LDA(d-LDA-rep)性能劣于 d-LDA,仅训练更快,证实 d-ETM 的优势源于其模型设计,而非推理方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。