Skip to main content
QUICK REVIEW

[论文解读] Keyword Assisted Topic Models

Shusei Eshima, Kosuke Imai|arXiv (Cornell University)|Apr 13, 2020
Computational and Text Analysis Methods参考文献 52被引用 33
一句话总结

该论文介绍 keyATM,一种半监督主题模型,使用少量关键字来提高可解释性和测量,并支持无关键词主题、协变量和时间趋势。

ABSTRACT

In recent years, fully automated content analysis based on probabilistic topic models has become popular among social scientists because of their scalability. The unsupervised nature of the models makes them suitable for exploring topics in a corpus without prior knowledge. However, researchers find that these models often fail to measure specific concepts of substantive interest by inadvertently creating multiple topics with similar content and combining distinct themes into a single topic. In this paper, we empirically demonstrate that providing a small number of keywords can substantially enhance the measurement performance of topic models. An important advantage of the proposed keyword assisted topic model (keyATM) is that the specification of keywords requires researchers to label topics prior to fitting a model to the data. This contrasts with a widespread practice of post-hoc topic interpretation and adjustments that compromises the objectivity of empirical findings. In our application, we find that keyATM provides more interpretable results, has better document classification performance, and is less sensitive to the number of topics than the standard topic models. Finally, we show that keyATM can also incorporate covariates and model time trends. An open-source software package is available for implementing the proposed methodology.

研究动机与目标

  • 动机:在使用主题模型进行自动化内容分析时,需提升测量的必要性。
  • 提出一种半监督主题模型(keyATM),为每个主题结合一小组关键字。
  • 扩展基础模型以允许没有关键字的主题,并对文档协变量和时间趋势进行建模。
  • 证明关键字的引入能使主题更具可解释性,且在分类性能上优于无监督基线。

提出的方法

  • 在一个 K-topic 模型中定义两类主题结构:带关键字的主题与无关键字的主题。
  • 对于带关键字的主题,引入一个伯努利变量 s_di 来决定一个词是来自关键字还是来自标准的主题词分布。
  • 对主题词分布和关键字词分布使用狄利克雷先验,对关键字概率参数 pi_k 施加 Beta 先验。
  • 采用坍缩 Gibbs 抽样方案来采样 z_di、s_di 和 alpha_k,并对 theta、phi、tilde_phi 和 pi 进行积分。
  • 在采样过程中引入词语权重(wLDA),对计数中出现过于频繁的词进行下权重处理。
  • 提供 phi*_kv 和 theta_dk 的后验估计的闭式表达,并讨论关键字成分与非关键字成分的解释。

实验结果

研究问题

  • RQ1将少量关键字引入到主题中,是否比无监督主题模型在可解释性方面有提升?
  • RQ2与标准的基于 LDA 的模型相比,keyATM 是否获得更好的文档分类性能?
  • RQ3keyATM 是否能够在不牺牲性能的前提下,处理没有关键字的主题并对协变量/时间趋势建模?

主要发现

  • keyATM 相较于不含关键词的基线(wLDA),能够提供更具可解释性的主题-词分布。
  • keyATM 的主题-词分布与人工编码标签以及 CAP/CBP 分类更为一致。
  • 在国会法案语料库中,大多数主题下,keyATM 的文档-主题分类性能优于 wLDA,ROC 比较 favor keyATM。
  • 允许无关键词主题和学习超参数提高模型灵活性与性能。
  • 基础的 keyATM 能够整合协变量并建模时间趋势,同时保持改进的可解释性与测量质量。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。