[论文解读] Contextualized Topic Coherence Metrics
本论文提出 Contextualized Topic Coherence (CTC),一系列基于大模型的主题模型评估指标,包括自动 CPMI 基于的方法和半自动的入侵/评价方法,并在神经网络及传统主题模型上,尤其是短文本情境中,展示了对一致性评估的优越性。
The recent explosion in work on neural topic modeling has been criticized for optimizing automated topic evaluation metrics at the expense of actual meaningful topic identification. But human annotation remains expensive and time-consuming. We propose LLM-based methods inspired by standard human topic evaluations, in a family of metrics called Contextualized Topic Coherence (CTC). We evaluate both a fully automated version as well as a semi-automated CTC that allows human-centered evaluation of coherence while maintaining the efficiency of automated methods. We evaluate CTC relative to five other metrics on six topic models and find that it outperforms automated topic coherence methods, works well on short documents, and is not susceptible to meaningless but high-scoring topics.
研究动机与目标
- 阐明需要上下文感知的主题一致性指标,这些指标应与人类判断一致并能处理神经主题模型和短文本。
- 提出 Contextualized Topic Coherence (CTC),利用预训练的 LLMs 估计主题词之间的上下文依赖关系。
- 提供两种 CTC 变体:自动的(基于 CPMI)和半自动的(通过聊天机器人进行入侵/评分),以实现灵活评估。
- 在多个主题模型和数据集上,将 CTC 与标准自动指标进行对比评估,以验证其有效性和鲁棒性。
提出的方法
- 定义基于 CPMI 的 Contextualized Topic Coherence (CTC_CPMI),在语料库的滑动窗口内对主题词对之间的上下文 PMI 进行计算。
- 引入半自动的 CTC,使用基于聊天机器人的入侵检测和接近人类的主题评分来近似人类判断。
- 将 CTC 变体与已确立的自动指标(C_V、UCI、UMass、NPMI、DWR)在两个数据集(20Newsgroups 与 Elon Musk 推文)以及六种主题模型上进行比较。
- 使用来自 BERT 基模型的预计算 CPMI,使在大数据集上实现可扩展的 CTC_CPMI 计算成为可能。
- 纳入结构化评估协议,包括相关性分析和定性主题检查,以说明 CTC 与基线指标之间的差异。
实验结果
研究问题
- RQ1上下文化的、基于LLM的一致性指标(CTC)是否比传统自动指标更好地与人类可解释性保持一致?
- RQ2自动化的 CTC 是否比现有指标在处理神经主题模型和短文本数据方面更具鲁棒性?
- RQ3自动与半自动 CTC 变体在不同主题模型和数据集上的表现与基线指标相比如何?
- RQ4CTC 指标是否能有效检测并惩罚在传统指标上分数较高但意义不大的“垃圾”主题?
主要发现
- CTC 在评估的模型和数据集上优于传统的自动一致性指标。
- CTC_CPMI 与基线指标的相关性不同,往往更符合人类可解释性,尤其是对于短文本。
- CTC_Intrusion 与 CTC_Rating 可以独立于 CPMI 基分数运行,并通过聊天机器人对类似人类的连贯信号做出响应。
- 某些在基线指标上分数很高的神经主题模型可能产生无意义的主题,CTC 可以因上下文理解而降级。
- CTC 对短文档具有鲁棒性,降低了因无意义主题带来虚假高分的易感性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。