QUICK REVIEW

[论文解读] Revisiting Automated Topic Model Evaluation with Large Language Models

Dominik Stammbach, Vilém Zouhar|arXiv (Cornell University)|May 20, 2023

Topic Modeling被引用 4

一句话总结

本文提出使用大语言模型（LLMs）自动化主题模型评估与超参数调优，表明LLMs在一致性任务中与人类判断的相关性高于传统指标。LLMs能有效评估主题质量，并通过在提示中融入研究问题，指导选择最优主题数量。

ABSTRACT

Topic models are used to make sense of large text collections. However, automatically evaluating topic model output and determining the optimal number of topics both have been longstanding challenges, with no effective automated solutions to date. This paper proposes using large language models to evaluate such output. We find that large language models appropriately assess the resulting topics, correlating more strongly with human judgments than existing automated metrics. We then investigate whether we can use large language models to automatically determine the optimal number of topics. We automatically assign labels to documents and choosing configurations with the most pure labels returns reasonable values for the optimal number of topics.

研究动机与目标

解决长期存在的主题模型评估与超参数选择自动化难题。
克服传统自动化指标（如NPMI、Cv）与人类对主题一致性的判断相关性较差的问题。
探索LLMs是否可作为人类评估的可靠、可扩展替代方案，用于主题模型质量与主题数量选择。
在LLM提示中融入研究问题，以指导现实应用场景中最佳主题数量的选择。

提出的方法

使用LLMs（主要为ChatGPT）执行两项标准的主题一致性评估任务：词语干扰检测与主题一致性评分。
通过提示模型对主题词集在1–3分制上进行评分，或识别干扰词，生成基于LLM的统一性得分。
提出一种新方法，通过提示LLM为每个主题聚类中的文档分配标签，并测量标签纯度，以确定最优主题数量。
将LLM分配的标签与真实标签进行比较，以评估聚类质量，并识别标签分配最纯净的主题配置。
在LLM提示中融入研究问题，以指导主题数量选择，增强与现实应用场景的相关性。
使用自举重采样（1000次实验）计算LLM得分与人类标注之间的Spearman等级相关系数，并进行显著性检验。

实验结果

研究问题

RQ1LLMs能否生成与人类评估相关性更强的一致性判断，优于现有自动化指标（如NPMI和Cv）？
RQ2评估任务类型（评分 vs. 干扰检测）是否影响LLM判断与人类评估之间的相关性？
RQ3LLMs能否通过评估文档聚类中的标签纯度，自动确定合理的主题数量？
RQ4在LLM提示中融入研究问题，如何影响最优主题数量的选择？
RQ5LLM分配的标签在现实世界数据集中与真实标签的重叠程度如何？

主要发现

LLM一致性得分与人类评分的Spearman等级相关系数显著更高（在'Both'数据集上为0.64），高于NPMI（0.40）和Cv（0.40），且具有统计学显著性（p < 0.05）。
LLM在主题评分任务中的表现优于干扰检测任务（0.64 vs. 0.36），表明其在评分任务中与人类一致性判断的对齐程度更高。
基于LLM的主题数量选择方法识别出的配置，其标签纯度与真实标签分布高度一致，即使分配的唯一标签数量为真实标签的10倍。
在Bills数据集中，最合适的配置平均LLM分配标签纯度为3.0（1–3分制），而最不合适的配置平均为2.0，表明存在明显区分。
定性分析确认，LLM分配的标签通常与真实标签匹配，并反映主题一致性，尤其在表现最佳的配置中纯度极高。
在提示中融入研究问题可提升主题数量选择的相关性与准确性，使该方法更适用于现实世界应用场景。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。