QUICK REVIEW

[论文解读] Evaluating topic coherence measures

F. Rosner, Alexander Hinneburg|arXiv (Cornell University)|Mar 25, 2014

Topic Modeling参考文献 13被引用 54

一句话总结

本文通过扩展至科学哲学中的高阶词子集关系，超越成对词语相似性，评估主题一致性度量，表明多层级一致性度量（如 one-any、any-any）在与人类可解释性判断对齐方面优于传统的成对度量（如 UMass 和 UCI）。研究显示，直接优化这些先进的一致性度量可生成比标准主题建模更具可解释性的主题，表明其作为独立优化目标的价值。

ABSTRACT

Topic models extract representative word sets - called topics - from word counts in documents without requiring any semantic annotations. Topics are not guaranteed to be well interpretable, therefore, coherence measures have been proposed to distinguish between good and bad topics. Studies of topic coherence so far are limited to measures that score pairs of individual words. For the first time, we include coherence measures from scientific philosophy that score pairs of more complex word subsets and apply them to topic scoring.

研究动机与目标

评估基于复杂词子集（而非仅成对词语）的一致性度量是否能更好地反映主题的人类可解释性。
检验这些先进的一致性度量是否可作为主题生成的有效优化目标。
通过人类评估，将哲学一致性度量（one-all、one-any、any-any）与标准 NLP 一致性度量（UMass、UCI）进行性能比较。
探究直接通过一致性度量优化生成可解释主题的可行性，且不依赖主题模型。

提出的方法

本研究引入并应用三种哲学一致性度量——'one-all'、'one-any' 和 'any-any'——这些度量评估词子集之间的支持关系，而非仅成对词语。
采用启发式束搜索算法，通过直接优化每种一致性度量来生成词集，起始于两个语料库中的顶级 TF-IDF 词。
在评估中，通过束搜索生成 500 个词集（k=3, l=5），人类评分者在三分类量表（良好、中性、差）上评估其可解释性。
人类评分用于计算一致性度分值与感知可解释性之间的 Kendall’s tau 秩相关系数。
该方法在人工生成的词集（实验 I）和 LDA 生成的主题（实验 III）上比较了一致性度量的表现。
使用确认度量 d(W', W*) = p(W'|W*) - p(W') 来量化非重叠词子集 W' 和 W* 之间的支持程度。

实验结果

研究问题

RQ1基于词子集关系（而非仅成对词语）的一致性度量是否能更好地预测主题的人类可解释性？
RQ2如 'one-any' 和 'any-any' 等哲学一致性度量是否在与人类评分对齐方面优于标准 NLP 一致性度量（如 UMass 和 UCI）？
RQ3直接优化一致性度量是否是无需依赖主题模型即可生成可解释词集的可行且有效方法？
RQ4当应用于合成词集和真实 LDA 主题时，不同一致性度量的表现如何？

主要发现

'one-any' 和 'any-any' 一致性度量在生成词集上与人类评分的 Kendall’s tau 秩相关系数最高（分别为 0.592 和 0.557），显著优于 UMass（0.074）和 UCI（0.224）。
在 LDA 生成的主题中，'any-any' 和 'one-any' 一致性度量与人类评分的相关性最强（德语分别为 0.379 和 0.376，英语分别为 0.242 和 0.239），超过 UCI（0.371）和 UMass（0.243）。
'one-all' 一致性度量表现也良好，德语词集的人类评分一致率达到 0.568，表明其与人类可解释性高度一致。
UMass 一致性度量与人类判断的相关性最弱（英语为 0.074），表明其与人类对主题质量的感知对齐较差。
直接优化哲学一致性度量可生成高度可解释的词集，表明这些度量可作为主题生成的有效独立优化目标。
结果表明，成对一致性度量不足以捕捉复杂语义关系，如在 {bow, tie, match, deck} 这类集合中，成对词语可能得分良好，但整体集合却不可解释。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。