Skip to main content
QUICK REVIEW

[论文解读] Mutual Information Alleviates Hallucinations in Abstractive Summarization

Liam van der Poel, Ryan Cotterell|arXiv (Cornell University)|Oct 24, 2022
Topic Modeling被引用 4
一句话总结

本文提出CPMI,一种解码策略,在模型不确定性(以条件熵衡量)较高时,切换至优化源词与目标词之间的点互信息(PMI),从而在摘要生成中减少幻觉。该方法在保持XSUM数据集上高ROUGE和BERTS得分的同时,降低了幻觉标记的概率,相较于仅使用PMI,ROUGE-L下降仅0.977%,而后者下降达3.13%。

ABSTRACT

Despite significant progress in the quality of language generated from abstractive summarization models, these models still exhibit the tendency to hallucinate, i.e., output content not supported by the source document. A number of works have tried to fix--or at least uncover the source of--the problem with limited success. In this paper, we identify a simple criterion under which models are significantly more likely to assign more probability to hallucinated content during generation: high model uncertainty. This finding offers a potential explanation for hallucinations: models default to favoring text with high marginal probability, i.e., high-frequency occurrences in the training set, when uncertain about a continuation. It also motivates possible routes for real-time intervention during decoding to prevent such hallucinations. We propose a decoding strategy that switches to optimizing for pointwise mutual information of the source and target token--rather than purely the probability of the target token--when the model exhibits uncertainty. Experiments on the XSum dataset show that our method decreases the probability of hallucinated tokens while maintaining the Rouge and BertS scores of top-performing decoding strategies.

研究动机与目标

  • 识别在抽取式摘要生成过程中,模型容易产生幻觉时的可检测信号。
  • 解决自回归文本生成中持续存在的幻觉问题,该问题会损害事实真实性。
  • 提出一种实时解码干预方法,在保持生成质量的同时减少不忠实内容。
  • 验证高模型不确定性(条件熵)与幻觉出现之间存在相关性。

提出的方法

  • 该方法使用下一个词预测的条件熵来量化模型不确定性。
  • 提出一种条件解码策略CPMI,当不确定性超过阈值时,从标准对数概率切换为源词与目标词之间的点互信息(PMI)。
  • CPMI通过优化PMI(y; x) = log p(y|x) - log p(y)来优先选择与源相关的目标词,以应对高不确定性生成。
  • 该方法采用束搜索,并使用基于熵动态切换目标的评分函数。
  • 在XSUM数据集上应用该方法,利用人工标注的幻觉片段评估其对事实性和流畅性的影响。
  • 通过ROUGE、BERTS、FACTScore和FactCC指标评估方法,以衡量生成质量与忠实度。

实验结果

研究问题

  • RQ1是否存在可测量的信号(如高条件熵),预示着在抽取式摘要生成中幻觉内容的生成?
  • RQ2在高不确定性阶段切换解码目标至PMI,是否能降低生成不忠实标记的可能性?
  • RQ3所提出的CPMI解码策略是否在提升事实性的同时,保持高ROUGE和BERTS得分?
  • RQ4与标准对数概率评分相比,幻觉标记在CPMI下的排名和得分如何?

主要发现

  • 高条件熵与幻觉标记序列的开始强相关,BARTS2S中首个幻觉标记的平均熵为4.197±0.065(非幻觉标记为3.689±0.021)。
  • 在CPMI下,幻觉标记的得分显著降低且排名更差,尤其在不忠实段落的起始处(如BARTS2S中初始幻觉的得分下降−0.13±0.03)。
  • CPMI解码策略仅导致ROUGE-L下降0.977%,而若仅使用PMI作为目标,则下降达3.13%。
  • FACTScore(事实性指标)在CPMI下提升,表明忠实度改善;而FactCC因与CNN/DM数据集存在领域差异而下降。
  • 该方法保持了高流畅性,表现为BERTS得分稳定,且在各模型上性能下降微乎其微。
  • 当阈值选择适当时,对非幻觉标记的影响极小,表明该切换机制具有选择性且安全。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。