[论文解读] Mutual Information Alleviates Hallucinations in Abstractive Summarization
本文提出CPMI,一种解码策略,在模型不确定性(以条件熵衡量)较高时,切换至优化源词与目标词之间的点互信息(PMI),从而在摘要生成中减少幻觉。该方法在保持XSUM数据集上高ROUGE和BERTS得分的同时,降低了幻觉标记的概率,相较于仅使用PMI,ROUGE-L下降仅0.977%,而后者下降达3.13%。
Despite significant progress in the quality of language generated from abstractive summarization models, these models still exhibit the tendency to hallucinate, i.e., output content not supported by the source document. A number of works have tried to fix--or at least uncover the source of--the problem with limited success. In this paper, we identify a simple criterion under which models are significantly more likely to assign more probability to hallucinated content during generation: high model uncertainty. This finding offers a potential explanation for hallucinations: models default to favoring text with high marginal probability, i.e., high-frequency occurrences in the training set, when uncertain about a continuation. It also motivates possible routes for real-time intervention during decoding to prevent such hallucinations. We propose a decoding strategy that switches to optimizing for pointwise mutual information of the source and target token--rather than purely the probability of the target token--when the model exhibits uncertainty. Experiments on the XSum dataset show that our method decreases the probability of hallucinated tokens while maintaining the Rouge and BertS scores of top-performing decoding strategies.
研究动机与目标
- 识别在抽取式摘要生成过程中,模型容易产生幻觉时的可检测信号。
- 解决自回归文本生成中持续存在的幻觉问题,该问题会损害事实真实性。
- 提出一种实时解码干预方法,在保持生成质量的同时减少不忠实内容。
- 验证高模型不确定性(条件熵)与幻觉出现之间存在相关性。
提出的方法
- 该方法使用下一个词预测的条件熵来量化模型不确定性。
- 提出一种条件解码策略CPMI,当不确定性超过阈值时,从标准对数概率切换为源词与目标词之间的点互信息(PMI)。
- CPMI通过优化PMI(y; x) = log p(y|x) - log p(y)来优先选择与源相关的目标词,以应对高不确定性生成。
- 该方法采用束搜索,并使用基于熵动态切换目标的评分函数。
- 在XSUM数据集上应用该方法,利用人工标注的幻觉片段评估其对事实性和流畅性的影响。
- 通过ROUGE、BERTS、FACTScore和FactCC指标评估方法,以衡量生成质量与忠实度。
实验结果
研究问题
- RQ1是否存在可测量的信号(如高条件熵),预示着在抽取式摘要生成中幻觉内容的生成?
- RQ2在高不确定性阶段切换解码目标至PMI,是否能降低生成不忠实标记的可能性?
- RQ3所提出的CPMI解码策略是否在提升事实性的同时,保持高ROUGE和BERTS得分?
- RQ4与标准对数概率评分相比,幻觉标记在CPMI下的排名和得分如何?
主要发现
- 高条件熵与幻觉标记序列的开始强相关,BARTS2S中首个幻觉标记的平均熵为4.197±0.065(非幻觉标记为3.689±0.021)。
- 在CPMI下,幻觉标记的得分显著降低且排名更差,尤其在不忠实段落的起始处(如BARTS2S中初始幻觉的得分下降−0.13±0.03)。
- CPMI解码策略仅导致ROUGE-L下降0.977%,而若仅使用PMI作为目标,则下降达3.13%。
- FACTScore(事实性指标)在CPMI下提升,表明忠实度改善;而FactCC因与CNN/DM数据集存在领域差异而下降。
- 该方法保持了高流畅性,表现为BERTS得分稳定,且在各模型上性能下降微乎其微。
- 当阈值选择适当时,对非幻觉标记的影响极小,表明该切换机制具有选择性且安全。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。