[论文解读] Constrained Abstractive Summarization: Preserving Factual Consistency with Constrained Generation
CAS 使用词汇受限解码在摘要中强制约束标记,提升事实一致性和 ROUGE 得分且无需重新训练基础模型。在 CNNDM 和 XSum 上对自动和交互式约束显示出提升。
Despite significant progress, state-of-the-art abstractive summarization methods are still prone to hallucinate content inconsistent with the source document. In this paper, we propose Constrained Abstractive Summarization (CAS), a general setup that preserves the factual consistency of abstractive summarization by specifying tokens as constraints that must be present in the summary. We adopt lexically constrained decoding, a technique generally applicable to autoregressive generative models, to fulfill CAS and conduct experiments in two scenarios: (1) automatic summarization without human involvement, where keyphrases are extracted from the source document and used as constraints; (2) human-guided interactive summarization, where human feedback in the form of manual constraints are used to guide summary generation. Automatic and human evaluations on two benchmark datasets demonstrate that CAS improves both lexical overlap (ROUGE) and factual consistency of abstractive summarization. In particular, we observe up to 13.8 ROUGE-2 gains when only one manual constraint is used in interactive summarization.
研究动机与目标
- 推动减少抽象式摘要中的事实性幻觉。
- 提出一个通用的 CAS 框架,其中一组文本片段必须出现在摘要中。
- 展示 CAS 在不重新训练模型的情况下提升词汇重叠(ROUGE)和事实一致性。
- 展示自动约束提取以及人类引导的交互式约束场景。
- 在 CNNDM 和 XSum 上以 BERTSum 作为基础模型评估 CAS。
提出的方法
- 将约束集合 C 定义为必须出现在摘要中的文本片段。
- 在推断阶段使用词汇受限解码(动态束分配)来强制执行约束。
- 通过关键短语提取(BERT-KPE)从源文本自动创建约束并筛选以添加新信息。
- 通过将参考摘要中的实体/短语用作手动约束来模拟人工引导的约束。
- 在 CNNDM 与 XSum 上使用 BERTSum 作为基础模型,结合 ROUGE 与事实一致性指标评估 CAS。
实验结果
研究问题
- RQ1有约束的生成在不重新训练模型的情况下能否提升事实一致性?
- RQ2自动提取的约束是否在 CNNDM 和 XSum 上提升 ROUGE 与事实度量?
- RQ3与自动约束相比,交互式(人工)约束引导如何影响性能?
- RQ4受限解码是否足够高效,适合实际使用?
主要发现
- 在将自动提取的关键短语用作约束时,CAS 提升 CNNDM 和 XSum 的 ROUGE-1、ROUGE-2 和 ROUGE-L。
- 在 CAS 下,CNNDM 和 XSum 的实体级事实一致性与支持分数有所提升。
- 在交互式摘要中,使用单个手动约束(如一个短语)可在 XSum 上带来最高 13.8 的 ROUGE-2 提升。
- CAS 的表现优于随机插入约束,表明引导约束使用是有益的。
- 在常见束宽下,受限解码增加的运行时开销可以管理。
- 在某些设置下,人工约束可接近甚至超越标准、成本更高的模型。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。