QUICK REVIEW

[论文解读] Asking and Answering Questions to Evaluate the Factual Consistency of Summaries

Alex Wang, Kyunghyun Cho|arXiv (Cornell University)|Apr 8, 2020

Topic Modeling参考文献 40被引用 32

一句话总结

QAGS 通过从摘要生成问题并从源文章和摘要中回答，再比较答案，来评估抽象摘要的事实一致性。它与人类判断的相关性高于像 ROUGE 和 BLEU 这样的标准指标。

ABSTRACT

Practical applications of abstractive summarization models are limited by frequent factual inconsistencies with respect to their input. Existing automatic evaluation metrics for summarization are largely insensitive to such errors. We propose an automatic evaluation protocol called QAGS (pronounced "kags") that is designed to identify factual inconsistencies in a generated summary. QAGS is based on the intuition that if we ask questions about a summary and its source, we will receive similar answers if the summary is factually consistent with the source. To evaluate QAGS, we collect human judgments of factual consistency on model-generated summaries for the CNN/DailyMail (Hermann et al., 2015) and XSUM (Narayan et al., 2018) summarization datasets. QAGS has substantially higher correlations with these judgments than other automatic evaluation metrics. Also, QAGS offers a natural form of interpretability: The answers and questions generated while computing QAGS indicate which tokens of a summary are inconsistent and why. We believe QAGS is a promising tool in automatically generating usable and factually consistent text.

研究动机与目标

提出在抽象摘要中超越 n-gram 重叠来评估事实一致性的必要性。
提出一个框架，使用问题生成与问题回答来评估与源文本的事实对齐。
开发 QAGS，一种与人类对事实性的判断相关并通过其 QA 提示提供可解释性的度量。
示范 QAGS 对底层模型质量、领域转移和问题数量的鲁棒性。
提供消融和错误分析，以指导未来改进和对其他模态的潜在扩展。

提出的方法

定义一个三步评估框架：从摘要生成问题，使用源文本和摘要回答问题，并比较相应的答案。
以 QAGS 为例将框架具体化为：(a) 以摘要为条件的问题生成；(b) 使用抽取式 QA 模型生成答案分布；(c) 使用 token-level F1 作为答案相似性度量。
使用束搜索生成一组高概率的问题，并通过启发式方法和 QA 一致性检查过滤以确保质量。
通过对所选问题的对应答案的相似性取平均来计算 QAGS 得分。
在 CNN/DailyMail 和 XSUM 上报告与人类判断的相关性，以确立对 ROUGE、METEOR、BLEU 和 BERTScore 的优越性。
进行消融实验，以测试对 QA/QG 模型质量、领域转移、问题数量及替代相似性度量的鲁棒性。
给出定性示例，说明 QAGS 如何识别不一致之处并通过突出显示哪些词元有问题来提供可解释性。

实验结果

研究问题

RQ1QAGS 是否能够在 CNN/DailyMail 和 XSUM 上可靠地检测抽象摘要中的事实不一致？
RQ2与 ROUGE、BLEU、METEOR 和 BERTScore 等传统指标相比，QAGS 与人类对事实性的判断的相关性如何？
RQ3对 QA/QG 模型质量、领域转移和使用的问题数量的变动，QAGS 是否鲁棒？
RQ4QAGS 是否提供对摘要中哪些部分不一致的可解释洞见？
RQ5在重新排序或事实核查情境中，相较于基于 NLI 的方法，QAGS 的表现如何？

主要发现

Metric	CNN/DM	XSUM
ROUGE-1	28.74	13.22
ROUGE-2	17.72	8.95
ROUGE-L	24.09	8.86
METEOR	26.65	10.03
BLEU-1	29.68	11.76
BLEU-2	25.65	11.68
BLEU-3	23.96	8.41
BLEU-4	21.45	5.64
BERTScore	27.63	2.51
QAGS	54.53	17.49

QAGS 与人类判断的 Pearson 相关性在 CNN/DM 和 XSUM 上显著高于 ROUGE、METEOR、BLEU 和 BERTScore（例如，在 CNN/DM 上的 ROUGE-2 为 17.72、而 QAGS 为 54.53）。
QAGS 在 QA/QG 模型质量和领域转移上保持鲁棒，即使在较弱的组件下相关性也保持强。
将问题数量从 5 增加到 20 时相关性显著提升，超过约 50 个问题后回报趋于边际递减。
QAGS 在一个基于句子排序的事实一致性任务中优于基于 NLI 的方法（如 BERT NLI、ESIM、FactCC），得分为 72.1% 对 64.1–70.0% 的范围。
QAGS 通过生成的问题和答案提供可解释的输出，指示摘要中哪些词元不一致。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。