[论文解读] SummaC: Re-Visiting NLI-based Models for Inconsistency Detection in Summarization
本文通过将输入粒度与文档级不一致性对齐,重新审视基于NLI的摘要不一致检测,提出SummaC Conv,并标准化SummaC基准,在六数据集上取得强劲结果。
In the summarization domain, a key requirement for summaries is to be factually consistent with the input document. Previous work has found that natural language inference (NLI) models do not perform competitively when applied to inconsistency detection. In this work, we revisit the use of NLI for inconsistency detection, finding that past work suffered from a mismatch in input granularity between NLI datasets (sentence-level), and inconsistency detection (document level). We provide a highly effective and light-weight method called SummaCConv that enables NLI models to be successfully used for this task by segmenting documents into sentence units and aggregating scores between pairs of sentences. On our newly introduced benchmark called SummaC (Summary Consistency) consisting of six large inconsistency detection datasets, SummaCConv obtains state-of-the-art results with a balanced accuracy of 74.4%, a 5% point improvement compared to prior work. We make the models and datasets available: https://github.com/tingofurro/summac
研究动机与目标
- 出于对包含输入文档的事实性一致摘要的需求的推动。
- 提出一种轻量级、粒度感知的方法,以利用NLI模型进行不一致性检测。
- 标准化并发布覆盖六个大型不一致数据集的综合 SummaC 基准。
- 证明适当的粒度和聚合可以提升基于NLI的不一致检测性能。
- 就实际不一致检测器的模型选择与粒度提供指导。
提出的方法
- 通过将文档和摘要分割成句子块并对每对进行NLI模型评估,生成NLI对矩阵。
- 提供两种聚合变体:SummaC ZS(零样本)使用最大值后取平均,以及 SummaC Conv 使用对蕴涵得分直方图的训练卷积层进行聚合。
- 在合成训练数据(FactCC)上端到端训练 SummaC Conv,参数预算较小(50个分箱)并使用交叉熵损失。
- 将六个大型不一致数据集标准化为二分类任务,形成 SummaC 基准。
- 将 SummaC 模型与包括 NER-Overlap、MNLI-doc、FactCC-CLS、DAE、FEQA、QuestEval 等在内的广泛基线进行比较。
- 分析NLI模型选择、NLI类别使用和粒度对性能的影响。
实验结果
研究问题
- RQ1当输入被分割为句子级前提和假设时,NLI模型是否能有效检测摘要不一致性?
- RQ2在使用句子级蕴涵分数进行聚合时,是否比仅使用单一最大分数更具鲁棒性?
- RQ3粒度与NLI类别选择如何影响在不同数据集上的不一致检测性能?
- RQ4零样本与经过训练的聚合方法在不一致检测中的相对表现如何?
- RQ5SummaC 模型在标准化的多数据集基准上的表现如何?
主要发现
- SummaC Conv 在 SummaC 基准上达到最佳的总体平衡准确度74.4%,较前代工作提升约5个百分点。
- SummaC 模型在基准中的大多数数据集上持续超越之前的不一致检测器。
- 粒度很重要:更细的文档粒度和句子级分析比全文或粗粒度获得更高的性能。
- 默认的NLI模型组合(MNLI 与 Vitamin C)配合 SummaC Conv,提供了强结果,强化了NLI进展与改进不一致检测之间的联系。
- 使用蕴涵分数的完整分布(SummaC Conv)比依赖单一最大分数(SummaC ZS)更具鲁棒性。
- SummaC Conv 在所有评估方法中达到最佳平均性能,在若干数据集上具有统计显著的提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。