Skip to main content
QUICK REVIEW

[论文解读] Learning-Based Single-Document Summarization with Compression and Anaphoricity Constraints

Greg Durrett, Taylor Berg-Kirkpatrick|arXiv (Cornell University)|Mar 29, 2016
Topic Modeling参考文献 47被引用 32
一句话总结

本文提出了一种判别式、端到端学习的单文档抽象摘要模型,通过整合句法和话语层级的压缩约束以及回指消解,以提升摘要的流畅性和连贯性。通过在纽约时报注释语料库上使用基于ILP的推理,联合优化ROUGE得分与语言质量,该系统在自动评估和人工评估中均优于强基线模型,在内容覆盖方面达到最先进水平,同时保持了高连贯性。

ABSTRACT

We present a discriminative model for single-document summarization that integrally combines compression and anaphoricity constraints. Our model selects textual units to include in the summary based on a rich set of sparse features whose weights are learned on a large corpus. We allow for the deletion of content within a sentence when that deletion is licensed by compression rules; in our framework, these are implemented as dependencies between subsentential units of text. Anaphoricity constraints then improve cross-sentence coherence by guaranteeing that, for each pronoun included in the summary, the pronoun's antecedent is included as well or the pronoun is rewritten as a full mention. When trained end-to-end, our final system outperforms prior work on both ROUGE as well as on human judgments of linguistic quality.

研究动机与目标

  • 为解决单文档摘要的挑战,该任务缺乏文档间的冗余性,且比多文档摘要更难建模。
  • 通过句法和修辞结构约束强制语法正确性,以提升摘要的流畅性与连贯性。
  • 通过确保代词要么共指,要么重写为完整名词短语,提升指代清晰度。
  • 开发一种高容量、端到端可训练的模型,联合优化内容选择、压缩与回指消解。
  • 在自动(ROUGE)与人工语言质量判断上评估模型,证明其在性能上优于启发式与先前学习基线模型。

提出的方法

  • 该模型使用整数线性规划(ILP)框架,基于学习到的稀疏特征选择文本单元(从完整句子到子句级成分)。
  • 通过句法和话语结构理论(RST)解析中的文本单元依赖关系实现压缩,允许删除非必要从句(如解释性成分或修饰语)。
  • 使用二值变量建模回指性约束,控制代词是否保留或重写为完整名词短语,确保先行词被包含。
  • 通过在纽约时报注释语料库上进行端到端特征学习,联合优化ROUGE与语言质量。
  • 模型整合句法解析、RST解析与共指消解约束,以确保语法正确性与连贯性。
  • 通过ILP高效执行推理,使系统能够在内容覆盖、压缩与指代清晰度之间取得平衡。

实验结果

研究问题

  • RQ1一个统一的模型能否有效整合压缩与回指消解,以同时提升单文档摘要的ROUGE得分与语言质量?
  • RQ2在大规模语料上进行端到端学习,与启发式或基于规则的方法相比,在内容选择与流畅性方面表现如何?
  • RQ3句法与话语层级的压缩约束在不牺牲内容覆盖的前提下,能在多大程度上提升语法正确性?
  • RQ4通过包含先行词或重写代词来强制执行回指消解,是否能产生比允许自由使用代词更连贯的摘要?
  • RQ5该模型在不同评估设置(包括大规模与小规模数据集)下的表现如何变化?

主要发现

  • 在RST话语树库上,完整系统在ROUGE-1(26.3 vs. 23.5)与ROUGE-2(8.0 vs. 8.3)上均优于句子前缀基线与二元语法覆盖基线。
  • 移除回指约束后,ROUGE略有提升,但显著损害了语言质量,尤其在代词清晰度方面,表明连贯性约束对流畅性至关重要。
  • 包含完整压缩(句法与话语)的系统在ROUGE上显著优于无此组件的消融实验,表明压缩灵活性可提升内容覆盖。
  • 在NYT50语料上,完整系统在ROUGE上优于Tree Knapsack方法,且在内容选择上优于所有基线,同时语言质量接近句子抽取式基线。
  • 人工评估显示,与无约束模型相比,该系统显著减少了指代不清的代词,其指代清晰度表现接近句子抽取式基线。
  • 该系统已公开发布于 http://nlp.cs.berkeley.edu,支持可复现性与进一步研究。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。