Skip to main content
QUICK REVIEW

[论文解读] Query Focused Abstractive Summarization: Incorporating Query Relevance, Multi-Document Coverage, and Summary Length Constraints into seq2seq Models

Tal Baumel, Matan Eyal|arXiv (Cornell University)|Jan 23, 2018
Topic Modeling参考文献 18被引用 67
一句话总结

本文提出 RSA-QFS,一种将查询相关性注入到预训练的抽象序列到序列模型中的查询聚焦多文档摘要方法,使用迭代多文档方法和长度自适应,在不进行额外训练的情况下,取得与基于抽取的基线相当的 ROUGE 分数。

ABSTRACT

Query Focused Summarization (QFS) has been addressed mostly using extractive methods. Such methods, however, produce text which suffers from low coherence. We investigate how abstractive methods can be applied to QFS, to overcome such limitations. Recent developments in neural-attention based sequence-to-sequence models have led to state-of-the-art results on the task of abstractive generic single document summarization. Such models are trained in an end to end method on large amounts of training data. We address three aspects to make abstractive summarization applicable to QFS: (a)since there is no training data, we incorporate query relevance into a pre-trained abstractive model; (b) since existing abstractive models are trained in a single-document setting, we design an iterated method to embed abstractive models within the multi-document requirement of QFS; (c) the abstractive models we adapt are trained to generate text of specific length (about 100 words), while we aim at generating output of a different size (about 250 words); we design a way to adapt the target size of the generated summaries to a given size ratio. We compare our method (Relevance Sensitive Attention for QFS) to extractive baselines and with various ways to combine abstractive models on the DUC QFS datasets and demonstrate solid improvements on ROUGE performance.

研究动机与目标

  • 推动面向查询聚焦摘要(QFS)的抽象方法,以在连贯性方面优于抽取方法。
  • 在不重新训练的情况下,将一个预训练的单文档抽象模型适配到多文档 QFS 设置。
  • 在注意力机制中加入显式的查询相关性以引导生成。
  • 开发一个迭代的多文档摘要过程,以生成更长的输出(约 250 字)。
  • 与抽取基线进行比较评估,并分析相关性质量对性能的影响。

提出的方法

  • 以带覆盖机制的预训练指针-生成器为基础的抽象模型。
  • 在注意力中引入相关性:在 softmax 之前,将未归一化的注意力分数乘以句子/单词相关性分数(Rel_i)。
  • 对相关性分数进行刻度校准以维持 softmax 的尺度(将余弦相似度乘以 10)。
  • 探索相关性模型(字数、TF-IDF、Word2vec)以及基于金标准摘要的 Oracle 上界。
  • 实现一个迭代算法:通过 TF-IDF 与查询相关性选择相关文档,并聚合抽象输出,直到达到 250 字预算为止,同时去除冗余句子。

实验结果

研究问题

  • RQ1具相关性感知的抽象模型能否在 QFS 上超越简单过滤或黑箱式抽象系统?
  • RQ2将相关性注入到注意力机制是否能比对输入句子进行过滤得到更好的一致性和相关性?
  • RQ3相关性模型的质量如何影响 RSA-QFS 在单文档和多文档输入上的表现?
  • RQ4迭代式多文档 RSA-QFS 方法是否能产出更长且连贯的摘要,达到与抽取式 QFS 基线相当的水平?
  • RQ5相对于抽取方法,RSA-QFS 的潜在上界(Oracle 相关性)是什么?

主要发现

  • 在单文档场景中,RSA-QFS 在 DUC 2005–2007 数据集上显著提升了相对于 Filtered 基线的 ROUGE。
  • 字数相关性模型在所测试的相关性方法中提供了最佳的单文档 ROUGE 增益;Word2vec 接近,TF-IDF 表现较差。
  • 与最先进的抽取方法(CES)相比,Iterative RSA Word Count 和 Iterative RSA Oracle 达到有竞争力的 ROUGE 分数,Oracle 显示出显著的上界提升。
  • 在 Debatepedia 中,RSA-QFS 产出可读的摘要,召回 ROUGE 高于领域端对端模型,尽管数据集存在差异。
  • 生成句子中有相当一部分(大约三分之一)并非直接来自输入,表明确实具备抽象性;但迭代版本的连贯性需改进。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。