Skip to main content
QUICK REVIEW

[论文解读] Towards a Neural Network Approach to Abstractive Multi-Document Summarization

Jianmin Zhang, Jiwei Tan|arXiv (Cornell University)|Apr 24, 2018
Topic Modeling参考文献 27被引用 27
一句话总结

本文提出了一种新颖的迁移学习方法,将预训练的神经文本生成摘要模型应用于多文档摘要(MDS)任务,仅使用少量MDS数据进行微调。通过在单文档生成模型基础上扩展文档集编码器并引入三种适配策略,该方法在DUC基准测试中实现了最先进性能,其ROUGE和人工评估指标均优于多个神经基线模型。

ABSTRACT

Till now, neural abstractive summarization methods have achieved great success for single document summarization (SDS). However, due to the lack of large scale multi-document summaries, such methods can be hardly applied to multi-document summarization (MDS). In this paper, we investigate neural abstractive methods for MDS by adapting a state-of-the-art neural abstractive summarization model for SDS. We propose an approach to extend the neural abstractive model trained on large scale SDS data to the MDS task. Our approach only makes use of a small number of multi-document summaries for fine tuning. Experimental results on two benchmark DUC datasets demonstrate that our approach can outperform a variety of baseline neural models.

研究动机与目标

  • 为解决大规模多文档摘要数据稀缺的问题,该问题阻碍了神经生成式模型在MDS任务上的端到端训练。
  • 探究尽管存在领域和数据分布差异,预训练的单文档生成式模型是否能被有效适配至MDS任务。
  • 提出一种框架,通过引入文档集编码器和少量MDS标注数据的微调策略,提升模型的可迁移性。
  • 在标准DUC基准数据集上评估所提方法的有效性,并与多种神经生成式及抽取式基线模型进行比较。

提出的方法

  • 通过引入文档集编码器,将预训练的序列到序列生成式摘要模型从单文档设置迁移至多文档设置,该编码器可将多篇输入文档聚合为统一的上下文表征。
  • 提出三种适配策略:(1) 在小规模MDS数据集上微调整个模型,(2) 冻结编码器仅微调解码器,(3) 使用分层注意力机制,以更好地对齐摘要生成与多文档内容。
  • 采用分层编码器-解码器架构,其中编码器分别处理文档集中的每篇文档,再融合其表征供解码器使用。
  • 利用注意力机制,在摘要生成过程中动态聚焦于多篇文档中的相关句子。
  • 通过使用大规模单文档摘要预训练设置的权重初始化模型,实现迁移学习。
  • 基于验证集的ROUGE分数应用早停法和模型选择策略,以防止在小规模MDS微调数据上过拟合。

实验结果

研究问题

  • RQ1尽管数据稀缺,预训练的神经生成式摘要模型是否能被有效迁移至多文档摘要任务?
  • RQ2为提升从单文档到多文档摘要的迁移性能,需要哪些架构和训练上的修改?
  • RQ3使用少量多文档摘要进行微调,对提升预训练生成式模型性能有多有效?
  • RQ4文档集编码器在建模跨文档连贯性与信息融合方面起到何种作用?
  • RQ5在自动评估与人工评估指标上,该方法与抽取式及神经生成式基线模型相比表现如何?

主要发现

  • 所提方法在DUC 2002测试集上达到ROUGE-1为34.0,ROUGE-L为11.4,优于所有基线模型。
  • 在DUC 2004数据集上,模型取得ROUGE-1为36.7,ROUGE-L为12.4,展现出对基线模型的一致性优势。
  • 人工评估显示,该模型在连贯性上得分为3.76,非冗余性为3.92,可读性为4.08,显著高于其他生成式方法。
  • 消融实验确认,文档集编码器和使用MDS数据进行微调对性能提升至关重要。
  • 模型生成的摘要流畅、连贯且无冗余,能有效捕捉多篇源文档的关键信息。
  • 案例研究显示,该模型能够生成简洁、信息丰富且结构良好的摘要,准确反映输入文档集的核心内容。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。