[论文解读] SummaRuNNer: A Recurrent Neural Network based Sequence Model for Extractive Summarization of Documents
SummaRuNNer 是一个基于双向 GRU 的两层序列分类器,用于抽取式文档摘要,能够达到最先进或具有竞争力的结果,并提供对其决策的可解释分析。它还引入抽象性训练,以在没有句子级标签的情况下从抽象摘要学习。
We present SummaRuNNer, a Recurrent Neural Network (RNN) based sequence model for extractive summarization of documents and show that it achieves performance better than or comparable to state-of-the-art. Our model has the additional advantage of being very interpretable, since it allows visualization of its predictions broken up by abstract features such as information content, salience and novelty. Another novel contribution of our work is abstractive training of our extractive model that can train on human generated reference summaries alone, eliminating the need for sentence-level extractive labels.
研究动机与目标
- 开发一个端到端的神经网络模型用于对单文档进行句子级抽取式摘要。
- 在大型数据集上提高性能,使其优于或接近现有最先进的抽取式方法。
- 通过将决策归因于明确的抽象特征(如内容、显著性和新颖性)来提供可解释性。
- 提出抽象训练,使其能够在没有句子级抽取标签的情况下从抽象摘要学习。
提出的方法
- 将任务建模为使用两层双向 GRU RNN 的序列句子级二分类。
- 底部的逐字级 GRU 捕捉句内表示;顶部的句子级双向 GRU 对句子表示进行编码,以获得文档级上下文。
- 句子分类使用带有信息内容、显著性、新颖性、绝对与相对位置特征的逻辑回归层。
- 摘要状态 s_j 是过去句子表示的加权累积,用于在预测时引导冗余和相关性。
- 用提取标签的负对数似然进行训练;通过基于贪心 Rouge 的优化从抽象摘要派生抽取标签(抽象训练),或使用真实的提取标签(提取训练)。
- 在抽象训练时,将解码器耦合以建模参考摘要词,并通过摘要表示反向传播以影响抽取概率。
实验结果
研究问题
- RQ1基于循环神经网络的序列分类器是否能够以端到端的方式有效执行单文档抽取式摘要?
- RQ2将内容、显著性、新颖性和位置信息等特征结合后,是否比基线方法能提高抽取式摘要的质量?
- RQ3是否可以使用抽象训练信号在没有句子级抽取标签的情况下训练抽取模型,同时保持性能?
- RQ4SummaRuNNer 相对于在大规模 CNN/Daily Mail 和 DUC 2002 数据集上的最先进模型的表现如何?
- RQ5通过明确的特征驱动决策过程可以获得哪些可解释性洞察?
主要发现
- SummaRuNNer 在基准测试上实现的性能优于或可与最先进的抽取式模型相当。
- 在 Daily Mail 数据集上,抽取式训练相较于竞争性的抽象设置,在长度受限的 Rouge 指标上取得统计显著的改进。
- 在 CNN/Daily Mail 语料库上,SummaRuNNer 在全长 Rouge 指标上显著优于一个抽象式的编码-解码模型。
- 该模型通过分类分数中的独立内容、显著性、新颖性和位置分量,提供对决策的可解释可视化。
- 抽象训练减少了对句子级抽取标签的需求,但在大多数数据集上往往落后于提取训练模型。
- 在域外 DUC 2002 数据上,SummaRuNNer 与可比模型相当,但通常落后于像 TGRAPH 和 URANK 这样的基于图的方法,凸显了深度学习抽取方法的领域鲁棒性问题。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。