QUICK REVIEW

[论文解读] A Deep Reinforced Model for Abstractive Summarization

Romain Paulus, Caiming Xiong|arXiv (Cornell University)|May 11, 2017

Topic Modeling参考文献 39被引用 1,273

一句话总结

这篇论文提出了一种具备输入内注意力的神经抽象摘要模型（在输入和生成的输出上）以及将监督学习交叉熵与强化学习结合的混合学习目标，在 CNN/Daily Mail 上取得最先进的 ROUGE，并在 NYT 上取得强劲结果，同时提高可读性。

ABSTRACT

Attentional, RNN-based encoder-decoder models for abstractive summarization have achieved good performance on short input and output sequences. For longer documents and summaries however these models often include repetitive and incoherent phrases. We introduce a neural network model with a novel intra-attention that attends over the input and continuously generated output separately, and a new training method that combines standard supervised word prediction and reinforcement learning (RL). Models trained only with supervised learning often exhibit "exposure bias" - they assume ground truth is provided at each step during training. However, when standard word prediction is combined with the global sequence prediction training of RL the resulting summaries become more readable. We evaluate this model on the CNN/Daily Mail and New York Times datasets. Our model obtains a 41.16 ROUGE-1 score on the CNN/Daily Mail dataset, an improvement over previous state-of-the-art models. Human evaluation also shows that our model produces higher quality summaries.

研究动机与目标

解决长文档抽象摘要中存在的重复短语问题。
开发一个在输入与生成输出上跟踪注意力的内部注意力编码-解码架构，以减少重复。
通过在混合目标中结合有监督学习与强化学习来缓解暴露偏差。
提升长篇摘要的可读性与连贯性，超越纯粹的最大似然训练。

提出的方法

在输入序列上引入内部时序注意力，以在解码步骤之间多样化关注焦点。
添加内部解码器注意力以跟踪先前生成的标记并减少重复。
加入指针-生成器机制，以从源文本复制罕见或未见词汇。
共享解码器和嵌入权重以提升输出生成。
应用自我批评强化学习目标（以及混合 ML/RL 目标）以优化 ROUGE，同时保持可读性。
在测试时对束搜索强加约束，避免输出重复的三元组。

实验结果

研究问题

RQ1输入序列上的内部时序注意力和内部解码器注意力能否减少长篇抽象摘要中的重复？
RQ2将有监督学习与强化学习结合（以及混合目标）是否同时提升长摘要的 ROUGE 得分与可读性？
RQ3与现有工作相比，该模型在 CNN/Daily Mail 与 NYT 的抽象摘要任务上的表现如何？
RQ4这些技术对人类评估的可读性与相关性有何影响？

主要发现

该模型在 CNN/Daily Mail 上实现了 41.16 的 ROUGE-1，超过了先前的最先进基线。
强化学习（RL）提升 ROUGE 分数，但可能降低可读性，而混合 ML+RL 目标则带来更高的可读性和具有竞争力的 ROUGE。
内部解码器注意力在 CNN/Daily Mail 的较长真实摘要上提升 ROUGE-1，但在 NYT 上并不提升，表明效益依赖于输出长度。
在 NYT 上，具有内部注意力的 ML+RL 设置取得强劲的 ROUGE 指标，超越了若干提取式基线和先前的抽象式模型。
人工评估显示仅使用 RL 的可读性较低，而 ML+RL 实现了最佳的可读性与相关性平衡。
内部注意力与混合训练的结合对长序列摘要特别有益，且可以扩展到其他长序列生成任务。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。