QUICK REVIEW

[论文解读] Distraction-Based Neural Networks for Document Summarization

Qian Chen, Xiaodan Zhu|arXiv (Cornell University)|Oct 26, 2016

Topic Modeling参考文献 31被引用 61

一句话总结

本文提出基于分心机制的神经网络用于抽取式文档摘要，通过允许模型在不同内容区域间动态转移注意力，以更好地捕捉文档的整体语义。该方法在无需特征工程的情况下，在长文档摘要任务中实现了最先进性能，ROUGE-1指标相对提升最高达29%。

ABSTRACT

Distributed representation learned with neural networks has recently shown to be effective in modeling natural languages at fine granularities such as words, phrases, and even sentences. Whether and how such an approach can be extended to help model larger spans of text, e.g., documents, is intriguing, and further investigation would still be desirable. This paper aims to enhance neural network models for such a purpose. A typical problem of document-level modeling is automatic summarization, which aims to model documents in order to generate summaries. In this paper, we propose neural models to train computers not just to pay attention to specific regions and content of input documents with attention models, but also distract them to traverse between different content of a document so as to better grasp the overall meaning for summarization. Without engineering any features, we train the models on two large datasets. The models achieve the state-of-the-art performance, and they significantly benefit from the distraction modeling, particularly when input documents are long.

研究动机与目标

通过建模不仅聚焦注意力，还建模对文档内容的受控分心，以改进神经文档摘要。
在标准注意力机制可能忽略整体连贯性的长篇文本中，增强全局文档理解能力。
探究分心建模是否能在无需手工特征的情况下提升抽取式摘要性能。
评估分心建模与双向RNN和多级注意力等最先进技术结合的有效性。
证明分心机制在更长文档上带来更大收益，而这些文档正是摘要需求最迫切的场景。

提出的方法

提出一种分心机制，使解码器能够不仅关注相关段落，还能在输入文档的不同部分间转移注意力。
将分心建模集成到基于门控循环单元（GRUs）的编码器-解码器框架中，实现对文档内容的动态遍历。
采用软注意力机制，既关注相关内容，又允许在远距离或相关性较低的区域之间进行受控转移。
将两级注意力和UNK标记替换等先进技术扩展至增强分心机制的模型中，以提升性能。
在大规模数据集（CNN/DailyMail 和 LCSTS）上端到端训练模型，无需特征工程。
使用ROUGE分数评估抽取式摘要性能，比较有无分心机制的模型表现。

实验结果

研究问题

RQ1分心建模能否提升神经抽取式摘要模型在长文档上的性能？
RQ2分心机制是否能在局部注意力之外增强对全局文档的理解？
RQ3分心机制的有效性如何随文档长度变化？
RQ4分心建模能否与现有最先进技术（如双向RNN和多级注意力）有效结合？
RQ5分心建模带来的性能增益在不同数据集和文档长度上是否具有一致性？

主要发现

在CNN数据集中，分心模型在长文档（平均680个词）上的ROUGE-1相对提升达29.0%，而在短文档（335个词）上为25.9%。
在长文档子集上，分心模型使ROUGE-1提升24.0%，ROUGE-L提升15.3%，显著优于基线模型。
在LCSTS数据集（文档长度约100个词）上，分心机制未带来性能提升，表明其优势在长文本中最为显著。
即使与双向GRUs和两级注意力等强基线模型结合，分心模型仍带来额外显著增益，证实其互补价值。
该模型在CNN和LCSTS数据集上均达到最先进性能，LCSTS数据集上报告了最高得分（ROUGE-1: 35.2，ROUGE-2: 22.6，ROUGE-L: 32.5）。
结果证实，分心建模增强了编码与解码之间的控制机制，提升了模型把握整体文档语义的能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。