QUICK REVIEW

[论文解读] Classify or Select: Neural Architectures for Extractive Document Summarization

Ramesh Nallapati, Bowen Zhou|arXiv (Cornell University)|Nov 14, 2016

Topic Modeling参考文献 17被引用 82

一句话总结

本文提出了两种新颖的基于RNN的神经架构——Classifier与Selector，用于抽取式文档摘要。Classifier按原文顺序依次评估句子是否应被包含，而Selector则以任意顺序动态选择关键句子，联合建模关键性、冗余性和内容丰富度。两种模型在DUC 2002和Daily Mail数据集上均达到最先进性能，当文档结构被破坏时，Selector优于Classifier。

ABSTRACT

We present two novel and contrasting Recurrent Neural Network (RNN) based architectures for extractive summarization of documents. The Classifier based architecture sequentially accepts or rejects each sentence in the original document order for its membership in the final summary. The Selector architecture, on the other hand, is free to pick one sentence at a time in any arbitrary order to piece together the summary. Our models under both architectures jointly capture the notions of salience and redundancy of sentences. In addition, these models have the advantage of being very interpretable, since they allow visualization of their predictions broken up by abstract features such as information content, salience and redundancy. We show that our models reach or outperform state-of-the-art supervised models on two different corpora. We also recommend the conditions under which one architecture is superior to the other based on experimental evidence.

研究动机与目标

开发可解释的神经架构，用于抽取式文档摘要，明确建模关键性、冗余性和内容丰富度。
比较两种不同的神经策略——顺序分类与动态选择——在摘要中句子选择上的表现。
评估文档结构对模型性能的影响，并识别每种架构在何种条件下表现更优。
提供一种基于抽象特征（如关键性与冗余性）的模型决策可视化框架。
在保持可解释性的前提下，通过显式特征建模提升抽取式摘要的性能。

提出的方法

使用双向GRU将每个句子编码为稠密表示，随后在句子索引上使用第二个双向GRU以捕获文档级别的上下文。
通过关键性（与文档表示的余弦相似度）、冗余性（与摘要表示的余弦相似度）、内容丰富度和位置重要性的加权组合，计算每个句子的综合得分。
在Classifier架构中使用二分类头，按原文档顺序预测句子是否应被包含在摘要中。
在Selector架构中实现一个生成式、自回归解码器，逐个预测句子索引，从而实现非顺序选择。
在推理过程中集成一个动态摘要表示，随摘要状态演变，以惩罚冗余选择。
使用可学习的加权得分函数：score = w_c·σ(W_c^T·h_j) + w_s·cos(h_j,d) + w_p·σ(W_p^T·p_j) - w_r·σ(cos(h_j,s_j)) + b，其中h_j为句子表示，d为文档表示，s_j为摘要表示，p_j为位置嵌入。

实验结果

研究问题

RQ1在结构化与非结构化文档上，Classifier与Selector架构的性能表现如何比较？
RQ2当文档语篇结构缺失时，能否证明动态选择（Selector）相比顺序选择（Classifier）具有性能优势？
RQ3关键性、冗余性和内容丰富度在多大程度上可以被显式建模并可视化，以提升摘要决策的可解释性？
RQ4神经模型能否在联合优化关键性与冗余性的同时，保持在标准基准上的高ROUGE分数？
RQ5当在Daily Mail上预训练后，于分布外数据（如DUC 2002）上微调时，这些模型对领域偏移的鲁棒性如何？

主要发现

Deep-Classifier模型在Daily Mail数据集上达到ROUGE-L分数43.1 ± 0.9，与Cheng & Lapata (2016)在95%置信区间内无统计学差异。
在DUC 2002数据集上，Deep-Classifier达到ROUGE-L分数42.3，优于基线模型如Lead-3（40.2）和LReg（40.3）。
当文档句子顺序被随机打乱时，Selector架构优于Classifier架构，分别达到ROUGE-L 32.5与32.9，表明其对结构破坏具有更强鲁棒性。
在打乱数据上，Selector模型达到ROUGE-L 33.5，而Classifier模型下降至32.9，证实无结构依赖的选择策略在语篇顺序丢失时更具优势。
定性分析表明，可通过特征加权注意力解释模型，学习到的权重揭示了关键性、冗余性和位置的相对重要性。
模型在结构化数据（如新闻文章）和非结构化数据（如推文聚类）上均表现强劲，其中Selector架构在低结构场景下尤为有效。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。