QUICK REVIEW

[论文解读] Efficient Summarization with Read-Again and Copy Mechanism

Wenyuan Zeng, Wenjie Luo|arXiv (Cornell University)|Nov 10, 2016

Topic Modeling参考文献 19被引用 82

一句话总结

本文提出了一种'重读'编码器和一种新型复制机制，以提升抽取式文本摘要的质量。重读模型对输入序列进行两次处理，使每个词的表征能够基于完整上下文进行条件化，而复制机制则允许使用极小的解码器词表（低至2k），并高效处理OOV词，将解码时间减少80%，在Gigaword和DUC数据集上实现了最先进（SOTA）的ROUGE得分。

ABSTRACT

Encoder-decoder models have been widely used to solve sequence to sequence prediction tasks. However current approaches suffer from two shortcomings. First, the encoders compute a representation of each word taking into account only the history of the words it has read so far, yielding suboptimal representations. Second, current decoders utilize large vocabularies in order to minimize the problem of unknown words, resulting in slow decoding times. In this paper we address both shortcomings. Towards this goal, we first introduce a simple mechanism that first reads the input sequence before committing to a representation of each word. Furthermore, we propose a simple copy mechanism that is able to exploit very small vocabularies and handle out-of-vocabulary words. We demonstrate the effectiveness of our approach on the Gigaword dataset and DUC competition outperforming the state-of-the-art.

研究动机与目标

解决标准RNN编码器中仅基于从左到右上下文进行条件化而导致的词表征质量不佳的问题。
通过最小化解码器词表大小，减少序列到序列模型的解码时间。
在不依赖大词表的前提下，有效处理未登录词（OOV）。
在Gigaword和DUC等基准数据集上提升抽取式摘要的性能。
通过合理设计的复制机制，在保持或提升ROUGE得分的同时，实现更快的推理速度。

提出的方法

提出一种'重读'机制，即编码器对输入序列执行两次遍历：第一次遍历生成初始表征，第二次遍历利用第一次的结果，结合完整上下文对词表征进行精细化。
两次遍历均使用双向RNN（LSTM/GRU），且第一次遍历的隐藏状态用于初始化第二次遍历的初始状态。
引入一种复制机制，使解码器在生成过程中可直接从输入序列复制罕见或OOV词。
采用小规模解码器词表（例如2k），并使用软注意力机制判断是应从词表生成还是从输入复制。
复制机制通过门控机制计算复制概率，该机制关注输入词，从而实现对命名实体、罕见名词、形容词和动词等的精确复制。
模型采用端到端训练，使用交叉熵损失，并联合优化生成与复制决策。

实验结果

研究问题

RQ1两遍编码器架构是否能通过在确定表征前整合完整序列上下文，有效提升词表征质量？
RQ2轻量级复制机制在不损害摘要质量的前提下，是否能显著减少解码器词表大小？
RQ3复制机制在抽取式摘要中对OOV词的处理能力有多强？
RQ4在摘要模型中，解码器词表大小与ROUGE性能之间的权衡关系如何？
RQ5重读与复制机制的结合是否能显著降低解码时间，同时保持最先进性能？

主要发现

重读模型在DUC 2004和Gigaword数据集上实现了最先进（SOTA）的ROUGE得分，优于先前的SOTA方法。
通过复制机制，即使使用2k的解码器词表，模型仍能保持高ROUGE得分，仅比69k词表下降2-3分。
当使用2k词表时，解码时间从每句0.38秒降至0.08秒，提速79%。
复制机制成功复制了包括命名实体（如'Ansett'）、形容词和动词在内的罕见词，提升了摘要的流畅性与准确性。
可视化结果表明，模型能从输入中复制关键术语，如'headmaster'、'paedophilia'和'angola'，有效保持语义一致性。
对复制词（如'headmaster'）学习到的嵌入表征与标准对应词（如'teacher'）在语义上相近，表明模型具备有效的表征学习能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。