Skip to main content
QUICK REVIEW

[论文解读] Structure-Infused Copy Mechanisms for Abstractive Summarization

Kaiqiang Song, Lin Zhao|arXiv (Cornell University)|Jun 14, 2018
Topic Modeling被引用 52
一句话总结

本文提出将结构信息融入复制机制的模型,在抽象式摘要中向复制机制注入源句法信息,从而更好保持意思并在 Gigaword 上超越基线。它评估了多种架构,并在 ROUGE 指标和人工评估中显示出提升。

ABSTRACT

Seq2seq learning has produced promising results on summarization. However, in many cases, system summaries still struggle to keep the meaning of the original intact. They may miss out important words or relations that play critical roles in the syntactic structure of source sentences. In this paper, we present structure-infused copy mechanisms to facilitate copying important words and relations from the source sentence to summary sentence. The approach naturally combines source dependency structure with the copy mechanism of an abstractive sentence summarizer. Experimental results demonstrate the effectiveness of incorporating source-side syntactic information in the system, and our proposed approach compares favorably to state-of-the-art methods.

研究动机与目标

  • 动机:源文本中的罕见句法结构可能导致神经摘要模型的含义丢失。
  • 提出结构融入的复制机制,以在摘要中保留重要的源词和依存关系。
  • 比较结构嵌入的不同集成架构(输入端 Struct+Input 与隐藏端 Struct+Hidden)以及两种双向语义-结构显著性模型。
  • 在 Gigaword 数据集上使用 ROUGE 指标和人工评估来评估有效性。
  • 提供关于哪些结构信号和架构在摘要中最佳保持含义的洞见。

提出的方法

  • 构建一个带有两层双向 LSTM 编码器和基于注意力的解码器的编码器-解码器模型。
  • 引入一个复制机制(指针-生成器风格),根据生成开关 p_gen 在词汇表生成和从源复制之间混合。
  • 通过添加结构嵌入(六类)来引入结构融入的复制机制,以注入诸如依存深度、边标签、词性标签和位置特征等句法信息。
  • 比较两种浅层集成策略:Struct+Input(将结构与词输入拼接)和 Struct+Hidden(将结构与编码器隐藏状态拼接)。
  • 开发两种双向架构:2Way+Word(使用联合 delta 将语义注意力 alpha 与结构注意力 beta 结合)和 2Way+Relation(同样但使用依存边表示,包括父特征和关系显著性)。
  • 应用基于覆盖的正则化以鼓励一对一注意力,并在必要时使用同时带有参考机制的束搜索以提升与源内容的对齐。

实验结果

研究问题

  • RQ1将源端句法结构融入复制机制是否能提升摘要的保真度,相较基线?
  • RQ2结构嵌入的哪种集成点(Struct+Input 与 Struct+Hidden)在性能与效率上表现更好?
  • RQ3将语义显著性与结构显著性(Word 版本或 Relation 版本)结合的双向模型是否优于单注意力基线?
  • RQ4结构提示对在生成摘要中保留依存关系的影响如何?
  • RQ5在 Gigaword 上,结构融入模型在 ROUGE 指标和人工评估上与最先进系统相比如何?

主要发现

数据集系统R-1R-2R-L
Gigaword Valid-2000Baseline42.4821.3440.18
Gigaword Valid-2000Struct+Input42.4421.7540.46
Gigaword Valid-2000Struct+Hidden42.8821.8140.63
Gigaword Valid-2000Struct+2Way+Word43.2121.8440.86
Gigaword Valid-2000Struct+2Way+Relation42.8321.8540.60
Gigaword Test-1951ABS (Rush et al.)29.5511.3226.42
Gigaword Test-1951ABS+ (Rush et al.)29.7611.8826.96
Gigaword Test-1951Luong-NMT33.1014.4530.71
Gigaword Test-1951RAS-LSTM32.5514.7030.03
Gigaword Test-1951RAS-Elman33.7815.9731.15
Gigaword Test-1951ASC+FSC134.1715.9431.92
Gigaword Test-1951lvt2k-1sent32.6715.5930.64
Gigaword Test-1951lvt5k-1sent35.3016.6432.62
Gigaword Test-1951Multi-Task w/ Entailment32.7515.3530.82
Gigaword Test-1951DRGD36.2717.5733.62
Gigaword Test-1951Baseline (this paper)35.4317.4933.39
Gigaword Test-1951Struct+Input35.3217.5033.25
Gigaword Test-1951Struct+2Way+Relation35.4617.5133.28
Gigaword Test-1951Struct+Hidden35.4917.6133.33
Gigaword Test-1951Struct+2Way+Word35.4717.6633.52
  • 所有结构融入模型在 Gigaword valid-2000 的 ROUGE 指标上均优于基线复制机制。
  • Struct+Hidden 优于 Struct+Input,尽管参数更少,表明与编码器状态的直接集成更有效。
  • 2Way+Word 模型在 valid-2000 上获得最高的 ROUGE 分数(R-1: 43.21, R-2: 21.84, R-L: 40.86)。
  • 在 Gigaword test-1951 数据集上,结构融入模型的 ROUGE 分数与多种最先进系统相当甚至超越;Struct+2Way+Word 变体显示出强劲性能。
  • 在人类评估中,Struct+2Way+Relation 相对于 Struct+Input 在信息量、流畅性和忠实性方面具有优势;同时与真值摘要相比也取得了有竞争力的结果。
  • 依存关系保持分析表明,结构融入方法比不那么信息性的方法更频繁地保持重要关系(nsubj、dobj、amod、nmod、nmod:poss),而较少保留(mark、case、conj、cc、det)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。