Skip to main content
QUICK REVIEW

[论文解读] Word Embedding Attention Network: Generating Words by Querying Distributed Word Representations for Paraphrase Generation

Shuming Ma, Xu Sun|arXiv (Cornell University)|Mar 5, 2018
Topic Modeling参考文献 22被引用 7
一句话总结

本文提出词嵌入注意力网络(WEAN),一种新颖的序列到序列模型,通过查询分布式词嵌入来生成词语,以提升语义理解能力。通过用基于语义的词语生成替代模式记忆,WEAN在文本简化和抽象摘要任务上达到最先进性能,在英文数据集上分别超越基线模型6.3 BLEU和5.5 BLEU,在中文数据集上达到5.7 ROUGE-2 F1的性能提升。

ABSTRACT

Most recent approaches use the sequence-to-sequence model for paraphrase generation. The existing sequence-to-sequence model tends to memorize the words and the patterns in the training dataset instead of learning the meaning of the words. Therefore, the generated sentences are often grammatically correct but semantically improper. In this work, we introduce a novel model based on the encoder-decoder framework, called Word Embedding Attention Network (WEAN). Our proposed model generates the words by querying distributed word representations (i.e. neural word embeddings), hoping to capturing the meaning of the according words. Following previous work, we evaluate our model on two paraphrase-oriented tasks, namely text simplification and short text abstractive summarization. Experimental results show that our model outperforms the sequence-to-sequence baseline by the BLEU score of 6.3 and 5.5 on two English text simplification datasets, and the ROUGE-2 F1 score of 5.7 on a Chinese summarization dataset. Moreover, our model achieves state-of-the-art performances on these three benchmark datasets.

研究动机与目标

  • 为解决序列到序列模型在 paraphrase 生成中的局限性,即常记忆训练模式而非学习词语语义。
  • 通过将词语生成建立在分布式词表示基础上,提升生成 paraphrase 的语义正确性。
  • 开发一种能够捕捉语义而非依赖训练数据表面模式的模型。
  • 在文本简化与抽象摘要基准数据集上实现最先进性能。

提出的方法

  • WEAN采用编码器-解码器框架,其中词语生成通过查询分布式词嵌入而非仅依赖自回归解码来引导。
  • 该模型使用注意力机制,在解码过程中关注词嵌入,实现上下文感知的、基于语义的词语选择。
  • 通过计算解码器隐藏状态与预训练词嵌入之间的相似度得分来执行词语生成。
  • 注意力机制动态检索相关词语表示,促进生成句子的语义连贯性。
  • 该框架通过交叉熵损失端到端训练,以优化词语预测。
  • 该方法在英文文本简化与中文抽象摘要数据集上进行评估,以检验其泛化能力与语义保真度。

实验结果

研究问题

  • RQ1与依赖模式记忆的序列到序列模型相比,基于分布式词嵌入的词语生成是否能提升 paraphrase 生成的语义准确性?
  • RQ2在解码过程中查询词嵌入如何影响生成 paraphrase 的流畅性与语义保留性?
  • RQ3所提出方法是否能在文本简化与抽象摘要等不同 paraphrase 任务中实现泛化?
  • RQ4在 BLEU 与 ROUGE 分数方面,WEAN 相较于标准序列到序列模型在基准数据集上的性能提升程度如何?

主要发现

  • 在两个英文文本简化数据集上,WEAN 相较于序列到序列基线模型实现 6.3 BLEU 的性能提升。
  • 在第二个英文文本简化数据集上,模型 BLEU 分数提升 5.5 分,表明性能提升具有一致性。
  • 在中文抽象摘要数据集上,WEAN 相较于基线模型实现 5.7 ROUGE-2 F1 的性能提升。
  • WEAN 在所有三个评估基准数据集上均达到最先进性能:两个英文文本简化数据集与一个中文摘要数据集。
  • 结果表明,通过嵌入查询实现的基于语义的词语生成可生成更具语义准确性的 paraphrase。
  • 该模型减少了对记忆化模式的依赖,生成更具上下文相关性与语义意义的 paraphrase。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。