Skip to main content
QUICK REVIEW

[论文解读] Convolutional Sequence to Sequence Learning

Jonas Gehring, Michael Auli|arXiv (Cornell University)|May 8, 2017
Topic Modeling参考文献 37被引用 1,901
一句话总结

引入了一种全卷积的序列到序列模型,使用门控线性单元和逐层注意力,在多项翻译任务上达到最先进的BLEU,并且训练/推理速度比基于RNN的对手更快。

ABSTRACT

The prevalent approach to sequence to sequence learning maps an input sequence to a variable length output sequence via recurrent neural networks. We introduce an architecture based entirely on convolutional neural networks. Compared to recurrent models, computations over all elements can be fully parallelized during training and optimization is easier since the number of non-linearities is fixed and independent of the input length. Our use of gated linear units eases gradient propagation and we equip each decoder layer with a separate attention module. We outperform the accuracy of the deep LSTM setup of Wu et al. (2016) on both WMT'14 English-German and WMT'14 English-French translation at an order of magnitude faster speed, both on GPU and CPU.

研究动机与目标

  • 证明一个全卷积的编码器-解码器在大规模翻译任务上可以超越循环神经网络序列到序列模型。
  • 展示具备门控和残差连接的并行卷积架构能够有效建模长距离依赖。
  • 评估位置嵌入、多步注意力以及卷积核深度/宽度对翻译与摘要任务性能的影响。
  • 评估相对于强基线RNN模型的生成速度和可扩展性。

提出的方法

  • 使用完全卷积的编码器-解码器架构。
  • 将门控线性单元(GLU)作为非线性激活并结合残差连接。
  • 在每个解码器层中加入多步注意力,并将输入嵼与编码器输出相加。
  • 使用位置嵌入来编码输入/输出的绝对位置,并采用填充策略以在解码器中保持因果性。
  • 以标记级似然目标进行训练,推断时使用束搜索。
  • 在WMT’16英语-罗马尼亚语、WMT’14英语-德语、WMT’14英语-法语以及Gigaword的抽象摘要任务上进行评估。

实验结果

研究问题

  • RQ1一个全卷积的序列到序列模型是否能够在大规模翻译基准上达到甚至超过最先进的基于RNN的模型?
  • RQ2在每个解码器层中引入多层注意力是否能提升翻译质量和训练稳定性?
  • RQ3位置嵌入、卷积核宽度/深度以及训练策略对性能和速度的影响如何?
  • RQ4在GPU/CPU上的生成速度与GNMT类架构相比,ConvS2S模型的表现如何?
  • RQ5该方法是否能有效扩展到抽象摘要任务?

主要发现

  • 在可比设置下,ConvS2S 在WMT’14英语-德语上比 Wu 等人(2016)的深层LSTM多出0.5 BLEU,在WMT’14英语-法语上多出1.6 BLEU。
  • 在WMT’16英语-罗马尼亚语(使用BPE词汇表)上,ConvS2S取得29.45–30.02 BLEU,而此前冠军为28.1 BLEU。
  • ConvS2S 在WMT’16英语-罗马尼亚语、WMT’14英语-德语、WMT’14英语-法语翻译任务上取得新的最先进水平,并且在GPU/CPU环境下对未见句子的翻译速度比Wu等人(2016)快一个数量级。
  • 多层注意力(所有解码器层)带来最佳困惑度和BLEU分数,对注意力模块的开销很小。
  • 增加编码器深度带来逐步的准确性提升,而更深的解码器收益递减;窄卷积核配合更多层往往优于更宽的卷积核。
  • 由八个 ConvS2S 模型组成的集成在WMT’14英语-德语和英语-法语上超过了之前的强集成方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。