Skip to main content
QUICK REVIEW

[论文解读] A Convolutional Encoder Model for Neural Machine Translation

Jonas Gehring, Michael Auli|arXiv (Cornell University)|Nov 7, 2016
Natural Language Processing Techniques参考文献 29被引用 64
一句话总结

本文提出一种用于神经机器翻译的卷积神经网络(CNN)编码器,用堆叠的空洞卷积层与残差连接替代双向LSTM。该模型在WMT基准测试中实现了具有竞争力的翻译准确率,同时实现高达2.1倍的CPU推理速度提升,表明CNN在序列到序列任务中可达到甚至超越基于RNN的模型在速度与性能方面的表现。

ABSTRACT

The prevalent approach to neural machine translation relies on bi-directional LSTMs to encode the source sentence. In this paper we present a faster and simpler architecture based on a succession of convolutional layers. This allows to encode the entire source sentence simultaneously compared to recurrent networks for which computation is constrained by temporal dependencies. On WMT'16 English-Romanian translation we achieve competitive accuracy to the state-of-the-art and we outperform several recently published results on the WMT'15 English-German task. Our models obtain almost the same accuracy as a very deep LSTM setup on WMT'14 English-French translation. Our convolutional encoder speeds up CPU decoding by more than two times at the same or higher accuracy as a strong bi-directional LSTM baseline.

研究动机与目标

  • 开发一种比双向LSTM编码器更快、更具并行性的神经机器翻译替代方案。
  • 探究卷积网络是否能够有效建模源序列中的长距离依赖关系。
  • 在不牺牲翻译质量的前提下提升推理速度,尤其针对CPU硬件。
  • 探索残差连接与位置嵌入在非循环编码器中对序列建模的有效性。
  • 在标准NMT基准上,对比卷积编码器与最先进RNN模型的性能表现。

提出的方法

  • 使用堆叠的、空洞的1D卷积层,卷积核大小为3,通过扩张率扩展感受野。
  • 在卷积块之间应用残差连接,以支持极深的网络架构。
  • 集成可学习的位置嵌入,以保留序列顺序信息。
  • 使用独立的1×1卷积层分别用于计算注意力分数与聚合条件输入。
  • 采用点积注意力机制,查询、键和值的投影分别来自解码器状态与编码器输出。
  • 应用词汇选择技术,通过降低输出层计算成本来加速解码。

实验结果

研究问题

  • RQ1纯卷积编码器是否能够达到或超越双向LSTM编码器在神经机器翻译中的性能?
  • RQ2空洞卷积与残差连接的使用是否能有效建模源序列中的长距离依赖关系?
  • RQ3与循环模型相比,卷积编码器在CPU硬件上能实现多大程度的推理速度提升?
  • RQ4位置嵌入与独立的注意力计算层在非循环编码器中对性能有何影响?
  • RQ5简单的非循环架构是否能在标准NMT基准上实现最先进性能?

主要发现

  • 在WMT’16英语-罗马尼亚语数据集上,卷积编码器达到28.5 BLEU,与最先进结果持平。
  • 在WMT’15英语-德语数据集上,模型达到24.0 BLEU,优于多项近期发表的结果。
  • 在WMT’14英语-法语数据集上,模型在标准子集上的表现与一个非常深的LSTM设置相当。
  • 在WMT’15英语-德语数据集上,卷积编码器实现2.1倍的解码加速(231词/秒 vs. BiLSTM的109.9词/秒,束搜索大小为5)。
  • 即使在更小的嵌入维度下,卷积模型在IWSLT’14上仍比BiLSTM快1.34倍,表明其具有更优的缓存效率。
  • 在IWSLT’14上,模型实现1.35倍的加速,同时BLEU分数提升0.7分,表明速度与准确率可同时提升。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。