Skip to main content
QUICK REVIEW

[论文解读] Neural Machine Translation in Linear Time

Nal Kalchbrenner, Lasse Espeholt|arXiv (Cornell University)|Oct 31, 2016
Natural Language Processing Techniques参考文献 10被引用 317
一句话总结

ByteNet 引入一个 1D dilated CNN 编码器-解码器用于神经翻译,整体时间复杂度为线性,保持源分辨率并支持对变化长度序列的动态展开,在字符级建模和英-德字符级翻译方面达到最先进的结果。

ABSTRACT

We present a novel neural network for processing sequences. The ByteNet is a one-dimensional convolutional neural network that is composed of two parts, one to encode the source sequence and the other to decode the target sequence. The two network parts are connected by stacking the decoder on top of the encoder and preserving the temporal resolution of the sequences. To address the differing lengths of the source and the target, we introduce an efficient mechanism by which the decoder is dynamically unfolded over the representation of the encoder. The ByteNet uses dilation in the convolutional layers to increase its receptive field. The resulting network has two core properties: it runs in time that is linear in the length of the sequences and it sidesteps the need for excessive memorization. The ByteNet decoder attains state-of-the-art performance on character-level language modelling and outperforms the previous best results obtained with recurrent networks. The ByteNet also achieves state-of-the-art performance on character-to-character machine translation on the English-to-German WMT translation task, surpassing comparable neural translation models that are based on recurrent networks with attentional pooling and run in quadratic time. We find that the latent alignment structure contained in the representations reflects the expected alignment between the tokens.

研究动机与目标

  • 激励线性随序列长度扩展、避免大量记忆的神经翻译模型。
  • 开发一个保持分辨率且保持时间结构的编码器-解码器架构。
  • 引入动态展开以将编码器表示连接到变长解码器。
  • 在卷积中使用膨胀来高效地扩展感受野。
  • 在字符级语言建模和字符到字符翻译任务上评估 ByteNet。

提出的方法

  • 在编码器表示之上堆叠基于 CNN 的编码器和基于 CNN 的解码器以保持分辨率。
  • 应用动态展开从固定的编码器表示边界生成变长输出。
  • 对解码器卷积进行屏蔽,防止访问未来目标标记(因果屏蔽)。
  • 使用倍增膨胀率的膨胀卷积以高效地增大感受野。
  • 将层包裹在带有 ReLU 基单元或乘性单元的残差块中,并进行层归一化。
  • 使用 Adam 优化进行训练,并在语言建模中采用每字符比特数(bits-per-character),在翻译中使用 BLEU 进行评估。

实验结果

研究问题

  • RQ1一个全卷积的编码器-解码器配合动态展开是否能在保持线性时间复杂度的同时实现具有竞争力的翻译质量?
  • RQ2保持源序列分辨率并使用膨胀卷积是否能有效建模翻译中的长程依赖?
  • RQ3相较于循环模型,ByteNet 在字符级语言建模中的表现如何?
  • RQ4ByteNet 在英到德的字符级/字符级翻译基准上的翻译性能提升是多少?
  • RQ5所学的潜在对齐结构揭示了翻译中标记级对应关系的什么信息?

主要发现

模型输入输出WMT 测试 ’14WMT 测试 ’15
ByteNetcharchar23.7526.26
GNMT (RNN Enc-Dec Att)word-piecesword-pieces24.61
RNN Enc-Dec Att ( Chung et al., 2016b )BPEBPE19.9821.72
RNN Enc-Dec Att ( Chung et al., 2016b )charchar21.3323.45
  • ByteNet 在字符级语言建模上达到最先进水平(维基百科为 1.31 bits/character)。
  • ByteNet 在 WMT NewsTest 2014 与 2015 的英-德字符到字符翻译上达到最先进的 BLEU 分数(BLEU 23.75 和 26.26)。
  • 在 WMT 2015 上,ByteNet 在字符级翻译方面达到了迄今公布系统中的最佳结果。
  • ByteNet 展示了相对于输入和输出长度的线性运行时间,并维持一个保持分辨率的源表示。
  • 该模型在表示中显示出潜在对齐,与预期的标记对齐相吻合。
  • 相较于循环模型,ByteNet 超过或匹配强基线,同时避免二次时间复杂度的计算。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。