Skip to main content
QUICK REVIEW

[论文解读] Non-Autoregressive Neural Machine Translation

Jiatao Gu, James Bradbury|arXiv (Cornell University)|Nov 7, 2017
Natural Language Processing Techniques参考文献 15被引用 449
一句话总结

简要回答:论文介绍了一种基于 Transformer 的非自回归翻译模型(NAT),通过将产出并行生成并使用产物 fertility 作为潜变量,在实现显著的低延迟的同时保持有竞争力的 BLEU 分数。

ABSTRACT

Existing approaches to neural machine translation condition each output word on previously generated outputs. We introduce a model that avoids this autoregressive property and produces its outputs in parallel, allowing an order of magnitude lower latency during inference. Through knowledge distillation, the use of input token fertilities as a latent variable, and policy gradient fine-tuning, we achieve this at a cost of as little as 2.0 BLEU points relative to the autoregressive Transformer network used as a teacher. We demonstrate substantial cumulative improvements associated with each of the three aspects of our training strategy, and validate our approach on IWSLT 2016 English-German and two WMT language pairs. By sampling fertilities in parallel at inference time, our non-autoregressive model achieves near-state-of-the-art performance of 29.8 BLEU on WMT 2016 English-Romanian.

研究动机与目标

  • 推动神经机器翻译在自回归解码器之外实现更快推断的必要性。
  • 提出一种带 fertility 基于潜变量的非自回归 Transformer(NAT),以实现并行解码。
  • 展示训练策略,包括对序列级知识蒸馏和微调以解决多模态性问题。
  • 在 IWSLT16 En–De 和 WMT En–De/En–Ro 上展示经验改进及延迟收益。

提出的方法

  • 修改 Transformer 编码器/解码器以通过 fertility 预测器支持非自回归解码。
  • 引入 fertility 作为决定源标记如何复制到目标序列的潜变量。
  • 在解码器中使用非因果自注意力和位置注意力以实现并行解码。
  • 对来自高质量自回归教师的序列级知识蒸馏以减少目标的多模态性。
  • 使用变分式目标,给定一个关于 fertility 的 proposal q 以及翻译+fertility 的两项式损失进行训练;可选地通过 reverse KL 和蒸馏项进行微调。
  • 在推理阶段,使用关于 fertility 的启发式解码(argmax、平均值或有噪声的并行解码),有时使用自回归教师进行打分。

实验结果

研究问题

  • RQ1非自回归解码是否能够达到与自回归模型相当的 BLEU 分数,同时显著降低延迟?
  • RQ2如何通过基于 fertility 的潜变量缓解 NAT 的多模态性问题?
  • RQ3哪些训练策略(蒸馏、微调)能提升 NAT 的性能与稳定性?
  • RQ4在标准 MT 基准上,经验性的延迟与准确性权衡是什么?

主要发现

  • NAT 实现了显著的延迟降低(例如,在某些设置下解码时间为 39 ms,且相比自回归解码最高可实现 15.6× 的加速)。
  • 通过 fertility 基于复制和训练增强,NAT 的 BLEU 与自回归教师之间的差距缩小到若干点(例如在消融中提高最多可达 +4 BLEU 点)。
  • 带有多次 fertility 采样的嘈声并行解码(NPD)缩小了 BLEU 差距,对于 WMT16 En–Ro,达到接近此前最先进水平的 0.2 BLEU 内。
  • 在 WMT14 En–De 和 WMT16 En–Ro 上,带蒸馏和 NPD 的 NAT 展现出有竞争力的性能,同时保留相对于自回归解码的显著延迟优势。
  • 通过序列级知识蒸馏和微调,NAT 进一步缩小了与自回归教师之间的性能差距。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。