Skip to main content
QUICK REVIEW

[论文解读] The Sockeye 2 Neural Machine Translation Toolkit at AMTA 2020

Tobias Domhan, Michael Denkowski|arXiv (Cornell University)|Aug 11, 2020
Natural Language Processing Techniques参考文献 38被引用 68
一句话总结

Sockeye 2 是一个基于 Gluon MXNet 的 NMT 工具包,通过最先进的 Transformer 模型、8-bit CPU 量化和混合精度训练,在研究和生产中加速训练和推理。

ABSTRACT

We present Sockeye 2, a modernized and streamlined version of the Sockeye neural machine translation (NMT) toolkit. New features include a simplified code base through the use of MXNet's Gluon API, a focus on state of the art model architectures, distributed mixed precision training, and efficient CPU decoding with 8-bit quantization. These improvements result in faster training and inference, higher automatic metric scores, and a shorter path from research to production.

研究动机与目标

  • 介绍 Sockeye 2 作为一个简化的基于 MXNet Gluon 的 NMT 工具包。
  • 展示模型架构、训练速度和推理效率方面的改进。
  • 展示 CPU 解码的 8-bit 量化及其对延迟和 BLEU 的影响。
  • 展示通过 Horovod 和 AMP 的训练提升。
  • 提供关于 Transformer 变体、源因子及鲁棒性的实验证据。

提出的方法

  • 采用 Gluon API 以简化代码并实现灵活的执行模式(eager 与 cached graphs)。
  • 实验最先进的 Transformer 架构,包括深层编码器/解码器配置。
  • 引入输入字符信息的源因子及多种嵌入组合,以提高对输入变化的鲁棒性。
  • 实现 CPU 推理的 8-bit 量化,以在尽量少的 BLEU 损失下降低延迟。
  • 集成 Horovod 进行分布式训练和 AMP 实现混合精度以扩展训练规模。
  • 引入 plateau-reduce 学习计划以提高训练效率和最终模型质量。

实验结果

研究问题

  • RQ1与先前的 Sockeye 版本相比,Sockeye 2 在最先进的 Transformer 架构上的表现如何?
  • RQ2在不同配置中,8-bit CPU 量化对解码延迟和 BLEU 分数的影响是什么?
  • RQ3源因子是否能提升对大小写和拼写变体的鲁棒性?哪些嵌入策略效果最好?
  • RQ4基于 Horovod 的分布式训练和混合精度训练在大规模 NMT 模型上的效果如何? plateau-reduce 调度相比于以前的调度如何?

主要发现

  • 具有更深编码器和更浅解码器的 Transformer 变体在延迟显著降低的同时也能达到具有竞争力的 BLEU。
  • 8-bit 量化显著降低 CPU 上非批量解码时间,BLEU 损失最小。
  • 用于输入大小写信息的源因子提高对大小写变体的鲁棒性,在实验中某些因子策略表现最佳。
  • 与报道基准中的 Ott et al. (2018) 设置相比,plateau-reduce 训练在更短的训练时间内获得了较强的 BLEU 分数。
  • 启用 Horovod 的分布式训练并结合 AMP 可以提升训练效率,使有效批量大小更大且收敛更快。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。