Skip to main content
QUICK REVIEW

[论文解读] Very Deep Transformers for Neural Machine Translation

Xiaodong Liu, Kevin Duh|arXiv (Cornell University)|Aug 18, 2020
Natural Language Processing Techniques参考文献 35被引用 71
一句话总结

论文证明标准 Transformer 可以在很深的深度下训练(最多60层编码器和12层解码器),使用 ADMIN 初始化,在 WMT’14 EN-FR 和 EN-DE 上实现高达2.5 BLEU 的提升,并在是否使用回译的情况下达到新的 state-of-the-art。

ABSTRACT

We explore the application of very deep Transformer models for Neural Machine Translation (NMT). Using a simple yet effective initialization technique that stabilizes training, we show that it is feasible to build standard Transformer-based models with up to 60 encoder layers and 12 decoder layers. These deep models outperform their baseline 6-layer counterparts by as much as 2.5 BLEU, and achieve new state-of-the-art benchmark results on WMT14 English-French (43.8 BLEU and 46.4 BLEU with back-translation) and WMT14 English-German (30.1 BLEU).The code and trained models will be publicly available at: https://github.com/namisan/exdeep-nmt.

研究动机与目标

  • 调查更深的 Transformer 架构是否能提升 NMT 性能。
  • 开发稳定的训练初始化,以在不改变结构的情况下使非常深的模型可训练。
  • 在标准的 WMT’14 EN-FR 和 EN-DE 基准上评估深度效应(含/不含回译)。
  • 提供可重复的结果并发布代码/模型以促进进一步研究。

提出的方法

  • 在深层 Transformer 块中应用 ADMIN 初始化,以平衡残差路径和前馈路径。
  • 使用分析阶段来估计每层的残差方差并设置层缩放因子 ω_i。
  • 在单 GPU 友好约束下,训练标准的后 LN Transformer 架构,编码器最多60层,解码器12层。
  • 将深度 ADMIN 模型与标准的 6L-6L 基线在 BLEU、TER 和 METEOR 指标上进行比较。
  • 进行跨编码器/解码器深度和网络宽度的消融研究。
  • 在 WMT’14 EN-FR 上评估深模型的回译效果。

实验结果

研究问题

  • RQ1是否可以使用有原则的初始化,在非常深的深度下有效训练标准 Transformer 架构?
  • RQ2深度是否在跨语言对(EN-FR、EN-DE)和评估指标上为 NMT 质量带来持续增益?
  • RQ3深度对学习动态(如训练困惑度和梯度行为)的影响是什么?
  • RQ4更深的模型是否能改进对低频词和长句的翻译?
  • RQ5回译数据是否像较浅模型一样继续使非常深的模型受益?

主要发现

模型数据集数据集大小(参数)T↓M↑BLEU↑Δ
6L-6L DefaultFR67M42.260.541.3-
6L-6L ADMINFR67M41.860.741.50.2
60L-12L DefaultFR262Mdiverge---
60L-12L ADMINFR262M40.362.443.82.5
6L-6L DefaultDE61M54.446.627.6-
6L-6L ADMINDE61M54.146.727.70.1
60L-12L DefaultDE256Mdiverge---
60L-12L ADMINDE256M51.848.330.12.5
  • 60L 编码器搭配 12L 解码器(60L-12L ADMIN)在 EN-FR 和 EN-DE 上相对于 6L-6L 基线实现高达 2.5 BLEU 的增益。
  • 60L-12L ADMIN 的 BLEU 分别为 FR 43.8 和 DE 30.1,相较于 6L-6L 默认,提升具有统计学显著性(p<0.05)。
  • 60L-12L ADMIN 还在 TER 和 METEOR 上有改进(例如 FR TER 40.3 vs 42.2;METEOR 62.4 vs 60.5)。
  • Pre-LN 变体在训练上可行但不及后 LN ADMIN 深层模型;深层后-LN ADMIN 模型在两个基准上达到最先进水平。
  • 消融研究显示在相同总深度下,编码器越深越有利于 BLEU;60L-12L、48L-12L、36L-36L 在统计上并列为最佳 BLEU。
  • 使用 ADMIN 模型的回译进一步提升 EN-FR BLEU,分别达到 46.4(36L-12L-768D ADMIN + BT)和 46.0(60L-12L ADMIN + BT)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。