[论文解读] Very Deep Transformers for Neural Machine Translation
论文证明标准 Transformer 可以在很深的深度下训练(最多60层编码器和12层解码器),使用 ADMIN 初始化,在 WMT’14 EN-FR 和 EN-DE 上实现高达2.5 BLEU 的提升,并在是否使用回译的情况下达到新的 state-of-the-art。
We explore the application of very deep Transformer models for Neural Machine Translation (NMT). Using a simple yet effective initialization technique that stabilizes training, we show that it is feasible to build standard Transformer-based models with up to 60 encoder layers and 12 decoder layers. These deep models outperform their baseline 6-layer counterparts by as much as 2.5 BLEU, and achieve new state-of-the-art benchmark results on WMT14 English-French (43.8 BLEU and 46.4 BLEU with back-translation) and WMT14 English-German (30.1 BLEU).The code and trained models will be publicly available at: https://github.com/namisan/exdeep-nmt.
研究动机与目标
- 调查更深的 Transformer 架构是否能提升 NMT 性能。
- 开发稳定的训练初始化,以在不改变结构的情况下使非常深的模型可训练。
- 在标准的 WMT’14 EN-FR 和 EN-DE 基准上评估深度效应(含/不含回译)。
- 提供可重复的结果并发布代码/模型以促进进一步研究。
提出的方法
- 在深层 Transformer 块中应用 ADMIN 初始化,以平衡残差路径和前馈路径。
- 使用分析阶段来估计每层的残差方差并设置层缩放因子 ω_i。
- 在单 GPU 友好约束下,训练标准的后 LN Transformer 架构,编码器最多60层,解码器12层。
- 将深度 ADMIN 模型与标准的 6L-6L 基线在 BLEU、TER 和 METEOR 指标上进行比较。
- 进行跨编码器/解码器深度和网络宽度的消融研究。
- 在 WMT’14 EN-FR 上评估深模型的回译效果。
实验结果
研究问题
- RQ1是否可以使用有原则的初始化,在非常深的深度下有效训练标准 Transformer 架构?
- RQ2深度是否在跨语言对(EN-FR、EN-DE)和评估指标上为 NMT 质量带来持续增益?
- RQ3深度对学习动态(如训练困惑度和梯度行为)的影响是什么?
- RQ4更深的模型是否能改进对低频词和长句的翻译?
- RQ5回译数据是否像较浅模型一样继续使非常深的模型受益?
主要发现
| 模型 | 数据集 | 数据集大小(参数) | T↓ | M↑ | BLEU↑ | Δ |
|---|---|---|---|---|---|---|
| 6L-6L Default | FR | 67M | 42.2 | 60.5 | 41.3 | - |
| 6L-6L ADMIN | FR | 67M | 41.8 | 60.7 | 41.5 | 0.2 |
| 60L-12L Default | FR | 262M | diverge | - | - | - |
| 60L-12L ADMIN | FR | 262M | 40.3 | 62.4 | 43.8 | 2.5 |
| 6L-6L Default | DE | 61M | 54.4 | 46.6 | 27.6 | - |
| 6L-6L ADMIN | DE | 61M | 54.1 | 46.7 | 27.7 | 0.1 |
| 60L-12L Default | DE | 256M | diverge | - | - | - |
| 60L-12L ADMIN | DE | 256M | 51.8 | 48.3 | 30.1 | 2.5 |
- 60L 编码器搭配 12L 解码器(60L-12L ADMIN)在 EN-FR 和 EN-DE 上相对于 6L-6L 基线实现高达 2.5 BLEU 的增益。
- 60L-12L ADMIN 的 BLEU 分别为 FR 43.8 和 DE 30.1,相较于 6L-6L 默认,提升具有统计学显著性(p<0.05)。
- 60L-12L ADMIN 还在 TER 和 METEOR 上有改进(例如 FR TER 40.3 vs 42.2;METEOR 62.4 vs 60.5)。
- Pre-LN 变体在训练上可行但不及后 LN ADMIN 深层模型;深层后-LN ADMIN 模型在两个基准上达到最先进水平。
- 消融研究显示在相同总深度下,编码器越深越有利于 BLEU;60L-12L、48L-12L、36L-36L 在统计上并列为最佳 BLEU。
- 使用 ADMIN 模型的回译进一步提升 EN-FR BLEU,分别达到 46.4(36L-12L-768D ADMIN + BT)和 46.0(60L-12L ADMIN + BT)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。