Skip to main content
QUICK REVIEW

[论文解读] Transformers without Tears: Improving the Normalization of Self-Attention

Toan Nguyen, Julián Salazar|arXiv (Cornell University)|Oct 14, 2019
Topic Modeling参考文献 37被引用 130
一句话总结

论文在 Transformer 训练中引入以归一化为中心的变更(PreNorm、ScaleNorm、FixNorm),展示在低资源神经机器翻译上的性能提升,以及在高资源场景中的竞争力,训练更快、梯度行为更平滑。

ABSTRACT

We evaluate three simple, normalization-centric changes to improve Transformer training. First, we show that pre-norm residual connections (PreNorm) and smaller initializations enable warmup-free, validation-based training with large learning rates. Second, we propose $\ell_2$ normalization with a single scale parameter (ScaleNorm) for faster training and better performance. Finally, we reaffirm the effectiveness of normalizing word embeddings to a fixed length (FixNorm). On five low-resource translation pairs from TED Talks-based corpora, these changes always converge, giving an average +1.1 BLEU over state-of-the-art bilingual baselines and a new 32.8 BLEU on IWSLT'15 English-Vietnamese. We observe sharper performance curves, more consistent gradient norms, and a linear relationship between activation scaling and decoder depth. Surprisingly, in the high-resource setting (WMT'14 English-German), ScaleNorm and FixNorm remain competitive but PreNorm degrades performance.

研究动机与目标

  • 研究归一化位置和类型如何影响低资源神经机器翻译中 Transformer 的收敛性与性能。
  • 评估用 ScaleNorm 替换 LayerNorm 是否能提升训练速度和准确性。
  • 评估固定词嵌入范数(FixNorm)和对嵌入进行缩放(ScaleNorm)对翻译质量的影响。
  • 验证这些改动是否在多对资源水平不同的语言对中带来提升。

提出的方法

  • 在多个低资源 NMT 任务中比较 PostNorm 与 PreNorm 的残差配置。
  • 将 LayerNorm 替换为 ScaleNorm,并结合 FixNorm 以研究训练动态与性能。
  • 尝试包含无预热训练和基于验证集的衰减的学习率调度,以评估稳定性。
  • 共享预处理和训练脚本,并在基于 TED/IWSLT 的语料上评估 BLEU 分数。

实验结果

研究问题

  • RQ1与 PostNorm 相比,PreNorm 是否在低资源 Transformer NMT 中提升训练稳定性和性能?
  • RQ2ScaleNorm 与 FixNorm 是否在低资源语言对上提供更快的训练速度和更高的 BLEU?
  • RQ3在高资源场景如 WMT14 英语-德语对上,ScaleNorm 结合 FixNorm 能否保持有竞争力的性能?
  • RQ4所提出的归一化改动如何影响解码器深度上的梯度范数和激活尺度?

主要发现

  • PreNorm 在低资源环境下实现了无预热训练和较大学习率,提升了稳定性和性能。
  • ScaleNorm 降低计算成本,并且在若干低资源对上提升 BLEU,通常优于 LayerNorm。
  • FixNorm 持续带来额外改进,尤其是与 ScaleNorm 结合时。
  • 最终组合 PreNorm + FixNorm + ScaleNorm 在五对低资源语言对上平均提升 +1.1 BLEU,其中 IWSLT '15 英-越语 的提升显著,达到 32.8 BLEU。
  • ScaleNorm 与 FixNorm 通常能达到甚至超过高资源 WMT14 英语-德语的 LayerNorm 性能,其中 ScaleNorm 提供了速度提升。
  • 与 PostNorm 相比,PreNorm 在训练过程中显示出更稳定的梯度(范数更平滑)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。