QUICK REVIEW

[论文解读] Transformers without Tears: Improving the Normalization of Self-Attention

Toan Nguyen, Julián Salazar|arXiv (Cornell University)|Oct 14, 2019

Topic Modeling参考文献 37被引用 130

一句话总结

论文在 Transformer 训练中引入以归一化为中心的变更（PreNorm、ScaleNorm、FixNorm），展示在低资源神经机器翻译上的性能提升，以及在高资源场景中的竞争力，训练更快、梯度行为更平滑。

ABSTRACT

We evaluate three simple, normalization-centric changes to improve Transformer training. First, we show that pre-norm residual connections (PreNorm) and smaller initializations enable warmup-free, validation-based training with large learning rates. Second, we propose $\ell_2$ normalization with a single scale parameter (ScaleNorm) for faster training and better performance. Finally, we reaffirm the effectiveness of normalizing word embeddings to a fixed length (FixNorm). On five low-resource translation pairs from TED Talks-based corpora, these changes always converge, giving an average +1.1 BLEU over state-of-the-art bilingual baselines and a new 32.8 BLEU on IWSLT'15 English-Vietnamese. We observe sharper performance curves, more consistent gradient norms, and a linear relationship between activation scaling and decoder depth. Surprisingly, in the high-resource setting (WMT'14 English-German), ScaleNorm and FixNorm remain competitive but PreNorm degrades performance.

研究动机与目标

研究归一化位置和类型如何影响低资源神经机器翻译中 Transformer 的收敛性与性能。
评估用 ScaleNorm 替换 LayerNorm 是否能提升训练速度和准确性。
评估固定词嵌入范数（FixNorm）和对嵌入进行缩放（ScaleNorm）对翻译质量的影响。
验证这些改动是否在多对资源水平不同的语言对中带来提升。

提出的方法

在多个低资源 NMT 任务中比较 PostNorm 与 PreNorm 的残差配置。
将 LayerNorm 替换为 ScaleNorm，并结合 FixNorm 以研究训练动态与性能。
尝试包含无预热训练和基于验证集的衰减的学习率调度，以评估稳定性。
共享预处理和训练脚本，并在基于 TED/IWSLT 的语料上评估 BLEU 分数。

实验结果

研究问题

RQ1与 PostNorm 相比，PreNorm 是否在低资源 Transformer NMT 中提升训练稳定性和性能？
RQ2ScaleNorm 与 FixNorm 是否在低资源语言对上提供更快的训练速度和更高的 BLEU？
RQ3在高资源场景如 WMT14 英语-德语对上，ScaleNorm 结合 FixNorm 能否保持有竞争力的性能？
RQ4所提出的归一化改动如何影响解码器深度上的梯度范数和激活尺度？

主要发现

PreNorm 在低资源环境下实现了无预热训练和较大学习率，提升了稳定性和性能。
ScaleNorm 降低计算成本，并且在若干低资源对上提升 BLEU，通常优于 LayerNorm。
FixNorm 持续带来额外改进，尤其是与 ScaleNorm 结合时。
最终组合 PreNorm + FixNorm + ScaleNorm 在五对低资源语言对上平均提升 +1.1 BLEU，其中 IWSLT '15 英-越语的提升显著，达到 32.8 BLEU。
ScaleNorm 与 FixNorm 通常能达到甚至超过高资源 WMT14 英语-德语的 LayerNorm 性能，其中 ScaleNorm 提供了速度提升。
与 PostNorm 相比，PreNorm 在训练过程中显示出更稳定的梯度（范数更平滑）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。