[论文解读] Weighted Transformer Network for Machine Translation
加权 Transformer 用可学习的自注意力分支替代多头注意力,在基线 Transformer 上实现更高的 BLEU 分数并且收敛速度比基线快 15-40%。
State-of-the-art results on neural machine translation often use attentional sequence-to-sequence models with some form of convolution or recursion. Vaswani et al. (2017) propose a new architecture that avoids recurrence and convolution completely. Instead, it uses only self-attention and feed-forward layers. While the proposed architecture achieves state-of-the-art results on several machine translation tasks, it requires a large number of parameters and training iterations to converge. We propose Weighted Transformer, a Transformer with modified attention layers, that not only outperforms the baseline network in BLEU score but also converges 15-40% faster. Specifically, we replace the multi-head attention by multiple self-attention branches that the model learns to combine during the training process. Our model improves the state-of-the-art performance by 0.5 BLEU points on the WMT 2014 English-to-German translation task and by 0.4 on the English-to-French translation task.
研究动机与目标
- 在不牺牲性能的前提下,推动减少基于 Transformer 的 NMT 的训练时间和参数资源浪费。
- 提出一种分支自注意力机制以替代多头注意力。
- 在 WMT 2014 EN-DE 和 EN-FR 数据集上展示更高的 BLEU 分数并分析正则化效果。
提出的方法
- 将 Transformer 的多头注意力替换为分支自注意力,其中每个分支计算 Attention(QW_i^Q, KW_i^K, VW_i^V) 和一个学习的投影 ̄{head}_i;
- 计算分支输出为 ̄{head}_i = head_i W^{O_i} ̄{rac{\u0011_i}{},,其中学习权重 \u001b 和 \u001a 在各分支之间的和为 1;
- 将分支聚合为 BranchedAttention(Q,K,V) = sum_{i=1}^M \u0005_i FFN( ̄{head}_i) ,约束为 sum_i \u0005_i = 1 且 sum_i ̄_i = 1;
- 在解码器中保留位置编码、层归一化、残差连接和掩码。
- 采用标签平滑、 dropout,并使用带热身计划的 Adam 进行训练;
- 将输入嵌入与输出层绑定,并按长度对批句子以减少填充。
实验结果
研究问题
- RQ1替换多头注意力为学习的分支自注意力是否能提升翻译质量和训练效率?
- RQ2在训练过程中学习的分支权重 ( ̄, \u0005) 如何演化,它们是否指示分支之间的正则化或去相关化?
- RQ3分支数量和其他超参数对 BLEU 分数和收敛速度有何影响?
- RQ4与基线 Transformer 相比,Weighted Transformer 在语言对和模型规模上是否具有鲁棒性?
主要发现
- Weighted Transformer 在 EN-DE 与 EN-FR 的小型和大型配置下均实现比 Transformer 更高的 BLEU(例如小型:EN-DE 28.4 vs 27.3;EN-FR 38.9 vs 38.1)。
- 体积较小的 Weighted Transformer 在参数显著更少的情况下接近或超越大型 Transformer 的性能(例如小型 Weighted Transformer 使用约 30% 的 Transformer 参数即可达到相同表现)。
- 训练收敛速度比基线 Transformer 快 15-40%。
- 学习的分支权重显示部分分支被优先考虑,而其他分支随时间贡献增加,表明去相关化和正则化效果。
- 随机化或均匀的测试时权重会降低性能,表明学习到的权重对获得良好结果至关重要。
- 带硬性 top-k 选择的门控在该设置下的表现不如提出的连续加权方案,表明此场景下稀疏门控的潜在收益有限。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。