[论文解读] Minimizing the Bag-of-Ngrams Difference for Non-Autoregressive Neural Machine Translation
提出一个可微分的 Bag-of-N-grams (BoN) 目标,用于训练非自回归翻译(NAT),旨在更好地建模目标端的序列依赖并提高翻译质量,尤其是对于更长的句子。
Non-Autoregressive Neural Machine Translation (NAT) achieves significant decoding speedup through generating target words independently and simultaneously. However, in the context of non-autoregressive translation, the word-level cross-entropy loss cannot model the target-side sequential dependency properly, leading to its weak correlation with the translation quality. As a result, NAT tends to generate influent translations with over-translation and under-translation errors. In this paper, we propose to train NAT to minimize the Bag-of-Ngrams (BoN) difference between the model output and the reference sentence. The bag-of-ngrams training objective is differentiable and can be efficiently calculated, which encourages NAT to capture the target-side sequential dependency and correlates well with the translation quality. We validate our approach on three translation tasks and show that our approach largely outperforms the NAT baseline by about 5.0 BLEU scores on WMT14 En$\leftrightarrow$De and about 2.5 BLEU scores on WMT16 En$\leftrightarrow$Ro.
研究动机与目标
- 通过解决词级交叉熵与翻译质量之间相关性差的问题来激励 NAT。
- 引入一个基于可微分 BoN 的目标,以在 NAT 中建模目标端的序列依赖。
- 提供在 NAT 内高效计算 BoN 的方法,使训练保持快速。
- 证明 BoN 基于训练在多语言对上提升翻译质量。
- 显示 BoN 基于方法可以独立使用(微调)或与交叉熵联合用于端到端训练。
提出的方法
- 将离散句子的 BoN 定义为 n-gram 一热向量的和。
- 将 NAT 的 BoN 定义为 BoN 在所有可能翻译上的期望,从而实现高效的逐位置分解。
- 通过在 NAT 输出分布上滑动窗口并假设每个位置的目标标记独立来推导 BoN 的高效计算。
- 提出 BoN 损失为 NAT 的 BoN 与参考 BoN 之间的 BoN- L1 距离,利用参考 BoN 的稀疏性以及 BoN-θ 对许多可能翻译求和的事实。
- 给出训练目标:BoN-FT(BoN 微调)、BoN-Joint(CE 与 BoN 损失的 α 加权组合)以及 BoN-Joint+FT(BoN-Joint 后再进行 BoN 微调)。
- 在 n=1..4 的 n-gram 大小和 α 值上进行实验,以研究与 BLEU 和总体性能的相关性。
实验结果
研究问题
- RQ1BoN 基于序列级目标是否比跨熵在 NAT 中与翻译质量有更好的一致性?
- RQ2BoN 训练是否减少 NAT 常见错误,如过译与漏译以及重复标记,尤其是在较长句子上?
- RQ3就 BLEU 增益和训练速度而言,BoN 与 CE 联合目标与仅 BoN 微调在 NAT 中相比如何?
- RQ4不同 n-gram 大小对 NAT 的 BoN 效用有何影响?
主要发现
- BoN 基于目标与翻译质量的相关性高于跨熵,尤其是在较长句子上。
- BoN-FT 实现更快的训练并优于 NAT-Base,在 BLEU 上通常超过 Reinforce-NAT,同时训练速度更快。
- BoN-Joint 在 BLEU 上显著超越 BoN-FT,BoN-Joint+FT 取得最大增益(例如在他们的设置中,WMT14 En↔De 约 5.0 BLEU,WMT16 En↔Ro 约 2.5 BLEU)。
- BoN 的 n>1(尤其是 n=2)比 n=1 提供更好的相关性和 BLEU 增益,表明建模短序列依赖的重要性。
- BoN 方法减少重复标记和过度校正,尤其是在较长句子上,如后处理分析所示。
- BoN-Joint 相较于某些基线收敛更快,并且由于可微分的 BoN 目标,保持了具有竞争力的训练速度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。