[论文解读] Non-Autoregressive Machine Translation with Disentangled Context Transformer
本文提出让非自回归翻译更高效的 DisEntangled Context (DisCo) Transformer,采用注意力屏蔽目标和并行的简单优先推断,在减少解码步数的同时保持有竞争力的BLEU。
State-of-the-art neural machine translation models generate a translation from left to right and every step is conditioned on the previously generated tokens. The sequential nature of this generation process causes fundamental latency in inference since we cannot generate multiple tokens in each sentence in parallel. We propose an attention-masking based model, called Disentangled Context (DisCo) transformer, that simultaneously generates all tokens given different contexts. The DisCo transformer is trained to predict every output token given an arbitrary subset of the other reference tokens. We also develop the parallel easy-first inference algorithm, which iteratively refines every token in parallel and reduces the number of required iterations. Our extensive experiments on 7 translation directions with varying data sizes demonstrate that our model achieves competitive, if not better, performance compared to the state of the art in non-autoregressive machine translation while significantly reducing decoding time on average. Our code is available at https://github.com/facebookresearch/DisCo.
研究动机与目标
- 通过远离自回归从左到右的解码来降低神经机器翻译的解码延迟。
- 提出一个 DisEntangled Context (DisCo) Transformer,使其在其他目标标记的任意子集条件下预测每个目标标记。
- 开发并行的简单优先推理算法,在并行中迭代收敛以同时优化所有标记。
- 证明在多语言方向和不同数据规模下,DisCo 能在显著降低解码时间的同时实现具有竞争力的BLEU分数。
提出的方法
- 引入带注意力屏蔽的 DisCo Transformer,使其在预测每个目标位置时仅关注已观测的标记。
- 定义 DisCo 目标:在给定 X 和其他目标标记的任意子集 Y_obs^n 的条件下预测 Y_n,实现对所有位置的条件概率的一次性计算。
- 描述如何堆叠 DisCo 层,同时通过从前一层去 contextualize 键和值来避免信息泄露。
- 用随机子集的观测标记进行训练,并加入长度预测损失以实现并行解码。
- 提出并行的简单优先推理:在每次迭代中预测所有位置,并按不确定性递增的顺序更新标记,从而允许可变数量的迭代。
- 使用强自回归教师蒸馏和标准 Transformer 超参数;在多个 WMT 方向上用 BLEU 进行评估。
实验结果
研究问题
- RQ1一个使用解耦上下文的非自回归 Transformer 是否能在BLEU方面达到与最先进的 NAT 和自回归模型相当的水平?
- RQ2DisCo 目标是否能够实现高效的一次性条件化和有效的并行解码?
- RQ3并行简单优先推理在 BLEU 和迭代次数方面相较于 mask-predict 在数据规模上的表现如何?
- RQ4数据规模和蒸馏对 DisCo 相对于基线的性能有何影响?
- RQ5不同的解码策略如何影响WMT任务上NAT的速度与质量?
主要发现
| 模型 | en→de BLEU | de→en BLEU | en→ro BLEU | ro→en BLEU | Steps (approx) |
|---|---|---|---|---|---|
| Gu et al. (2018) (CMLM) | — | — | — | — | 1 |
| Wang et al. (2019) (n=9) | — | — | — | — | 1 |
| Li et al. (2019) (n=9) | — | — | — | — | 1 |
| Ma et al. (2019) (n=30) | 25.31 | 1 | 30.68 | 1 | 1 |
| Sun et al. (2019) (n=19) | 26.80 | 1 | 30.04 | – | 1 |
| Ran et al. (2019) | 26.51 | 1 | 31.13 | 1 | 1 |
| Shu et al. (2020) (n=50) | 25.1 | – | – | – | 1 |
| Our Implementations (CMLM+Mask-Predict, 4 steps) | 26.73 | 4 | 30.75 | 4 | 4 |
| Our Implementations (CMLM+Mask-Predict,10 steps) | 27.39 | 10 | 31.24 | 10 | 10 |
| DisCo + Mask-Predict (4 steps) | 25.83 | 4 | 32.22 | 4 | 4 |
| DisCo + Mask-Predict (10 steps) | 27.06 | 10 | 32.92 | 10 | 10 |
| DisCo + Easy-First (EN→DE) | 27.34 | 4.23 | 33.22 | 3.29 | 4.82 |
| DisCo + Easy-First (EN→RO) | — | — | 33.25 | — | 3.10 |
- DisCo 结合并行的简单优先在 BLEU 上达到甚至超过基于 CMLM 的 Mask-Predict,同样的迭代次数显著减少(如 en→de 4.82 步;ro→en 3.10 步)。
- 在 EN-DE / EN-RO 上,DisCo+Easy-First 达到的 BLEU 得分可与强 NAT 基线相当或更好,在数据充足的情况下(如 EN-ZH、EN-FR)收益显著。
- 蒸馏对非自回归模型普遍有益,在相同推断设置下 DisCo 的蒸馏收益大于 CMLM。
- 解码速度显示出显著的实际时钟时间收益;平均迭代次数与加速成正相关,DisCo 相较于自回归基线在方向与设置不同的情况下,迭代次数约减少 4–5 倍。
- 在没有上下文键和值的情况下,DisCo 仍能在自回归设置中保持性能,显示该方法具有更广泛的适用性。
- 与训练和推断尽量对齐的训练变体(easy-first 训练)并未超过随机采样训练,表明随机掩码提供了有用的探索。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。