QUICK REVIEW

[论文解读] Imitation Learning for Non-Autoregressive Neural Machine Translation

Bingzhen Wei, Mingxuan Wang|arXiv (Cornell University)|Jun 5, 2019

Natural Language Processing Techniques参考文献 21被引用 31

一句话总结

本文提出了一种模仿学习框架 imitate-NAT，通过使用知识丰富的自回归翻译器作为示范者，对每一层和时间步的解码状态进行监督，从而提升非自回归神经机器翻译（NAT）的性能。该方法在保持NAT 10倍推理加速的同时，实现了接近自回归模型的翻译质量——在WMT16 Ro→En上达到31.85 BLEU，在IWSLT16 En→De上达到30.68 BLEU，有效弥合了与自回归模型之间的性能差距。

ABSTRACT

Non-autoregressive translation models (NAT) have achieved impressive inference speedup. A potential issue of the existing NAT algorithms, however, is that the decoding is conducted in parallel, without directly considering previous context. In this paper, we propose an imitation learning framework for non-autoregressive machine translation, which still enjoys the fast translation speed but gives comparable translation performance compared to its auto-regressive counterpart. We conduct experiments on the IWSLT16, WMT14 and WMT16 datasets. Our proposed model achieves a significant speedup over the autoregressive models, while keeping the translation quality comparable to the autoregressive models. By sampling sentence length in parallel at inference time, we achieve the performance of 31.85 BLEU on WMT16 Ro$ ightarrow$En and 30.68 BLEU on IWSLT16 En$ ightarrow$De.

研究动机与目标

解决非自回归（NAT）与自回归（AT）神经机器翻译模型之间的性能差距。
克服NAT训练中延迟监督和巨大搜索空间的挑战。
在保持NAT高推理速度的同时，提升翻译质量以匹配自回归模型。
提出一种新颖的模仿学习框架，利用知识丰富的AT模型引导NAT的解码状态。

提出的方法

使用预训练的自回归NMT模型作为知识丰富的示范者，为NAT中的每个解码状态提供监督。
利用示范者的预测结果，对所有层和时间步的每个解码状态进行监督。
应用模仿学习，引导NAT解码状态向最优动作靠拢，减少对延迟奖励的依赖。
集成长度并行解码（LPD），在推理过程中采样多样化的句子长度，从而提升性能。
应用类别重分布技术，平衡动作分布，防止潜在空间中的聚类偏差。
将模仿学习框架与知识蒸馏相结合，进一步提升性能。

实验结果

研究问题

RQ1模仿学习能否有效弥合非自回归与自回归神经机器翻译模型之间的性能差距？
RQ2使用知识丰富的自回归示范者在NAT训练中如何提升稳定性和性能？
RQ3长度并行解码和类别重分布能在多大程度上提升NAT的解码质量？
RQ4模仿学习框架是否能与知识蒸馏互补，从而带来进一步的性能提升？

主要发现

所提出的 imitate-NAT 模型在 WMT16 Ro→En 上达到 31.85 BLEU，在 IWSLT16 En→De 上达到 30.68 BLEU，翻译质量与或超过自回归基线模型。
通过引入长度并行解码（LPD），在 IWSLT16 En→De 上性能提升了 2.25 BLEU 点（从 28.41 提升至 30.68 BLEU）。
在不使用知识蒸馏的情况下，imitate-NAT 的性能仍优于采用知识蒸馏的非模仿NAT模型，提升 +3.3 BLEU 点。
类别重分布技术使动作分布更加均衡，提升了模型泛化能力并减少了聚类偏差。
模仿学习框架与知识蒸馏具有互补性，使性能相比未使用模仿学习的蒸馏NAT模型进一步提升 +3.3 BLEU。
该模型在保持 10 倍于自回归模型推理速度的同时，在标准基准上实现了最先进的NAT性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。