[论文解读] Non-Autoregressive Machine Translation with Auxiliary Regularization
该论文提出两种辅助正则化技术——相似性正则化和重建正则化,通过提升解码器隐藏状态质量来改进非自回归机器翻译(NAT)。通过最小化相邻隐藏状态之间的相似性,并利用反向翻译强制实现源端重建,该方法减少了重复和不完整翻译,实现了SOTA的BLEU分数(IWSLT14 De-En上达到30.84),且推理速度优于自回归模型。
As a new neural machine translation approach, Non-Autoregressive machine Translation (NAT) has attracted attention recently due to its high efficiency in inference. However, the high efficiency has come at the cost of not capturing the sequential dependency on the target side of translation, which causes NAT to suffer from two kinds of translation errors: 1) repeated translations (due to indistinguishable adjacent decoder hidden states), and 2) incomplete translations (due to incomplete transfer of source side information via the decoder hidden states). In this paper, we propose to address these two problems by improving the quality of decoder hidden representations via two auxiliary regularization terms in the training process of an NAT model. First, to make the hidden states more distinguishable, we regularize the similarity between consecutive hidden states based on the corresponding target tokens. Second, to force the hidden states to contain all the information in the source sentence, we leverage the dual nature of translation tasks (e.g., English to German and German to English) and minimize a backward reconstruction error to ensure that the hidden states of the NAT decoder are able to recover the source side sentence. Extensive experiments conducted on several benchmark datasets show that both regularization strategies are effective and can alleviate the issues of repeated translations and incomplete translations in NAT models. The accuracy of NAT models is therefore improved significantly over the state-of-the-art NAT models with even better efficiency for inference.
研究动机与目标
- 解决非自回归机器翻译(NAT)模型中的重复和不完整翻译错误问题。
- 在不引入离散变量或牺牲推理效率的前提下,提升解码器隐藏表示的质量。
- 在保持高推理速度的同时,缩小NAT与自回归NMT模型之间的性能差距。
- 探索基于正则化的替代方案,以替代NAT训练中复杂的潜在变量机制。
提出的方法
- 引入相似性正则化,使相邻解码器隐藏状态之间的余弦相似性与对应目标词嵌入之间的相似性对齐。
- 通过在NAT解码器输出上训练一个反向自回归翻译器,应用重建正则化,以确保隐藏状态保留完整的源端信息。
- 在优化过程中同时使用两种正则化项训练NAT模型,推理时丢弃这些正则化项以保持速度。
- 利用翻译任务的双重性(如英德和德英)实现反向重建作为自监督信号。
- 通过教师模型蒸馏与候选重排序评估,在更接近实际解码条件下的性能表现。
- 使用标准交叉熵损失联合优化NAT模型,损失函数中增加两个辅助正则化项。
实验结果
研究问题
- RQ1辅助正则化能否提升非自回归翻译模型中解码器隐藏状态的质量?
- RQ2相似性正则化是否能通过使相邻隐藏状态更具可区分性,有效减少重复翻译错误?
- RQ3重建正则化能否通过确保解码器状态保留完整的源端信息,缓解不完整翻译问题?
- RQ4两种正则化策略在提升整体翻译质量方面是否具有互补性?
- RQ5该方法能否在保持高推理速度的同时实现SOTA的NAT性能?
主要发现
- 所提出的NAT模型在IWSLT14 De-En开发集上结合两种正则化项后,BLEU得分为30.84,优于基础NAT模型(28.73)和SOTA基线模型。
- 仅使用相似性正则化时,BLEU提升至30.02,每句去重操作从2.3次降至0.9次,表明对重复翻译的缓解效果显著。
- 仅使用重建正则化时,BLEU达到30.21,证明其在通过强制保留源端信息来减少不完整翻译方面的有效性。
- 两种正则化结合使用相比基础模型带来2.11点的BLEU提升,表明其具有互补优势,尽管增益呈次可加性。
- 在9个候选重排序条件下,模型相比自回归NMT实现了15.1倍的加速,与NAT-FT解码性能相当,证实推理效率得以保持。
- 消融实验表明,通用相似性惩罚会损害性能(BLEU降至28.32),凸显了任务特定正则化设计的重要性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。