QUICK REVIEW

[论文解读] Bridging the Gap between Training and Inference for Neural Machine Translation

Wen Zhang, Yang Feng|arXiv (Cornell University)|Jun 6, 2019

Natural Language Processing Techniques参考文献 17被引用 30

一句话总结

该论文提出了一种名为 Overcorrection Recovery (OR-NMT) 的训练方案，通过从真实序列和模型预测序列中同时采样上下文词，弥合了神经机器翻译中训练与推理之间的差距。通过使用句子级最优选择和渐进式课程学习，该方法减轻了暴露偏差和过度校正问题，在 Zh→En 任务上取得 +2.18 BLEU 的提升，在 En→De 任务上取得 +1.31 BLEU 的提升，优于强基线模型。

ABSTRACT

Neural Machine Translation (NMT) generates target words sequentially in the way of predicting the next word conditioned on the context words. At training time, it predicts with the ground truth words as context while at inference it has to generate the entire sequence from scratch. This discrepancy of the fed context leads to error accumulation among the way. Furthermore, word-level training requires strict matching between the generated sequence and the ground truth sequence which leads to overcorrection over different but reasonable translations. In this paper, we address these issues by sampling context words not only from the ground truth sequence but also from the predicted sequence by the model during training, where the predicted sequence is selected with a sentence-level optimum. Experiment results on Chinese->English and WMT'14 English->German translation tasks demonstrate that our approach can achieve significant improvements on multiple datasets.

研究动机与目标

解决神经机器翻译中训练（使用标准参考上下文）与推理（使用模型生成的上下文）之间存在的差异问题。
缓解由于上下文分布不匹配导致的暴露偏差所引发的错误累积问题，即模型预测因上下文不一致而发生偏离。
改善过度校正的恢复能力，使模型能够处理替代但有效的翻译，而不会被强制回归到参考序列。
通过减少对严格词级对齐的依赖，提升模型在长句和复杂句上的鲁棒性。
在多种架构（包括基于 RNN 和 Transformer 的模型）上验证方法的有效性。

提出的方法

在训练过程中，模型从真实序列和预测序列中同时采样上下文词，采用课程学习策略，逐步增加对预测词的依赖。
通过句子级优化（如 BLEU）选择最优词，而非采用词级贪婪搜索，从而实现对过度校正的更好恢复。
采用衰减采样策略，初始阶段高概率采样真实词，随着训练推进逐步转向预测词，以模拟推理阶段的条件。
在最优选择过程中引入 Gumbel-Softmax 噪声，以防止过拟合并提升训练过程中的泛化能力。
该方法被应用于 RNNsearch 和 Transformer 模型，且在各类任务中均取得一致的性能提升。
训练目标结合了交叉熵损失与动态上下文采样机制，以平衡监督信号与自一致性。

实验结果

研究问题

RQ1在训练过程中同时从真实序列和预测序列中采样上下文，能否减少训练与推理之间分布偏移？
RQ2与词级选择相比，句子级最优选择是否能更有效地提升过度校正的恢复能力？
RQ3所提方法在多大程度上减少了暴露偏差，并提升了长句和复杂句上的性能？
RQ4该方法在不同神经机器翻译架构（如基于 RNN 和 Transformer 的模型）上的表现如何？
RQ5该方法是否能在多种语言对上实现稳定增益，包括低资源语言对和长序列翻译任务？

主要发现

所提出的 OR-NMT 方法在 MT03 测试集的 Zh→En 任务上，使 RNNsearch 模型提升了 +2.18 BLEU，显著缓解了暴露偏差。
在 WMT’14 En→De 翻译任务中，OR-NMT 使 RNNsearch 基线模型提升 +1.59 BLEU，使 Transformer base 模型提升 +1.31 BLEU，且提升具有统计显著性（p<0.01）。
该方法在长句子上取得最大提升，尤其在源句长度区间 (10,20]、(40,50] 和 (70,80] 中，过度校正问题最为严重，提升最为显著。
句子级最优选择优于词级最优选择，表明更高层级的评估能够实现对替代翻译的更好恢复。
在最优选择过程中引入 Gumbel 噪声可防止过拟合并提升收敛性，最佳性能在 τ=0.5 时达到。
在 28,266 个参考词中，有 18,391 个词在所提模型中的预测概率高于基线模型，表明模型与标准参考之间的对齐更优，暴露偏差更小。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。