[论文解读] Deconvolution-Based Global Decoding for Neural Machine Translation
本文提出了一种基于反卷积的全局解码方法,用于神经机器翻译,通过利用目标序列的完整结构上下文来条件化词语生成,从而突破自回归、从左到右生成的局限,提升翻译质量。实验表明,该方法优于当前最先进模型,减少重复现象,并在不同句长下具有良好泛化能力。
A great proportion of sequence-to-sequence (Seq2Seq) models for Neural Machine Translation (NMT) adopt Recurrent Neural Network (RNN) to generate translation word by word following a sequential order. As the studies of linguistics have proved that language is not linear word sequence but sequence of complex structure, translation at each step should be conditioned on the whole target-side context. To tackle the problem, we propose a new NMT model that decodes the sequence with the guidance of its structural prediction of the context of the target sequence. Our model generates translation based on the structural prediction of the target-side context so that the translation can be freed from the bind of sequential order. Experimental results demonstrate that our model is more competitive compared with the state-of-the-art methods, and the analysis reflects that our model is also robust to translating sentences of different lengths and it also reduces repetition with the instruction from the target-side context for decoding.
研究动机与目标
- 解决神经机器翻译中自回归解码的局限性,即按顺序生成词语并忽略全局结构上下文。
- 通过将每个生成步骤基于目标序列的整体结构进行条件化,以提升翻译质量。
- 减少重复现象,并提升在不同句长下的鲁棒性。
提出的方法
- 提出一种基于反卷积的机制,在解码过程中预测整个目标序列的结构表征。
- 将预测的结构上下文用作每个词语生成步骤的全局条件信号。
- 将结构预测整合到解码过程中,以超越局部的、从左到右的依赖关系来引导生成。
- 采用上下文感知的解码策略,利用完整的目际端结构来指导词语选择。
- 通过引入结构先验,使解码过程对顺序依赖的敏感度降低。
实验结果
研究问题
- RQ1目标序列的全局结构上下文是否能在自回归解码之外进一步提升神经机器翻译的质量?
- RQ2结构预测在不同句长下的解码鲁棒性方面有何影响?
- RQ3所提出的方法在多大程度上减少了生成翻译中的重复现象?
主要发现
- 所提模型在性能上与当前最先进神经机器翻译方法相当。
- 在翻译不同长度的句子时,模型表现出更强的鲁棒性。
- 由于目标端结构上下文的引导,翻译中的重复现象显著减少。
- 基于反卷积的结构预测通过实现全局上下文感知,提升了解码质量。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。