QUICK REVIEW

[论文解读] Semi-Supervised Learning for Neural Machine Translation

Yong Cheng, Wei Xu|arXiv (Cornell University)|Jun 15, 2016

Natural Language Processing Techniques被引用 61

一句话总结

本文提出了一种半监督神经机器翻译框架，通过将双语NMT模型作为自编码器来利用单语语料——使用源到目标的翻译作为编码器，目标到源的翻译作为解码器，以重建单语句子。该方法通过迭代优化伪并行数据，在中文-英文NIST基准上实现了显著的BLEU提升（最高+1.8和+1.0），且无需修改网络架构。

ABSTRACT

While end-to-end neural machine translation (NMT) has made remarkable progress recently, NMT systems only rely on parallel corpora for parameter estimation. Since parallel corpora are usually limited in quantity, quality, and coverage, especially for low-resource languages, it is appealing to exploit monolingual corpora to improve NMT. We propose a semi-supervised approach for training NMT models on the concatenation of labeled (parallel corpora) and unlabeled (monolingual corpora) data. The central idea is to reconstruct the monolingual corpora using an autoencoder, in which the source-to-target and target-to-source translation models serve as the encoder and decoder, respectively. Our approach can not only exploit the monolingual corpora of the target language, but also of the source language. Experiments on the Chinese-English dataset show that our approach achieves significant improvements over state-of-the-art SMT and NMT systems.

研究动机与目标

解决神经机器翻译（NMT）系统仅依赖稀缺并行语料所导致的局限性，尤其针对低资源语言。
利用源语言和目标语言的丰富单语语料以提升NMT性能。
开发一种方法，使单语数据的整合对现有NMT架构透明。
通过迭代重建实现源到目标与目标到源模型之间的双向交互。
在不修改底层NMT模型结构的前提下，提升翻译的流畅性与准确性。

提出的方法

将源到目标的NMT模型作为编码器，目标到源的NMT模型作为解码器，构成在单语语料上的自编码器。
制定联合训练目标，包含并行数据上的监督似然项与单语数据上的重建项。
利用重建目标最大化从其翻译中恢复原始单语句子的可能性：$ P( extbf{x}^*| extbf{y}; \overleftarrow{\bm{\theta}})P( extbf{y}| extbf{x}; \overrightarrow{\bm{\theta}}) $。
执行迭代优化：生成伪并行单语翻译，使用真实与伪并行数据联合微调NMT模型。
在推理过程中采样完整搜索空间，以提高重建效率与稳定性。
将该方法应用于源语言和目标语言的单语语料，实现双向语言建模。

实验结果

研究问题

RQ1能否在不修改架构的前提下，有效利用源语言和目标语言的单语语料进行NMT？
RQ2与标准NMT或SMT相比，使用双向NMT模型作为自编码器是否能提升翻译质量？
RQ3对伪并行数据的迭代优化如何影响翻译性能？
RQ4该方法能否在中文-英文等低资源语言对上实现显著提升？
RQ5源到目标与目标到源模型之间的交互如何增强重建效果与翻译质量？

主要发现

所提方法在中文-英文NIST数据集上显著优于当前最先进的SMT与NMT系统，中文到英文翻译的BLEU提升最高达+1.8，英文到中文翻译提升达+1.0。
该方法优于以往通过伪并行语料利用单语数据的方法，得益于迭代优化与双向模型交互。
单语句子的Viterbi翻译结果随迭代次数逐步改善，表明模型持续学习到更优的句子表征。
该方法对NMT架构完全透明，可无需修改直接应用于任意端到端NMT系统。
同时使用源语言与目标语言的单语语料可带来更好的语言建模，提升翻译的流畅性。
重建目标有效正则化了NMT模型，在低资源设置下增强了泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。