QUICK REVIEW

[论文解读] QCRI Machine Translation Systems for IWSLT 16

Nadir Durrani, Fahim Dalvi|arXiv (Cornell University)|Jan 14, 2017

Natural Language Processing Techniques参考文献 28被引用 20

一句话总结

本文介绍了QCRI在IWSLT 2016阿拉伯语-英语及英语-阿拉伯语翻译任务中所采用的基于短语的机器翻译（SMT）与神经机器翻译（NMT）系统。NMT系统通过在联合国（UN）、OPUS及领域内TED/QED数据上进行渐进式微调，并采用八模型集成，其在阿拉伯语→英语方向上比表现强劲的基于短语的系统高出2 BLEU，证明了在资源有限、多领域设置下，结合有效领域适应技术的NMT具有显著优势。

ABSTRACT

This paper describes QCRI's machine translation systems for the IWSLT 2016 evaluation campaign. We participated in the Arabic->English and English->Arabic tracks. We built both Phrase-based and Neural machine translation models, in an effort to probe whether the newly emerged NMT framework surpasses the traditional phrase-based systems in Arabic-English language pairs. We trained a very strong phrase-based system including, a big language model, the Operation Sequence Model, Neural Network Joint Model and Class-based models along with different domain adaptation techniques such as MML filtering, mixture modeling and using fine tuning over NNJM model. However, a Neural MT system, trained by stacking data from different genres through fine-tuning, and applying ensemble over 8 models, beat our very strong phrase-based system by a significant 2 BLEU points margin in Arabic->English direction. We did not obtain similar gains in the other direction but were still able to outperform the phrase-based system. We also applied system combination on phrase-based and NMT outputs.

研究动机与目标

评估神经机器翻译（NMT）是否在低资源阿拉伯语-英语翻译任务中超越基于短语的机器翻译（SMT）。
研究在有限领域内数据（如TED演讲）条件下，多领域SMT的有效领域适应策略。
比较在真实世界多源数据设置下，基于短语的系统与NMT系统在有效性与训练复杂度方面的差异。
探索数据过滤、模型组合与微调技术在提升低资源语言对翻译性能方面的应用。

提出的方法

使用Moses工具包训练了一个性能强劲的基于短语的SMT系统，采用高级特性：OSM、NNJM、基于类的模型以及大规模语言模型。
应用基于MML的数据过滤方法，筛选出相关领域内与领域外数据，以减少来自大型UN和OPUS语料库的噪声。
在领域外数据上微调NNJM模型，并进一步使用领域内TED数据进行微调，以提升领域适应能力。
使用Nematus工具包构建神经MT系统，采用双向LSTM（1024个单元）、500维词嵌入，并在微调过程中引入dropout。
采用渐进式训练方式：首先在UN数据上训练，然后在OPUS数据上继续训练，最后在领域内TED和QED数据上进行微调。
通过使用OPUS阶段最后八个模型在领域内数据上进行微调，构建了八个NMT模型的集成，提升了鲁棒性与性能。

实验结果

研究问题

RQ1在有限领域内数据条件下，神经机器翻译是否在阿拉伯语-英语翻译任务中优于基于短语的翻译？
RQ2在多领域设置下，渐进式预训练与微调策略对NMT系统的有效性如何？
RQ3数据过滤（如MML）在提升基于短语的SMT在噪声大、领域外数据上的性能方面起到何种作用？
RQ4基于短语的系统与NMT系统的系统组合能否显著提升翻译质量？
RQ5在适应新领域时，NMT系统的复杂度与可重用性相较于基于短语的系统有何差异？

主要发现

在阿拉伯语→英语方向，NMT系统比基于短语的系统高出2 BLEU，官方测试集上达到34.6 BLEU。
在英语→阿拉伯语方向，NMT系统比基于短语的系统高出1.8 BLEU，官方测试集上达到18.5 BLEU。
将八个微调后的NMT模型进行集成，性能达到最高，使TED测试集上的平均BLEU得分从33.7提升至34.6。
在UN和OPUS数据上预训练后，再在领域内TED数据上微调NMT模型，对性能提升至关重要，尤其在阿拉伯语→英语方向。
与MEMT结合的系统组合在阿拉伯语→英语方向带来微小增益，在英语→阿拉伯语方向带来适度增益，但未显著提升整体性能。
通过微调，NMT系统在适应新领域（如QED）方面更为简便，而基于短语的系统则需重新训练所有组件才能实现领域适应。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。