Skip to main content
QUICK REVIEW

[论文解读] Neural Machine Translation Training in a Multi-Domain Scenario

Hassan Sajjad, Nadir Durrani|arXiv (Cornell University)|Aug 29, 2017
Natural Language Processing Techniques参考文献 28被引用 51
一句话总结

简要:本文评估多种训练策略(数据拼接、模型堆叠、数据选择以及多模型集成)在多领域构建NMT系统,发现先拼接域外数据再在域内数据上微调可获得最佳域内性能,而堆叠顺序和集成在鲁棒性与训练效率方面存在权衡。

ABSTRACT

In this paper, we explore alternative ways to train a neural machine translation system in a multi-domain scenario. We investigate data concatenation (with fine tuning), model stacking (multi-level fine tuning), data selection and multi-model ensemble. Our findings show that the best translation quality can be achieved by building an initial system on a concatenation of available out-of-domain data and then fine-tuning it on in-domain data. Model stacking works best when training begins with the furthest out-of-domain data and the model is incrementally fine-tuned with the next furthest domain and so on. Data selection did not give the best results, but can be considered as a decent compromise between training time and translation quality. A weighted ensemble of different individual models performed better than data selection. It is beneficial in a scenario when there is no time for fine-tuning an already trained model.

研究动机与目标

  • 了解在NMT训练中如何结合多个领域。
  • 确定在域内数据有限的情况下最大化域内翻译质量的策略。
  • 评估跨域之间的训练时间、鲁棒性与性能的取舍。
  • 提供在何时使用拼接、堆叠、数据选择或集成方法的指导。

提出的方法

  • 使用TED域内的阿拉伯语-英语和德语-英语数据,并将UN、OPUS、Europarl和Common Crawl作为域外数据。
  • 比较数据拼接与在域内数据上的微调。
  • 通过在域之间按顺序逐步微调来测试模型堆叠,最终以域内数据结束。
  • 使用改良的Moore-Lewis方法评估数据选择,从而挑选最接近域内的域外数据。
  • 通过在不同域特定模型之间取分数平均来评估多域集成(平衡与加权)。
  • 使用Nematus训练一个2层LSTM编码器-解码器并带注意力(512嵌入,1000隐藏尺寸,50k BPE)。

实验结果

研究问题

  • RQ1在NMT训练中将多个领域结合起来的有效方法是什么?
  • RQ2在域内数据有限的情况下,哪种策略能带来最佳域内翻译质量?
  • RQ3数据拼接、模型堆叠、数据选择和集成在质量、训练时间与鲁棒性方面有何比较?
  • RQ4在翻译未知领域时,域感知拼接是否比简单拼接更有利?
  • RQ5堆叠中不同领域顺序如何影响最终翻译质量?

主要发现

  • 拼接系统在域内数据上微调可实现最佳域内性能。
  • 当从最远的域外数据开始并以域内微调结束时,模型堆叠效果最佳。
  • 将所有数据拼接的系统在新领域上提供最稳健的性能。
  • 数据选择提供不错的速度-准确性权衡,但通常不及使用全部数据再微调。
  • 加权集成在重新训练不可行时可超越单一模型,但单一拼接模型通常仍更优。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。