[论文解读] Neural Machine Translation Training in a Multi-Domain Scenario
简要:本文评估多种训练策略(数据拼接、模型堆叠、数据选择以及多模型集成)在多领域构建NMT系统,发现先拼接域外数据再在域内数据上微调可获得最佳域内性能,而堆叠顺序和集成在鲁棒性与训练效率方面存在权衡。
In this paper, we explore alternative ways to train a neural machine translation system in a multi-domain scenario. We investigate data concatenation (with fine tuning), model stacking (multi-level fine tuning), data selection and multi-model ensemble. Our findings show that the best translation quality can be achieved by building an initial system on a concatenation of available out-of-domain data and then fine-tuning it on in-domain data. Model stacking works best when training begins with the furthest out-of-domain data and the model is incrementally fine-tuned with the next furthest domain and so on. Data selection did not give the best results, but can be considered as a decent compromise between training time and translation quality. A weighted ensemble of different individual models performed better than data selection. It is beneficial in a scenario when there is no time for fine-tuning an already trained model.
研究动机与目标
- 了解在NMT训练中如何结合多个领域。
- 确定在域内数据有限的情况下最大化域内翻译质量的策略。
- 评估跨域之间的训练时间、鲁棒性与性能的取舍。
- 提供在何时使用拼接、堆叠、数据选择或集成方法的指导。
提出的方法
- 使用TED域内的阿拉伯语-英语和德语-英语数据,并将UN、OPUS、Europarl和Common Crawl作为域外数据。
- 比较数据拼接与在域内数据上的微调。
- 通过在域之间按顺序逐步微调来测试模型堆叠,最终以域内数据结束。
- 使用改良的Moore-Lewis方法评估数据选择,从而挑选最接近域内的域外数据。
- 通过在不同域特定模型之间取分数平均来评估多域集成(平衡与加权)。
- 使用Nematus训练一个2层LSTM编码器-解码器并带注意力(512嵌入,1000隐藏尺寸,50k BPE)。
实验结果
研究问题
- RQ1在NMT训练中将多个领域结合起来的有效方法是什么?
- RQ2在域内数据有限的情况下,哪种策略能带来最佳域内翻译质量?
- RQ3数据拼接、模型堆叠、数据选择和集成在质量、训练时间与鲁棒性方面有何比较?
- RQ4在翻译未知领域时,域感知拼接是否比简单拼接更有利?
- RQ5堆叠中不同领域顺序如何影响最终翻译质量?
主要发现
- 拼接系统在域内数据上微调可实现最佳域内性能。
- 当从最远的域外数据开始并以域内微调结束时,模型堆叠效果最佳。
- 将所有数据拼接的系统在新领域上提供最稳健的性能。
- 数据选择提供不错的速度-准确性权衡,但通常不及使用全部数据再微调。
- 加权集成在重新训练不可行时可超越单一模型,但单一拼接模型通常仍更优。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。