Skip to main content
QUICK REVIEW

[论文解读] Domain specialization: a post-training domain adaptation for Neural Machine Translation

Christophe Servan, Josep Crego|arXiv (Cornell University)|Dec 19, 2016
Natural Language Processing Techniques参考文献 15被引用 45
一句话总结

本文提出了一种神经机器翻译(NMT)的后训练领域专业化方法,通过仅使用领域内数据微调预训练的通用NMT模型,在极短时间内实现显著的性能提升。该方法仅用5万条领域内语料即可达到接近完整微调的性能,使用全部领域内数据时BLEU和TER指标分别提升超过13分,适用于计算机辅助翻译工作流中的快速、渐进式适应。

ABSTRACT

Domain adaptation is a key feature in Machine Translation. It generally encompasses terminology, domain and style adaptation, especially for human post-editing workflows in Computer Assisted Translation (CAT). With Neural Machine Translation (NMT), we introduce a new notion of domain adaptation that we call "specialization" and which is showing promising results both in the learning speed and in adaptation accuracy. In this paper, we propose to explore this approach under several perspectives.

研究动机与目标

  • 解决在计算机辅助翻译(CAT)环境中,随着后编辑翻译的逐步积累,对快速、渐进式领域适应的需求。
  • 降低在适应新领域时从头训练NMT模型的时间和计算成本。
  • 探究在小量领域内数据上微调预训练通用模型是否能达到与完整微调相当的性能。
  • 从翻译质量(BLEU、TER)和训练效率两个方面评估渐进式适应的有效性。

提出的方法

  • 仅使用额外的领域内数据重新训练一个预训练的通用NMT模型,而不丢弃先前的训练状态。
  • 通过在领域内数据上增加训练轮次(1–18)进行渐进式微调,同时保留原始模型的隐藏状态和参数。
  • 采用基于注意力机制的序列到序列模型,并结合字节对编码(BPE)以处理OOV词并提升训练稳定性。
  • 采用固定架构:4层双向LSTM,500维嵌入,800个LSTM单元,Dropout率0.3,学习率从1.0开始衰减。
  • 通过BLEU和TER分数将专业化模型与通用基线模型及完整微调基线模型进行对比。
  • 通过逐步增加欧洲医药管理局(EMEA)语料库的子集(500、5K、50K和全部922K行)来模拟渐进式数据可用性。

实验结果

研究问题

  • RQ1后训练领域专业化是否能在极短的额外训练时间内实现翻译质量的显著提升?

主要发现

  • 仅使用500条领域内语料对通用NMT模型进行专业化,相比基线模型BLEU提升0.25分,TER降低0.62分。
  • 使用5K条领域内语料时,模型实现2.0分BLEU和3.4分TER的改进,仅用1分钟训练时间即可获得2分BLEU的增益。
  • 使用50K条领域内语料时,BLEU提升7.7分,TER提升8.6分,表明在中等数据量下性能显著提升。
  • 使用全部领域内数据(922K行)时,相比通用模型,BLEU提升13.2分,TER提升13.5分,接近完整微调的性能。
  • 当使用50K条语料时,该专业化方法在BLEU和TER上与完整微调持平或略优(高0.5分),但在最大数据集上表现稍逊。
  • 时间-得分比极为有利:每获得1分BLEU增益耗时不足1分钟,6分BLEU增益在6分钟内即可实现。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。