Skip to main content
QUICK REVIEW

[论文解读] Multi-Domain Neural Machine Translation

Sander Tars, Mark Fishel|arXiv (Cornell University)|May 6, 2018
Natural Language Processing Techniques被引用 24
一句话总结

本文提出了一种多领域神经机器翻译(NMT)框架,通过在输入中添加领域标签或整合领域嵌入,将文本领域视为不同语言。实验表明,两种方法均显著优于标准微调和单领域模型,且通过无监督句子聚类可实现有效的领域感知翻译,即使在无预标注领域的情况下亦可实现。

ABSTRACT

We present an approach to neural machine translation (NMT) that supports multiple domains in a single model and allows switching between the domains when translating. The core idea is to treat text domains as distinct languages and use multilingual NMT methods to create multi-domain translation systems, we show that this approach results in significant translation quality gains over fine-tuning. We also explore whether the knowledge of pre-specified text domains is necessary, turns out that it is after all, but also that when it is not known quite high translation quality can be reached.

研究动机与目标

  • 解决NMT中领域特定微调的局限性,后者会导致域外文本性能下降,且需足够域内数据以避免过拟合。
  • 探究是否可通过多语言NMT技术将文本领域视为不同语言,从而在多个领域间提升翻译质量。
  • 研究通过无监督句子聚类自动推导领域替代人工预标注领域的可行性与有效性。
  • 在有监督和无监督设置下,评估领域标签和领域嵌入集成方法的性能。
  • 证明参数共享的多领域NMT在泛化能力上优于微调模型,甚至在无先验领域知识的情况下,某些情况下性能更高。

提出的方法

  • 借鉴Johnson等人(2016)的多语言NMT方法,通过在每个源句前添加领域ID标记(如'__OpenSubs')来将领域视为不同语言。
  • 通过在解码器每个时间步将领域嵌入与词嵌入拼接,将领域嵌入作为输入特征集成,使模型在整个序列中能够关注领域特定表示。
  • 对平行语料进行无监督句子聚类,以在无预标注领域时自动推导领域聚类,用聚类结果替代人工领域标注。
  • 在来自多个领域的数据上训练单一多领域NMT模型,训练期间将领域特定数据视为独立的语言对。
  • 在推理阶段使用领域分类,将输入句子分配至最相似的聚类,并使用对应领域感知模型进行翻译。
  • 在包括维基百科、OpenSubtitles和新闻语料在内的多个文本领域中,将所提方法与标准微调和统一翻译基线进行性能比较。

实验结果

研究问题

  • RQ1在多语言NMT框架中将文本领域视为不同语言,是否能相比标准微调,在多个领域间提升翻译质量?
  • RQ2在每个时间步将领域嵌入作为输入特征集成,是否比仅在源序列前添加领域标签表现更优?
  • RQ3无监督句子聚类在多领域NMT中在多大程度上可替代人工预标注领域,其对翻译质量有何影响?
  • RQ4即使在推理时输入的领域未知,参数共享的多领域NMT性能是否仍优于微调模型?
  • RQ5无监督领域分割中的聚类数量如何影响翻译性能,是否存在最优聚类数以实现领域泛化?

主要发现

  • 无论是通过前缀添加的领域标签,还是在每个时间步集成领域嵌入的方法,均在所有评估领域中显著优于标准微调和统一翻译基线。
  • 领域嵌入集成方法(在每个时间步将领域特征与词嵌入拼接)的翻译得分略高于仅前缀添加领域标签的方法,尤其在高精度设置下表现更优。
  • 无监督句子聚类可在无预标注领域的情况下实现有效的领域感知翻译,性能可与使用已知领域的模型相媲美甚至超越。
  • 采用参数共享的多领域NMT模型泛化能力优于微调模型,在保持各领域强性能的同时,提升了域内翻译质量。
  • 即使在推理时未知领域信息,无监督方法仍能实现高翻译质量,且在某些情况下超越了使用已知领域的模型。
  • 结果表明,多领域NMT中的参数共享机制可缓解过拟合并增强表征学习,从而生成更鲁棒、更具泛化能力的翻译模型。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。