Skip to main content
QUICK REVIEW

[论文解读] Context in Neural Machine Translation: A Review of Models and Evaluations

Andréi Popescu-Belis|arXiv (Cornell University)|Jan 25, 2019
Natural Language Processing Techniques参考文献 53被引用 23
一句话总结

本文综述了2017–2018年间神经机器翻译(NMT)的进展,重点关注通过引入更广泛的文本上下文来提升翻译质量的方法,特别是针对回指和词汇连贯性等话语层面现象。研究发现,上下文感知模型在代词和词义消歧任务上的表现显著优于基线模型,提升幅度高达20个百分点,而BLEU分数仅呈现微小增长,凸显了在n-gram指标之外采用话语感知评估方法的必要性。

ABSTRACT

This review paper discusses how context has been used in neural machine translation (NMT) in the past two years (2017-2018). Starting with a brief retrospect on the rapid evolution of NMT models, the paper then reviews studies that evaluate NMT output from various perspectives, with emphasis on those analyzing limitations of the translation of contextual phenomena. In a subsequent version, the paper will then present the main methods that were proposed to leverage context for improving translation quality, and distinguishes methods that aim to improve the translation of specific phenomena from those that consider a wider unstructured context.

研究动机与目标

  • 分析2017–2018年神经机器翻译(NMT)的最新进展,重点关注上下文建模。
  • 评估NMT系统在处理话语层面现象(如代词解析、词汇连贯性和话语结构)方面的有效性。
  • 识别当前评估实践中的不足,特别是尽管已有大量证据表明NMT在文本级连贯性方面存在局限,但话语感知指标仍使用不足。
  • 为后续关于上下文增强型NMT模型的章节奠定基础,区分非结构化上下文使用与结构化话语处理。

提出的方法

  • 系统性回顾2017–2018年间的NMT评估研究,按指标类型分类:自动指标(如TER)、人工评估(如文本编辑、绝对评分)以及对比对评估。
  • 分析对比句对的使用,以评估模型在特定现象(如代词先行词解析)上的表现,其中先行词位于前一句中。
  • 评估话语层面指标(如DiscoTKparty和基于RST解析树的度量),分析其与SMT输出人类判断的相关性。
  • 综合比较NMT与SMT在文本级质量方面的研究发现,包括对连贯性和一致性的人工评估。
  • 回顾新兴的NMT架构,这些架构将上下文扩展至句子级别以上,区分使用非结构化上下文的模型与执行结构化话语分析的模型。
  • 利用WMT共享任务和领域特定语料库的数据,评估模型在词义消歧和话语连接词等语言现象上的表现。

实验结果

研究问题

  • RQ1不同评估指标(尤其是话语感知指标)如何揭示标准指标(如BLEU)未能捕捉到的NMT系统局限性?
  • RQ2上下文感知NMT模型在代词回指解析和词汇连贯性等话语层面现象上的翻译质量提升程度如何?
  • RQ3在评估整个文档而非孤立句子时,NMT与人工翻译质量之间的差距有多大?
  • RQ4为何尽管在上下文敏感现象上人类评分质量显著提升,BLEU分数却仅呈现微小增长?
  • RQ5使用非结构化上下文与执行结构化话语分析的NMT模型之间,在架构和方法论上的关键差异是什么?

主要发现

  • 上下文感知NMT模型在代词翻译任务上的表现比标准基线模型高出最多20个百分点,尤其当先行词位于前一句时更为明显。
  • 在引入上下文后,BLEU分数仅呈现微小提升,表明标准自动指标无法捕捉话语层面质量的增益。
  • 在文本层面的人工评估揭示了NMT与人工翻译之间存在统计学上显著的差异,表明NMT在连贯性和一致性方面仍存在困难。
  • 话语感知指标(如DiscoTKparty)与SMT输出的人类判断呈正相关,但尚未应用于NMT系统,尽管其相关性显著。
  • 在中文/英文新闻翻译研究中发现,当对整篇文本进行评估时,专业译者能够可靠地区分人工翻译与NMT输出,表明NMT在文本层面仍存在持续性缺陷。
  • 越来越多的证据表明,尽管在句子级翻译上表现良好,NMT系统在词汇连贯性和回指解析方面仍表现不佳。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。