Skip to main content
QUICK REVIEW

[论文解读] A Neural Approach to Language Variety Translation

Marta R. Costa‐jussà, Marcos Zampieri|arXiv (Cornell University)|Jul 2, 2018
Natural Language Processing Techniques被引用 6
一句话总结

本文提出首个针对同一语言不同国家变体之间的神经机器翻译(NMT)系统,以巴西葡萄牙语与欧洲葡萄牙语为案例研究。该NMT模型基于字幕平行语料进行训练,在欧洲葡萄牙语→巴西葡萄牙语方向上比短语基于的SMT系统高出0.9 BLEU分,在反向翻译中高出0.2 BLEU分,人工评估也证实NMT系统的输出质量更优,且更受青睐。

ABSTRACT

In this paper we present the first neural-based machine translation system trained to translate between standard national varieties of the same language. We take the pair Brazilian - European Portuguese as an example and compare the performance of this method to a phrase-based statistical machine translation system. We report a performance improvement of 0.9 BLEU points in translating from European to Brazilian Portuguese and 0.2 BLEU points when translating in the opposite direction. We also carried out a human evaluation experiment with native speakers of Brazilian Portuguese which indicates that humans prefer the output produced by the neural-based system in comparison to the statistical system.

研究动机与目标

  • 探究神经机器翻译(NMT)在同一种语言不同国家变体之间翻译的可行性与性能。
  • 对比NMT在巴西葡萄牙语与欧洲葡萄牙语语言对上的表现与基于短语的统计机器翻译(SMT)的差异。
  • 通过自动指标(BLEU)和母语者的人工评估,评估NMT输出的质量。
  • 探讨跨变体翻译中的语言挑战,如代词代词的语序、动词形式差异及拼写差异。
  • 为未来在多中心语言翻译中开展NMT研究奠定基础。

提出的方法

  • 使用编码器-解码器架构结合注意力机制,在电影字幕的平行语料上训练序列到序列的NMT模型。
  • 在欧洲葡萄牙语与巴西葡萄牙语字幕的平行数据上微调NMT模型,以学习跨变体翻译模式。
  • 使用Moses工具包训练的基于短语的SMT系统进行对比,训练数据与NMT系统相同。
  • 应用BLEU评分评估两个方向(EP→BP与BP→EP)的自动翻译质量。
  • 通过七名母语为巴西葡萄牙语的受试者开展人工评估,对NMT与SMT输出的翻译质量与偏好进行打分。
  • 分析代词代词位置、动词时态使用(动名词与不定式对比)及拼写差异等语言现象,以评估系统行为。

实验结果

研究问题

  • RQ1神经机器翻译系统能否有效实现同一种语言不同国家变体之间的翻译,例如巴西葡萄牙语与欧洲葡萄牙语?
  • RQ2在跨变体翻译中,NMT在BLEU分数与人工评分质量方面相较于基于短语的SMT表现如何?
  • RQ3NMT系统在处理复杂语言现象(如前置代词/后置代词、语言变体间动词形式差异)方面的能力如何?
  • RQ4自动指标(BLEU)的提升是否反映在人类对翻译质量的感知与偏好上?
  • RQ5特定领域特征(如电影字幕)如何影响NMT与SMT系统的翻译性能与表现变异性?

主要发现

  • 当从欧洲葡萄牙语翻译至巴西葡萄牙语时,NMT系统相比SMT系统在BLEU分数上提升了0.9分。
  • 当从巴西葡萄牙语翻译至欧洲葡萄牙语时,NMT系统相比SMT系统在BLEU分数上提升了0.2分。
  • 在全部7项评估中,人工评估者均更偏好NMT系统的输出,表明其在质量上具有显著优势。
  • NMT模型更好地处理了复杂句法现象,如前置代词与后置代词的语序,正确将'Ele viu-me'(EP)翻译为'Ele me viu'(BP)。
  • NMT系统更准确地翻译了动词形式,例如将欧洲葡萄牙语的不定式'correr'正确转换为巴西葡萄牙语的动名词'correndo'。
  • 尽管由于字幕领域差异导致BLEU分数偏低,NMT系统仍生成了更自然、更符合上下文的翻译,尤其在创意或非正式语境中表现更优。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。