Skip to main content
QUICK REVIEW

[论文解读] eSCAPE: a Large-scale Synthetic Corpus for Automatic Post-Editing

Matteo Negri, Marco Turchi|arXiv (Cornell University)|Mar 20, 2018
Natural Language Processing Techniques参考文献 21被引用 37
一句话总结

该论文提出eSCAPE,一个大规模合成语料库,包含1440万组(源语句,机器翻译,人工后编辑)三元组用于英德语,以及660万组用于英意大利语,通过使用短语基于和神经机器翻译系统对公开并行语料库中的源语句进行翻译生成。该语料库在两种语言对上均实现了显著且统计显著的自动后编辑性能提升,即使仅使用合成数据进行训练,也证明了其在通用领域设置下训练神经自动后编辑模型的有效性。

ABSTRACT

Training models for the automatic correction of machine-translated text usually relies on data consisting of (source, MT, human post- edit) triplets providing, for each source sentence, examples of translation errors with the corresponding corrections made by a human post-editor. Ideally, a large amount of data of this kind should allow the model to learn reliable correction patterns and effectively apply them at test stage on unseen (source, MT) pairs. In practice, however, their limited availability calls for solutions that also integrate in the training process other sources of knowledge. Along this direction, state-of-the-art results have been recently achieved by systems that, in addition to a limited amount of available training data, exploit artificial corpora that approximate elements of the "gold" training instances with automatic translations. Following this idea, we present eSCAPE, the largest freely-available Synthetic Corpus for Automatic Post-Editing released so far. eSCAPE consists of millions of entries in which the MT element of the training triplets has been obtained by translating the source side of publicly-available parallel corpora, and using the target side as an artificial human post-edit. Translations are obtained both with phrase-based and neural models. For each MT paradigm, eSCAPE contains 7.2 million triplets for English-German and 3.3 millions for English-Italian, resulting in a total of 14,4 and 6,6 million instances respectively. The usefulness of eSCAPE is proved through experiments in a general-domain scenario, the most challenging one for automatic post-editing. For both language directions, the models trained on our artificial data always improve MT quality with statistically significant gains. The current version of eSCAPE can be freely downloaded from: http://hltshare.fbk.eu/QT21/eSCAPE.html.

研究动机与目标

  • 为自动后编辑(APE)系统解决大规模、高质量(源语句,机器翻译,人工后编辑)训练数据稀缺的问题。
  • 支持神经自动后编辑模型日益增长的数据需求,这些模型所需的训练数据量远超传统短语基于方法。
  • 提供一个免费获取的大规模合成语料库,通过将机器翻译输出用作人工后编辑,近似真实后编辑数据。
  • 在真实后编辑数据有限的通用领域和混合领域设置中,支持最先进的神经自动后编辑模型的训练。
  • 评估合成数据在改善多种复杂语言对上自动后编辑性能方面的有效性。

提出的方法

  • eSCAPE通过从公开可用的并行语料库中提取源语句,并使用短语基于(SMT)和神经机器翻译(NMT)系统进行翻译构建。
  • 对于每个源语句,将生成的机器翻译输出视为后编辑的‘源’,并将并行语料库中的原始目标语句用作人工‘后编辑’参考。
  • 该语料库分为两部分:一部分使用SMT生成的机器翻译输出,另一部分使用NMT生成的机器翻译输出,从而支持对不同机器翻译范式的对比研究。
  • 使用训练数据微调神经自动后编辑模型,使其学习通过源语句和机器翻译输入预测类人后编辑结果。
  • 使用标准指标(BLEU和TER)对模型进行评估,对比原始机器翻译输出(不做任何处理的基线)和人工后编辑结果。
  • 该语料库已公开发布,网址为 http://hltshare.fbk.eu/QT21/eSCAPE.html,供研究使用。

实验结果

研究问题

  • RQ1能否通过机器翻译输出生成的大规模合成语料库有效训练神经自动后编辑模型,以提升翻译质量?
  • RQ2在通用领域和混合领域设置中,仅使用合成数据训练的自动后编辑模型性能是否显著优于不做任何处理的基线?
  • RQ3基于短语基于机器翻译生成的合成数据训练的自动后编辑模型,与基于神经机器翻译输出训练的模型相比,在提升基线机器翻译质量方面表现如何?
  • RQ4底层机器翻译系统质量(SMT vs. NMT)在使用合成训练数据时,对自动后编辑性能提升的影响有多大?
  • RQ5来自多种机器翻译范式的合成数据能否实现多种领域间校正模式的泛化?

主要发现

  • 仅在eSCAPE合成数据上训练的自动后编辑模型,在英德语和英意大利语上均显著优于不做任何处理的基线模型,当使用短语基于机器翻译输出训练时,BLEU得分分别提升了+1.39和+1.72点。
  • 在神经机器翻译输出上训练的模型,仍实现了+1.04 BLEU点(英-德)和+1.14 BLEU点(英-意)的显著提升,表明即使在高质量机器翻译基线情况下,该方法依然有效。
  • 在英意大利语语言对上观察到最高提升,表明该语料库在低资源或形态学更复杂的语言对上尤为有效。
  • 结果证实,即使机器翻译输出和‘后编辑’并非人工生成,合成数据仍能有效训练自动后编辑模型,表明机器翻译错误与校正模式之间存在足够关联以支持学习。
  • 在混合领域和通用领域评估设置中,eSCAPE训练的自动后编辑模型优于基线模型——此前由于错误模式稀疏而难以实现——证明了其泛化能力。
  • 该语料库无需访问昂贵的人工标注后编辑数据,即可实现最先进的自动后编辑性能,为低资源和领域自适应的自动后编辑应用提供了一种可扩展的解决方案。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。