QUICK REVIEW

[論文レビュー] eSCAPE: a Large-scale Synthetic Corpus for Automatic Post-Editing

Matteo Negri, Marco Turchi|arXiv (Cornell University)|Mar 20, 2018

Natural Language Processing Techniques参考文献 21被引用数 37

ひとこと要約

本論文は、英語–ドイツ語向けに1440万組の（ソース、MT、ポストエディット）三つ組と、英語–イタリア語向けに660万組の三つ組を含む大規模な合成コーパスeSCAPEを紹介する。これらの三つ組は、公開の並列コーパスからのソース文を、文脈ベース（SMT）およびニューラル（NMT）機械翻訳システムを用いて翻訳することで生成された。このコーパスは、両言語対において、合成データのみでトレーニングされた場合でも、自動ポストエディティング（APE）性能に顕著かつ統計的に有意な向上をもたらし、一般ドメイン設定におけるニューラルAPEモデルのトレーニングにその有効性を示している。

ABSTRACT

Training models for the automatic correction of machine-translated text usually relies on data consisting of (source, MT, human post- edit) triplets providing, for each source sentence, examples of translation errors with the corresponding corrections made by a human post-editor. Ideally, a large amount of data of this kind should allow the model to learn reliable correction patterns and effectively apply them at test stage on unseen (source, MT) pairs. In practice, however, their limited availability calls for solutions that also integrate in the training process other sources of knowledge. Along this direction, state-of-the-art results have been recently achieved by systems that, in addition to a limited amount of available training data, exploit artificial corpora that approximate elements of the "gold" training instances with automatic translations. Following this idea, we present eSCAPE, the largest freely-available Synthetic Corpus for Automatic Post-Editing released so far. eSCAPE consists of millions of entries in which the MT element of the training triplets has been obtained by translating the source side of publicly-available parallel corpora, and using the target side as an artificial human post-edit. Translations are obtained both with phrase-based and neural models. For each MT paradigm, eSCAPE contains 7.2 million triplets for English-German and 3.3 millions for English-Italian, resulting in a total of 14,4 and 6,6 million instances respectively. The usefulness of eSCAPE is proved through experiments in a general-domain scenario, the most challenging one for automatic post-editing. For both language directions, the models trained on our artificial data always improve MT quality with statistically significant gains. The current version of eSCAPE can be freely downloaded from: http://hltshare.fbk.eu/QT21/eSCAPE.html.

研究の動機と目的

自動ポストエディティング（APE）システムのための、大規模かつ高品質な（ソース、MT、人間によるポストエディット）トレーニングデータの不足に取り組むこと。
従来の文脈ベースアプローチと比較してはるかに多くのトレーニングデータを必要とするニューラルAPEモデルにおける、データ需要の増大を支援すること。
機械翻訳出力を人工的ポストエディットとして用いることで、現実のポストエディットデータに類似した、自由に利用可能な大規模な合成コーパスを提供すること。
実際のポストエディットデータが限られる一般ドメインおよびミックスドメインの文脈において、最先端のニューラルAPEモデルをトレーニングできるようにすること。
多様で挑戦的な言語対において、合成データの有効性がAPEパフォーマンスの向上にどのように寄与するかを評価すること。

提案手法

eSCAPEは、公開の並列コーパスから得たソース文を、文脈ベース（SMT）およびニューラル（NMT）機械翻訳システムを用いて翻訳することで構築される。
各ソース文に対して、得られたMT出力をポストエディットの『ソース』とみなしその対応する並列コーパスの元のターゲット文を人工的『ポストエディット』の参照として用いる。
コーパスは2つの部分に分割される：SMTが生成したMT出力を用いたものと、NMTが生成したMT出力を用いたもので、異なるMTパラダイムの比較的分析を可能にする。
トレーニングデータは、ソースとMT入力を用いて人間のようなポストエディットを予測することでMT誤りを是正するニューラルAPEモデルのファインチューニングに使用される。
モデルは、生のMT出力（do-no-thingベースライン）および人間によるポストエディットと比較して、標準的な指標（BLEUおよびTER）で評価される。
このコーパスは研究利用のため、http://hltshare.fbk.eu/QT21/eSCAPE.html で公開されている。

実験結果

リサーチクエスチョン

RQ1機械翻訳出力から生成された大規模な合成コーパスが、ニューラルAPEモデルを効果的にトレーニングし、翻訳品質を向上させることができるか？
RQ2一般ドメインおよびミックスドメインの文脈において、合成データでトレーニングされたAPEモデルの性能が、do-no-thingベースラインを上回るか？
RQ3文脈ベースMTから得た合成データでトレーニングされたAPEモデルと、ニューラルMT出力から得た合成データでトレーニングされたAPEモデルの、ベースラインMTに対する改善度にはどのような差があるか？
RQ4SMTとNMTの間で、下位のMTシステムの品質が、合成トレーニングデータを用いたAPEによる向上幅にどの程度影響を与えるか？
RQ5多様なMTパラダイムからの合成データは、複数のドメインにまたがる補正パターンの一般化を可能にするか？

主な発見

eSCAPEの合成データのみでトレーニングされたAPEモデルは、英語–ドイツ語および英語–イタリア語の両言語対において、do-no-thingベースラインを上回る統計的に有意なBLEUスコアの向上を達成した。文脈ベースMT出力でトレーニングした場合、それぞれ+1.39および+1.72 BLEUポイントの向上を示した。
ニューラルMT出力でトレーニングした場合でも、APEモデルは+1.04 BLEUポイント（En–De）および+1.14 BLEUポイント（En–It）の顕著な向上を達成し、より高品質なMTベースラインでも有効性が裏付けられた。
最も高い向上が観察されたのは英語–イタリア語言語対であり、これはコーパスが低リソース言語対やより構文的に複雑な言語対に対して特に効果的である可能性を示唆している。
結果から、MT出力と『ポストエディット』が人間によって生成されていなくても、合成データがAPEモデルのトレーニングに効果的に機能することが確認された。これは、MT誤りと補正パターンとの相関関係が学習に十分であることを示している。
eSCAPEでトレーニングされたAPEモデルは、誤りパターンが希なため従来は困難であったミックスドメインおよび一般ドメインの評価設定でもベースラインを上回った。これは、一般化能力を示している。
このコーパスは、高価な人間によるアノテーション済みポストエディットデータを必要とせず、低リソースおよびドメイン適応型APEアプリケーションにスケーラブルなソリューションを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。