Skip to main content
QUICK REVIEW

[論文レビュー] Investigating Backtranslation in Neural Machine Translation

Alberto Poncelas, Dimitar Shterionov|arXiv (Cornell University)|Apr 17, 2018
Natural Language Processing Techniques参考文献 23被引用数 88
ひとこと要約

本論文は、逆翻訳(合成)データが単独または実データと共に、ドイツ語→英語 NMT の性能にどのように影響するかを系統的に評価します。合成データは実データと品質が近づくことがあり、ハイブリッドデータはしばしば最良の結果をもたらし、合成データが多すぎると性能が低下する転換点が存在します。

ABSTRACT

A prerequisite for training corpus-based machine translation (MT) systems -- either Statistical MT (SMT) or Neural MT (NMT) -- is the availability of high-quality parallel data. This is arguably more important today than ever before, as NMT has been shown in many studies to outperform SMT, but mostly when large parallel corpora are available; in cases where data is limited, SMT can still outperform NMT. Recently researchers have shown that back-translating monolingual data can be used to create synthetic parallel corpora, which in turn can be used in combination with authentic parallel data to train a high-quality NMT system. Given that large collections of new parallel text become available only quite rarely, backtranslation has become the norm when building state-of-the-art NMT systems, especially in resource-poor scenarios. However, we assert that there are many unknown factors regarding the actual effects of back-translated data on the translation capabilities of an NMT model. Accordingly, in this work we investigate how using back-translated data as a training corpus -- both as a separate standalone dataset as well as combined with human-generated parallel data -- affects the performance of an NMT model. We use incrementally larger amounts of back-translated data to train a range of NMT systems for German-to-English, and analyse the resulting translation performance.

研究の動機と目的

  • データサイズ全体でNMT性能に対する逆翻訳データの影響を評価する

提案手法

  • OpenNMT-pyを用いてWMT 2015年ドイツ語→英語データで2層LSTM NMTモデル(注意機構付き)を訓練する
  • 初期NMTモデルを用いて英語→ドイツ語を逆翻訳して合成データを作成する
  • 実データのみ、合成データのみ、ハイブリッドデータセットをBLEU、TER、METEOR、CHRF1で評価する
  • 実データと合成データのサイズを漸進的に変化させ、性能傾向を観察する
  • 逆翻訳データの影響を分離するために固定ベースライン構成を使用する

実験結果

リサーチクエスチョン

  • RQ1実データの量を増やした場合、訓練に使用する逆翻訳データの量はNMTの品質にどう影響するか?
  • RQ2合成データのみで実データに競合するNMT性能を生み出せるか?
  • RQ3ハイブリッド訓練における実データと逆翻訳データの最適なバランスは何か?
  • RQ4合成データを追加しすぎるとハイブリッドモデルの性能が悪化する転換点はあるか?

主な発見

  • 実データが多いほどNMTモデルは改善され、3Mの実データでピーク BLEU 0.2446、その後3.5Mでわずかに低下
  • 合成データのみのモデルは実データの性能に近づくことがあり、3.5Mの合成文でBLEU 0.2363がピーク
  • ハイブリッドモデル(1Mの実データ+可変の合成データ)は、小〜中程度のデータサイズで通常、実データのみのベースラインを上回る
  • ハイブリッドで合成データ:実データ比率が最大2:1までのとき利益を示したが、それを超えると利益は停滞し、低下することがある(例:3.5MハイブリッドBLEU 0.2442 vs 3Mハイブリッド BLEU 0.2442)
  • 逆翻訳は資源が乏しい環境でも有益であり、NMTシステムをブートストラップするための大規模な合成コーパスの利用を可能にする

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。