Skip to main content
QUICK REVIEW

[論文レビュー] Google's Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation

Melvin Johnson, Mike Schuster|arXiv (Cornell University)|Nov 14, 2016
Natural Language Processing Techniques参考文献 6被引用数 108
ひとこと要約

本論文は、入力の先頭に対象言語トークンを付けることで多くの言語間を翻訳する単一の多言語NMTモデルを提示し、共有語彙とアーキテクチャでゼロショット翻訳と転移学習を可能にする。

ABSTRACT

We propose a simple solution to use a single Neural Machine Translation (NMT) model to translate between multiple languages. Our solution requires no change in the model architecture from our base system but instead introduces an artificial token at the beginning of the input sentence to specify the required target language. The rest of the model, which includes encoder, decoder and attention, remains unchanged and is shared across all languages. Using a shared wordpiece vocabulary, our approach enables Multilingual NMT using a single model without any increase in parameters, which is significantly simpler than previous proposals for Multilingual NMT. Our method often improves the translation quality of all involved language pairs, even while keeping the total number of model parameters constant. On the WMT'14 benchmarks, a single multilingual model achieves comparable performance for English$ ightarrow$French and surpasses state-of-the-art results for English$ ightarrow$German. Similarly, a single multilingual model surpasses state-of-the-art results for French$ ightarrow$English and German$ ightarrow$English on WMT'14 and WMT'15 benchmarks respectively. On production corpora, multilingual models of up to twelve language pairs allow for better translation of many individual pairs. In addition to improving the translation quality of language pairs that the model was trained with, our models can also learn to perform implicit bridging between language pairs never seen explicitly during training, showing that transfer learning and zero-shot translation is possible for neural translation. Finally, we show analyses that hints at a universal interlingua representation in our models and show some interesting examples when mixing languages.

研究の動機と目的

  • 標準のNMTアーキテクチャを変更せず、シンプルで拡張性のある多言語翻訳アプローチを動機づける。
  • 共有されたWordPiece語彙と対象言語トークンが、1つのモデルで複数の言語ペアを可能にすることを示す。
  • 多言語学習が低リソース言語を改善し、ゼロショット翻訳を可能にすることを示す。
  • WMTベンチマークと大規模なプロダクションデータで評価し、翻訳品質と転移効果を検証する。
  • 多言語NMTにおける暗黙のインターリンガ表現と跨言語転移の可能性を探る。

提案手法

  • 入力の先頭に対象言語を指定する人工トークンを導入する(例: スペイン語の場合 <2es>)。
  • 全言語で共有されるWordPiece語彙(通常32k語彙)を用いた単一の共有エンコーダ-デコーダ-アテンションNMTアーキテクチャを使用する。
  • 総パラメータ数を固定したまま、オーバーサンプリング/アンダーサンプリングで言語ペアのバランスをとりながら混合多言語データで訓練する。
  • many-to-one, one-to-many, and many-to-many の言語マッピングを用いて、構成ごとの性能を評価する。
  • WMT14/15ベンチマークと大規模プロダクションデータセットでトークン化BLEUを用いて評価し、ゼロショット翻訳能力を分析する。

実験結果

リサーチクエスチョン

  • RQ1アーキテクチャの変更なしに、単一のNMTモデルで複数言語間の翻訳が可能か?
  • RQ2対象言語トークンを導入することで多言語翻訳が可能か、また言語ペア間で性能にどのような影響があるか?
  • RQ3多言語学習はゼロショット翻訳と低リソース言語への転移学習効果を提供できるか?
  • RQ4モデルサイズとデータバランスは、別個の単一言語モデルと比べて多言語翻訳品質にどう影響するか?
  • RQ5多言語NMTにおける暗黙のインターリンガ表現の根拠は何か?

主な発見

  • ターゲット言語トークンを持つ単一モデルは、さまざまなサンプリング regimeの下で、いくつかの言語ペア(例: フランス語-英語、ドイツ語-英語など)で単一言語ベースラインと同等以上を達成できる。
  • 訓練中に見られなかった言語ペア(例: ポルトガル語→スペイン語)でゼロショット翻訳を実証し、追加データや段階的訓練によってBLEUスコアが向上する。
  • 共有表現を通じて低リソース言語の利得を示し、総パラメータ予算を同じにして多言語ペアで訓練しても競争力のある結果を達成できる。
  • 最大12言語ペアまでの大規模多言語モデルは、トレーニング時間と運用の複雑さを激減させつつ競争力のある性能を実現する(トレーニング時間は約1/12) 。
  • 多言語学習による暗黙のブリッジングは、場合によっては明示的ブリッジングを上回ることがあり、ゼロショット方向に限定的な平行データを追加することで品質がさらに向上する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。