Skip to main content
QUICK REVIEW

[論文レビュー] Multilingual Denoising Pre-training for Neural Machine Translation

Yinhan Liu, Jiatao Gu|arXiv (Cornell University)|Jan 22, 2020
Natural Language Processing Techniques参考文献 54被引用数 607
ひとこと要約

この論文は mBART を紹介します。mBART は 25 言語で事前学習された多言語のシーケンス・ツー・シーケンスのデノイジング自己符号化(デノイジングオートエンコーダ)で、監視付きおよび非監視付きの MT に対して多くの言語ペアでファインチューニング可能です。低資源・中資源設定で特に大きな利得をもたらし、クロス言語転移を可能にします。

ABSTRACT

This paper demonstrates that multilingual denoising pre-training produces significant performance gains across a wide variety of machine translation (MT) tasks. We present mBART -- a sequence-to-sequence denoising auto-encoder pre-trained on large-scale monolingual corpora in many languages using the BART objective. mBART is one of the first methods for pre-training a complete sequence-to-sequence model by denoising full texts in multiple languages, while previous approaches have focused only on the encoder, decoder, or reconstructing parts of the text. Pre-training a complete model allows it to be directly fine tuned for supervised (both sentence-level and document-level) and unsupervised machine translation, with no task-specific modifications. We demonstrate that adding mBART initialization produces performance gains in all but the highest-resource settings, including up to 12 BLEU points for low resource MT and over 5 BLEU points for many document-level and unsupervised models. We also show it also enables new types of transfer to language pairs with no bi-text or that were not in the pre-training corpus, and present extensive analysis of which factors contribute the most to effective pre-training.

研究の動機と目的

  • 多様な言語ペアに対してデノイジング目的を用いた完全な多言語 Seq2Seq モデルの事前学習が MT を改善することを動機付け・実証する。
  • mBART の事前学習が、監視付きの文レベルおよび文書レベル MT、さらには非監視 MT に対して有意な利得を生むことを示す。
  • 言語数、言語類似性、事前学習ステップ数などの要因が利得にどう影響するかを調査する。
  • 事前学習モデルの言語普遍的な利点を示すため、並列データのない言語ペアや事前学習データに含まれていない言語への転移を実証する。

提案手法

  • 25 言語(CC25)を横断する大規模単言語コーパス上で、BART様のデノイジング目的を用いて多言語のシーケンス・ツー・シーケンスモデル(mBART)を事前学習する。
  • 2 種類のノイズ: スパンマスキング(語の 35%)と文の並べ替え、デコードを案内する言語IDトークンを用いる。
  • 1つの Transformer ベースのモデルを、マルチリンガルデータ上で 256 名の V100 GPU を用いて 500K ステップで訓練する(エンコーダー 12 層、デコーダー 12 層、モデル次元 1024、約 680M パラメータ)。
  • 監視付き MT のために、教師強制と標準的なデコoding(ビーム幅 5)を用いて事前学習済みモデルをバイリンガル並列データでファインチューニングする。
  • 文レベル MT、文書レベル MT、非監視 MT のタスク(バック翻訳や言語転移シナリオを含む)で評価する。
  • 完全な Seq2Seq 多言語事前学習の利益を確立するため、他の事前学習アプローチと比較する。

実験結果

リサーチクエスチョン

  • RQ1デノイディング目的で事前学習された完全な多言語 Seq2Seq モデルは、低・中・高資源の言語ペアで MT を改善できるか?
  • RQ2多言語事前学習は、バイテキストがない言語ペアや事前学習データに含まれていない言語への転移を可能にするか?
  • RQ3事前学習言語数、言語類似性、事前学習ステップ数が MT の利得にどう影響するか?
  • RQ4事前学習とバック翻訳、文書レベル MT タスクの相互作用はどうなるか?
  • RQ5非監視 MT に対しても事前学習は有益か。言語転移シナリオを含むか?

主な発見

  • mBART の事前学習は、低資源および中資源のバイテキスト・ペアにおいて利得を生み、最大 12 BLEU ポイントの改善を含む。
  • 高資源ペアでは事前学習の利得が一貫せず、広範なバイテキストが利用可能な場合にはわずかに悪影響になることもある。
  • バック翻訳と組み合わせた mBART 初期化は、いくつかの方向で新しい最先端(例:En–Si、En–Ne の FLoRes)を達成。
  • mBART は他の事前学習アプローチ(例:XLM、MASS、BART の派生)よりも多くの En–Ro および関連方向で優れており、特に BT を用いた場合に顕著。
  • 文書レベル MT は事前学習によって substantially 利得を得、Doc-MT は事前学習済みで Sent-MT を上回り、事前学習は非事前学習ベースラインを大幅に上回る。
  • 非監視 MT は、バック翻訳と言語転移を通じて mBART 事前学習の恩恵を受け、従来手法が苦戦するような類似性の低いペア(例:En–Ne、En–Si)でも強い性能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。