QUICK REVIEW

[論文レビュー] Pre-training Multilingual Neural Machine Translation by Leveraging Alignment Information

Zehui Lin, Xiao Pan|arXiv (Cornell University)|Oct 7, 2020

Natural Language Processing Techniques参考文献 21被引用数 46

ひとこと要約

本論文は mRASP を提案します。Random Aligned Substitution を用いてクロス言語表現を整合させる universal multilingual NMT pre-training method を用い、下流のペアで微調整したときに 42-directions およびエキゾチックな翻訳で強力な改善を達成します。

ABSTRACT

We investigate the following question for machine translation (MT): can we develop a single universal MT model to serve as the common seed and obtain derivative and improved models on arbitrary language pairs? We propose mRASP, an approach to pre-train a universal multilingual neural machine translation model. Our key idea in mRASP is its novel technique of random aligned substitution, which brings words and phrases with similar meanings across multiple languages closer in the representation space. We pre-train a mRASP model on 32 language pairs jointly with only public datasets. The model is then fine-tuned on downstream language pairs to obtain specialized MT models. We carry out extensive experiments on 42 translation directions across a diverse settings, including low, medium, rich resource, and as well as transferring to exotic language pairs. Experimental results demonstrate that mRASP achieves significant performance improvement compared to directly training on those target pairs. It is the first time to verify that multiple low-resource language pairs can be utilized to improve rich resource MT. Surprisingly, mRASP is even able to improve the translation quality on exotic languages that never occur in the pre-training corpus. Code, data, and pre-trained models are available at https://github.com/linzehui/mRASP.

研究の動機と目的

任意の言語ペアに微調整可能な単一の普遍的な事前学習 MT シードの開発を目指す。
既存の MT 事前学習目標の限界を、マルチリンガル表現の整合によって克服する。
整合情報を活用して言語間の意味ギャップを埋める。
極めて低資源、低資源、中資源、豊富資源設定およびエキゾチック翻訳シナリオでの性能向上を示す。
再現性と再利用性のためにコード・データ・事前学習モデルのオープンアクセスを提供する。

提案手法

Transformer ベースのアーキテクチャを使用（6 層のエンコーダと 6 層のデコーダ、1,024 モデル次元、16 アテンションヘッド、GeLU 活性化、学習済み位置埋め込み）。
PC32 Parallel コーパスを使用して英語をアンカー言語として、32 言語ペアで事前学習（197M 文ペア）。
Random Aligned Substitution (RAS) を導入：他言語の対応翻訳で元の語をランダムに置換し、コードスイッチされた例を作成してクロス言語的意味空間を共有させる。
標準的な翻訳損失をすべての言語ペアで用い、ソース/ターゲット言語を示す言語トークンを併用して訓練する。
事前学習と下流微調整の間で同じアーキテクチャと学習目的を維持して、効果的な転移と整合を可能にする。
事前学習済みモデルを下流の言語ペアで微調整する；必要に応じてバックトランスレーションと組み合わせて性能をさらに向上させる。
言語間表現を均等化するために共有 BPE（32k マージ）で語彙をバランスさせ、言語を過剰サンプリングして表現を平等化する。

実験結果

リサーチクエスチョン

RQ1単一の普遍的なマルチリンガル事前学習 MT モデルは、微調整後に任意の言語ペアの効果的なシードとなり得るか？
RQ2Random Aligned Substitution (RAS) は言語間の意味表現を効果的に橋渡しし、翻訳品質を改善するか？
RQ3mRASP は極端に低資源、低資源、中資源、豊富資源設定およびエキゾチック翻訳シナリオでどのように機能するか？
RQ4事前学習と微調整の相対的寄与は最終的な MT 性能にどの程度影響するか？
RQ5mRASP は事前学習に現れない言語ペア（エキゾチック翻訳方向）にも有益か？

主な発見

mRASP は直接訓練されたバイリンガルモデルを大きく上回り、 extremely low から rich resource Settings までのエキゾチック翻訳にも有効である。
極端な低資源設定では +22 BLEU ポイントの利得が得られる（例：<100k データ）; 中〜豊富資源設定（例：En–Fr, En–Zh）でも大きな利得を示す。
整合意識を持つ事前学習（RAS）は言語間の意味空間を橋渡し、語のクロス言語類似性を高め、翻訳品質を改善する。
RAS を伴う事前学習を行い、その後微調整することで NA-mRASP（RAS なし）および直接訓練を常に上回る。バックトランスレーションは追加のブーストを提供することができる（約 2 BLEU 点）。
mBART や XLM のような他の事前学習モデルと比較して、mRASP は複数の言語ペアで競合的または優位な結果を達成し、エキゾチック言語が含まれても効果的である。
エキゾチック翻訳の実験では、エキゾチックペア・エキゾチック全体・エキゾチック元・エキゾチック先の4カテゴリで mRASP の利益が見られ、いずれの言語ペアも事前学習に現れなくても著しい利得がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。