Skip to main content
QUICK REVIEW

[論文レビュー] XLM-E: Cross-lingual Language Model Pre-training via ELECTRA

Zewen Chi, Shaohan Huang|arXiv (Cornell University)|Jun 30, 2021
Natural Language Processing Techniques被引用数 24
ひとこと要約

XLM-E は cross-lingual learning の ELECTRA-style 事前学習タスクを導入し、多言語置換トークン検出と翻訳置換トークン検出を組み合わせて、はるかに低い計算量で競争力のあるクロスリンガル理解を実現する。

ABSTRACT

In this paper, we introduce ELECTRA-style tasks to cross-lingual language model pre-training. Specifically, we present two pre-training tasks, namely multilingual replaced token detection, and translation replaced token detection. Besides, we pretrain the model, named as XLM-E, on both multilingual and parallel corpora. Our model outperforms the baseline models on various cross-lingual understanding tasks with much less computation cost. Moreover, analysis shows that XLM-E tends to obtain better cross-lingual transferability.

研究の動機と目的

  • MLMベースのアプローチよりも計算量効率の高い目的でクロスリンガル事前学習を動機づける。
  • 多言語データと並列データに対して ELECTRA 風の識別的な事前学習タスクを提案する。
  • 多言語コーパスと並列コーパスの両方で XLM-E を事前学習し、クロスリンガル移転を改善する。
  • XTREME ベンチマーク全体で効率性の向上と転移性を実証する。

提案手法

  • コアの事前学習目的として ELECTRA 風の置換トークン検出を採用する。
  • 言語間で共有される生成器/識別器を用いて Multilingual Replaced Token Detection (MRTD) を定義する。
  • 翻訳対の置換トークンを検出するために並列コーパスを用いた Translation Replaced Token Detection (TRTD) を定義する。
  • 多言語データと並列データで、結合損失を用いて小さい方の生成器と識別器を共同で事前学習する。
  • 自己注意にゲート付き相対位置バイアスを導入してクロスリンガル信号に適応する。
  • 大規模トレーニングを安定化させるために Transformer パラメータを慎重に初期化する。

実験結果

リサーチクエスチョン

  • RQ1多言語データと並列データに対する識別的な ELECTRA 風の事前学習は、競争力のあるクロスリンガル表現を生み出すだろうか?
  • RQ2MRTD/TRTD は MLM ベースの事前学習と比較してクロスリンガル転送性と効率性を向上させるか?
  • RQ3モデルサイズの拡大に伴う XLM-E のスケールはどうなるか、基準モデルに対する計算コストはどの程度か?
  • RQ4ゲート付き相対位置バイアスがクロスリンガル整列と転移タスクに与える影響は?
  • RQ5アライメントとリトリーバルタスクで示されるように、XLM-E 表現は言語間で普遍的に整列するか?

主な発見

  • XLM-E は XTREME で XLM-R および XLM-Align よりはるかに低い計算量で強力なクロスリンガル性能を達成する。
  • 識別的な事前学習(MRTD/TRTD)とゲート付き相対位置バイアスは、クロスリンガル転送と表現の整列を改善する。
  • XLM-E(Large/XL)をスケールアップすると、より多くの改善が得られ、より大きなベースラインと比較してパラメータ効率を維持する。
  • いくつかのタスクでより良いクロスリンガル整列と転送ギャップの低下を示し、普遍的な表現の改善を示唆する。
  • アブレーション分析は TRTD とゲイト付き位置偏りが有益であり、それらを除去すると性能が低下することを示す。
  • XLM-E は顕著な効率性を示し、XTREME 結果を維持・向上させつつ FLOPs が低い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。