Skip to main content
QUICK REVIEW

[論文レビュー] InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language Model Pre-Training

Zewen Chi, Li Dong|arXiv (Cornell University)|Jul 15, 2020
Topic Modeling参考文献 43被引用数 77
ひとこと要約

InfoXLM はクロスリンガル前訓練を多言語ビュー間の相互情報最大化として定式化し、XlCo というクロスリンガル対比タスクを導入する。モノリンガルデータと平行データを活用して転送性を向上させる。

ABSTRACT

In this work, we present an information-theoretic framework that formulates cross-lingual language model pre-training as maximizing mutual information between multilingual-multi-granularity texts. The unified view helps us to better understand the existing methods for learning cross-lingual representations. More importantly, inspired by the framework, we propose a new pre-training task based on contrastive learning. Specifically, we regard a bilingual sentence pair as two views of the same meaning and encourage their encoded representations to be more similar than the negative examples. By leveraging both monolingual and parallel corpora, we jointly train the pretext tasks to improve the cross-lingual transferability of pre-trained models. Experimental results on several benchmarks show that our approach achieves considerably better performance. The code and pre-trained models are available at https://aka.ms/infoxlm.

研究の動機と目的

  • クロスリンガル事前学習タスク(MMLM、TLM)とそれらのクロスリンガル効果を統一的な情報理論的見解で提供する。
  • 新しい事前学習タスク XlCo を導入し、翻訳ペア間の列レベル相互情報を最大化する。
  • モノリンガルコーパスと平行コーパスを共同利用してより良いクロスリンガル転送を実現する InfoXLM を開発する。
  • クロスリンガル自然言語推論、質問応答、文検索で InfoXLM を評価する。

提案手法

  • クロスリンガル事前学習を多言語多粒度テキスト間の相互情報を最大化することとして定式化する。
  • MMLMを I(c1; x1) を最大化し、クロス言語アンカー I(x1; x2) を最大化することとして再解釈し、クロスリンガル相関を促進する。
  • TLM を I(c1, c2; x1) を最大化することとして説明し、従って跨言語コンテキストを活用する。
  • InfoNCE を用いた momentum-contrast 構成と大規模な negative 集を伴い、I(c1; c2) を最大化するための XlCo を提案する。
  • ミックスアップ対比を適用し、普遍層での対比を行ってクロスリンガル転送性を向上させる。
  • 英語ピボット整列と多言語サンプリングを用いて MMLM, TLM, and XlCo を共同最適化して InfoXLM を事前学習する。

実験結果

リサーチクエスチョン

  • RQ1情報理論的フレームワークは既存のクロスリンガル事前学習タスクを統一し、それらのクロスリンガル転送効果を説明できるか?
  • RQ2クロスリンガル対比タスク(XlCo)の導入は、MMLM/TLM のみと比較してクロスリンガル整合性と下流転送を改善するか?
  • RQ3普遍層での XlCo の実行が最終層での実行と比較してどのような影響を及ぼすか?
  • RQ4ミックスアップ対比と momentum contrast はクロスリンガル転送と表現品質にどのように寄与するか?
  • RQ5InfoXLM は複数言語にわたる XNLI、MLQA、クロスリンガル文検索でより良い性能を達成するか?

主な発見

  • InfoXLM は XNLI、MLQA、およびクロスリンガル検索タスクで強力なベースラインを上回る。
  • 跨言語対比(XlCo)はゼロショット転送と跨言語整合を改善し、特に普遍層で使用した場合に効果的。
  • XlCo と TLM を組み合わせると、どちらのタスク単独よりも強力な跨言語転送を生み出し、momentum contrast は表現を強化する。
  • InfoXLM は MLQA および XNLI で英語と他言語間の跨言語転送ギャップを縮小する。
  • InfoXLM base および large モデルは XLM-R および関連ベースラインと比較して、複数のベンチマークで競争力のあるまたは優れた結果を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。