Skip to main content
QUICK REVIEW

[論文レビュー] How multilingual is Multilingual BERT?

Telmo Pires, Eva Schlinger|arXiv (Cornell University)|Jun 4, 2019
Natural Language Processing Techniques参考文献 16被引用数 139
ひとこと要約

本論文は、104言語で訓練された Multilingual BERT (M-BERT) が強力なゼロショットのクロスリンガル転送を示すことを実証しており、単なる語彙の重複を超える多言語表現を明らかにし、言語類似性や文字系に応じて転送の成功度が異なることを示している。

ABSTRACT

In this paper, we show that Multilingual BERT (M-BERT), released by Devlin et al. (2018) as a single language model pre-trained from monolingual corpora in 104 languages, is surprisingly good at zero-shot cross-lingual model transfer, in which task-specific annotations in one language are used to fine-tune the model for evaluation in another language. To understand why, we present a large number of probing experiments, showing that transfer is possible even to languages in different scripts, that transfer works best between typologically similar languages, that monolingual corpora can train models for code-switching, and that the model can find translation pairs. From these results, we can conclude that M-BERT does create multilingual representations, but that these representations exhibit systematic deficiencies affecting certain language pairs.

研究の動機と目的

  • 明示的なクロスリンガルトレーニングを行わずに、M-BERT が言語間でどれだけ一般化できるかを調査する。
  • 言語間転送が語彙の重複(語彙)に依存するのか、それともより深い多言語表現に依存するのかを検討する。
  • 異なるスクリプトとコードスイッチングのシナリオにおける転送を分析する。
  • 構造的類似性(語彙類型学的類似性)の影響を、クロスリンガル一般化に対して探る。
  • M-BERT の多言語特徴空間の構造を特徴づける。

提案手法

  • 104言語で事前学習され、共有のワードピース語彙を用いる M-BERT を使用する。
  • 1つの言語のタスクデータでファインチューニングし、NERとPOS taggingで他言語に対してゼロショットを評価する。
  • 語彙重複への依存を評価するため、ゼロショットの性能を英語中心モデルと比較する。
  • 言語スクリプトと語類型特徴を変化させ、クロススクリプトおよびクロス言語転送を研究する。
  • 言語間でM-BERT の多言語特徴空間の幾何をマッピングする probing 分析を実施する。

実験結果

リサーチクエスチョン

  • RQ1異なるスクリプトを持つ言語間でM-BERTはゼロショットのクロスリンガル転送を可能にするか。
  • RQ2語彙の重複がクロスリンガル転送をどの程度駆動するのか、そして M-BERT が語彙の記憶以上の転送を果たせるのか。
  • RQ3語類型的類似性はゼロショット転換性能にどのように影響するか。
  • RQ4多言語前処理なしで、コードスイッチしたテキストや音訳テキストへ一般化できるか。
  • RQ5言語間での M-BERT の多言語表現空間の構造はどのようになっているか。

主な発見

Fine-tuning languageEval languageendenles
enen90.70---
ende-69.74--
ennl--77.36-
enes---73.59
deen-73.83--
dede-82.00--
denl--76.25-
dees---70.03
nlen----
nlde--65.68-
nlnl--89.86-
nles---72.10
esen----
esde---59.40
esnl---64.39
eses---87.18
  • M-BERT は、異なるスクリプトを含む言語ペアを含む言語間で強力なゼロショット NER および POS の性能を達成する。
  • ゼロショット NER 転送は語彙重複にほとんど依存せず、語彙メモリ以上の多言語表現を示している。
  • POS 転送は欧州言語ペア間で高精度を示す(多くのケースで >80%)、スクリプトと類型によって変動する。
  • スクリプトを跨ぐ転送は可能(例: ウルドゥー語からヒンディー語)、ただし一様ではなく、類型的類似性は転送性能を高める。
  • コードスイッチングと音訳は課題を孕み、音訳対応トレーニングがないと音訳転送は弱い。
  • probing は M-BERT の下位層に言語非依存のサブ空間を示唆し、上位層で言語特有の信号が現れる。
  • 著者らは、M-BERT が多言語表現を学習するが、特定の言語ペアには体系的な欠陥があると結論づけ、クロス言語一般化を改善するために明示的な多言語トレーニング目的の必要性を示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。