QUICK REVIEW

[論文レビュー] Emerging Cross-lingual Structure in Pretrained Language Models

Shijie Wu, Alexis Conneau|arXiv (Cornell University)|Nov 4, 2019

Topic Modeling参考文献 45被引用数 26

ひとこと要約

この論文は、共通のサブワードやドメインの類似性がなくても、多言語マスクed言語モデルが主に上位のTransformer層におけるパラメータ共有を通じて多言語表現を学習することを示している。異なる言語で独立して学習された単言語BERTモデルが、単純な線形変換によっても一致させられることを示しており、単語埋め込みに類似する普遍的な潜在的対称性が存在することを明らかにした。これは、mBERTが最小限のアーキテクチャ制約のもとで強力なゼロショット転送を達成できる理由を説明している。

ABSTRACT

We study the problem of multilingual masked language modeling, i.e. the training of a single model on concatenated text from multiple languages, and present a detailed study of several factors that influence why these models are so effective for cross-lingual transfer. We show, contrary to what was previously hypothesized, that transfer is possible even when there is no shared vocabulary across the monolingual corpora and also when the text comes from very different domains. The only requirement is that there are some shared parameters in the top layers of the multi-lingual encoder. To better understand this result, we also show that representations from independently trained models in different languages can be aligned post-hoc quite effectively, strongly suggesting that, much like for non-contextual word embeddings, there are universal latent symmetries in the learned embedding spaces. For multilingual masked language modeling, these symmetries seem to be automatically discovered and aligned during the joint training process.

研究の動機と目的

多言語マスクed言語モデルにおける多言語間転送を可能にする要因を特定すること。
有効な多言語表現学習のためには、共有語彙やドメインの類似性が必須であるかどうかを特定すること。
異なる言語で独立して学習された単言語BERTモデルが、構造的に類似性を示すかどうかを検討すること。
言語間の表現空間をマッピングするための線形アライメント技術の有効性を評価すること。
パラメータ共有とアーキテクチャ設計が、出現する多言語表現学習に果たす役割を理解すること。

提案手法

共通語彙、共有サブワードトークン化、ドメインの重なりのレベルを変化させた二言語BERTモデルを用いたアブレーションスタディを実施し、多言語間転送の主な要因を特定する。
複数の言語で単言語BERTモデルを独立して学習し、隠れ表現の類似性を評価するためにProcrustesアライメントを適用する。
すべてのTransformer層にわたり、単言語モデルと二言語モデル間のニューラルネットワーク類似度を測定するために、センター化されたカーネルアライメント（CKA）を用いる。
二言語辞書を用いて人工的なコードスイッチドコーパスを生成し、言語距離の遠い言語のための仮想のアンカーポイントを提供する。
サブワードレベルおよび文脈的表現レベルの両方で、単言語BERTモデルの埋め込み空間を線形マッピングによりアライメントする手法を適用する。
限られた平行データを用いて、ゼロショット多言語間転送タスクおよび平行文の検索タスクでアライメント性能を評価する。

実験結果

リサーチクエスチョン

RQ1多言語マスクed言語モデルにおける多言語間転送に最も重要な要因は何か—共有語彙、ドメインの類似性、またはパラメータ共有か？
RQ2パラメータの共有が一切ない状態で、独立して学習された単言語BERTモデルでも、言語間で類似した表現を学習できるか？
RQ3単純な線形変換によって、単言語BERTモデルの表現をどの程度アライメントできるか。また、そのアライメントは多言語間転送にどの程度有効か？
RQ4Transformerエンコーダーの異なる層における表現の類似度はどのように変化するか。言語の距離に応じて変化するか？
RQ5人工的なコードスイッチドデータは、とくに言語距離の遠い言語において、多言語アライメントを改善できるか？

主な発見

多言語エンコーダーの上位層におけるパラメータ共有が、多言語表現学習の主な要因である。共通のサブワードが存在しなくても、性能は依然として高い。
共有語彙やドメインの類似性がなくても、多言語間転送は効果的である。これは、パラメータの共有そのものが、表現の意味的な一致を可能にする。
異なる言語で学習された単言語BERTモデルは、高い構造的類似性を示しており、線形マッピングによるアライメント性能が顕著である。10,000件の平行文のみで、平行文検索タスクで90％以上の精度を達成した。
多言語BERTモデルの初期層では、言語間でCKA類似度が高く、低レベル特徴がより普遍的に共有されていることを示唆している。
CKA類似度とアライメント性能の間に強い相関（r > 0.9）が確認され、ニューラルネットワーク類似度指標が多言語間転送効果を信頼性高く予測できることを裏付けた。
言語距離が遠い言語ペアでは、単言語モデルと二言語モデルの類似度ギャップが小さくなる。これは、言語の距離が大きいほど共同学習の恩恵が小さいことを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。