Skip to main content
QUICK REVIEW

[論文レビュー] WECHSEL: Effective initialization of subword embeddings for cross-lingual transfer of monolingual language models

Benjamin Minixhofer, Fabian Paischer|arXiv (Cornell University)|Dec 13, 2021
Topic Modeling参考文献 47被引用数 25
ひとこと要約

WECHSELは、多言語の静的単語埋め込みを用いてサブワード埋め込みを初期化することで、単言語言語モデルを新しい言語に転送する手法であり、最大64倍少ない学習コストで、新規に訓練されたモデルと同等の性能を達成する。これは、ランダム初期化や従来の転送手法(例:TransInner)を上回り、低リソース言語を含む複数の言語で有効である。

ABSTRACT

Large pretrained language models (LMs) have become the central building block of many NLP applications. Training these models requires ever more computational resources and most of the existing models are trained on English text only. It is exceedingly expensive to train these models in other languages. To alleviate this problem, we introduce a novel method -- called WECHSEL -- to efficiently and effectively transfer pretrained LMs to new languages. WECHSEL can be applied to any model which uses subword-based tokenization and learns an embedding for each subword. The tokenizer of the source model (in English) is replaced with a tokenizer in the target language and token embeddings are initialized such that they are semantically similar to the English tokens by utilizing multilingual static word embeddings covering English and the target language. We use WECHSEL to transfer the English RoBERTa and GPT-2 models to four languages (French, German, Chinese and Swahili). We also study the benefits of our method on very low-resource languages. WECHSEL improves over proposed methods for cross-lingual parameter transfer and outperforms models of comparable size trained from scratch with up to 64x less training effort. Our method makes training large language models for new languages more accessible and less damaging to the environment. We make our code and models publicly available.

研究の動機と目的

  • 英語以外の言語で大規模言語モデルを新規に訓練する際の高い計算コストと環境負荷を軽減すること。
  • 多言語の静的単語埋め込みを活用してサブワード埋め込みを初期化することで、クロスリンガル転送の効率を向上させること。
  • ロバーターやGPT-2のような単言語モデルを、最小限の学習で低リソース・中リソース言語に効果的に転送できること。
  • 多言語性の「呪い」により性能が低下する大規模な多言語モデルに依存するのを減らすこと。
  • 新言語における大規模言語モデルの訓練を、よりアクセス可能で環境に配慮した形で可能にすること。

提案手法

  • 元の英語モデルの非埋め込みパラメータをすべてコピーして、ターゲット言語用のモデルに転送する。
  • 英語用のトークナイザーをターゲット言語用のトークナイザーに置き換えることで、新しい言語におけるサブワードトークン化を可能にする。
  • 意味的類似度を用いて多言語の静的単語埋め込みをサブワードユニットにマッピングすることで、ターゲット言語のサブワード埋め込みを初期化する。
  • fastTextなどの多言語単語埋め込みを用いて、ターゲット言語のサブワードを意味的に類似した英語サブワードに一致させる。
  • 最小限のファインチューニングステップでターゲットモデルを訓練することで、新規訓練と比較して著しく学習コストを削減する。
  • RoBERTaのようなエンコーダー構造とGPT-2のようなデコーダー構造の両方を、低リソース言語も含む複数の言語で適用する。

実験結果

リサーチクエスチョン

  • RQ1多言語の静的単語埋め込みを用いてサブワード埋め込みを効果的に初期化することで、単言語言語モデルのクロスリンガル転送が向上するか?
  • RQ2WECHSELは、ランダム初期化や従来の転送手法と比較して、高い性能に到達するための学習ステップ数を削減できるか?
  • RQ3データと計算リソースが限られた低リソース言語において、WECHSELはどの程度有効か?
  • RQ4より多くの計算リソースを要する新規訓練で学習された同サイズのモデルと比較して、WECHSELは優れた性能を発揮するか?
  • RQ5TransInnerのような手法と比較して、WECHSELでは非埋め込みパラメータを凍結する必要があるか?

主な発見

  • WECHSELは、すべての言語とタスク(RoBERTaのNERやNLI、GPT-2のパープレキシティ)において、ランダム初期化モデル(FullRand)やTransInner手法を上回る性能を発揮した。
  • RoBERTaでは、フランス語、ドイツ語、中国語、スワヒリ語のNERおよびNLIタスクで最先端の性能を達成し、CamemBERT や GBERTBase が要する学習ステップの1/64のステップ数で実現した。
  • GPT-2では、中リソース・低リソース言語において、FullRand や TransInner と比較して低いパープレキシティを達成し、データが少ない状況でも一貫した改善が見られた。
  • スンダ語、スコットランドゲール語、ウイグル語、マラガシ語のような低リソース言語では、データ不足が進むほどWECHSELの性能向上が顕著に現れ、低リソース環境への高い耐性を示した。
  • WECHSELでは、非埋め込みパラメータを凍結する必要がなく、TransInnerとは異なり、意味的初期化によって学習が初期段階から安定することが示唆された。
  • 本手法により、新言語における効果的な単言語言語モデルの訓練が、新規訓練の最大64倍少ない学習努力で可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。