QUICK REVIEW

[論文レビュー] XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked Language Models

Davis Liang, Hila Gonen|arXiv (Cornell University)|Jan 25, 2023

Topic Modeling被引用数 10

ひとこと要約

XLM-Vは、語彙ボトルネックを克服するためにクラスタ化された言語特有の容量を備えた1Mトークンの多言語語彙を導入し、多様な多言語タスクでXLM-Rに対して一貫した利点をもたらす。特にリソースの少ない言語で顕著。

ABSTRACT

Large multilingual language models typically rely on a single vocabulary shared across 100+ languages. As these models have increased in parameter count and depth, vocabulary size has remained largely unchanged. This extit{vocabulary bottleneck} limits the representational capabilities of multilingual models like XLM-R. In this paper, we introduce a new approach for scaling to very large multilingual vocabularies by de-emphasizing token sharing between languages with little lexical overlap and assigning vocabulary capacity to achieve sufficient coverage for each individual language. Tokenizations using our vocabulary are typically more semantically meaningful and shorter compared to XLM-R. Leveraging this improved vocabulary, we train XLM-V, a multilingual language model with a one million token vocabulary. XLM-V outperforms XLM-R on every task we tested on ranging from natural language inference (XNLI), question answering (MLQA, XQuAD, TyDiQA), to named entity recognition (WikiAnn). XLM-V is particularly effective on low-resource language tasks and outperforms XLM-R by 11.2% and 5.8% absolute on MasakhaNER and Americas NLI, respectively.

研究の動機と目的

大規模多言語モデルにおける語彙ボトルネックを動機づけ、言語クラスターごとに語彙容量を拡張する。
語彙の重複が低い場合に跨言語トークン共有を過度に重視しない、大規模な多言語語彙を構築するためのスケーラブルな方法を開発する。
1Mトークン語彙を備えた多言語モデルを事前学習し、複数のタスクと言語での性能向上を評価する。

提案手法

CC100由来データ上で言語ごとの SentencePiece（ULMベース）語彙を訓練する。
各言語を、言語ごとの語彙からのユニグラム対数確率を用いた言語フィンガープリントで表す。
これらの語彙フィンガープリントを用いてK-Meansで言語をクラスタリングし、クラスター間のトークン共有を制限する言語クラスタを形成する。
ALPに基づく容量割り当てを用いて各クラスタの語彙容量を割り当てる（総計を目標値にスケール、例: 1M）。
各クラスタのSPMを訓練し、クラスタ語彙を単一の多言語語彙に結合する。
CC100上で MLM 目的で12層トランスフォーマーを事前訓練する（1.5M iterations、1M vocab、近似softmaxの tricksなし）；クロスリンガル転移で評価する。

Figure 1: Similar to Chung et al. ( 2020 ) , we also leverage the per-language sentencepiece vocabularies as a “lexical fingerprint” for clustering. However, instead of using binary vectors, we use the unigram log probability instead.

実験結果

リサーチクエスチョン

RQ1より大きく、言語を意識した多言語語彙は、さまざまな言語にわたる跨言語転移とタスク性能を向上させるのか。
RQ2言語を意識した語彙割り当ては過剰トークン化を減らし、リソースが少ない言語の性能を改善するのか。
RQ31Mトークン語彙を使用した場合と250Kの場合の学習速度とモデル容量のトレードオフはどうなるか。
RQ41Mを超える語彙を増やすと、リターンが減少する Zipf 型の天井のようなものはあるのか、あるいは性能が低下するのか。

主な発見

モデル	XNLI 精度	NER 精度	MLQA EM / F1	TyDiQA EM / F1	XQuAD EM / F1	ANLI F1	MNER F1	平均
XLM	69.1	-	32.6 / 48.5	29.1 / 43.6	44.3 / 59.8	-	-	-
XLM-R	76.2	-	46.3 / 63.7	- / -	- / -	38.5	-	-
XLM-R reimpl.	74.9	61.3	46.7 / 64.4	38.3 / 56.0	56.0 / 71.3	39.6	20.9	55.5
XLM-V	76.0	64.7	47.7 / 66.0	39.7 / 56.9	56.3 / 71.9	45.4	32.1	59.0

XLM-Vは、XNLI、MLQA、XQuAD、TyDiQA、WikiAnn の全ての tested multilingual tasks でXLM-Rを上回り、跨言語転移で平均約3.5ポイントの向上を達成。
リソースが少ない言語で顕著な向上を達成、例: Swahiliで+4.7%Accuracy、Urduで+2.9%Accuracy（XNLI）; MasakhaNERは+11.2% absolute F1。
Americas NLIでゼロショットの改善を示し、QuechuaとGuaraníで顕著な向上（それぞれ absolute F1で18.2%と17.2%）。
1M語彙によるトークン化は出力を短くし、意味のあるセグメントを生成（例: 中国語の文を意味のある単位に分割）。
1Mを超える語彙を拡張すると下流タスクの性能が低下する可能性があり、多くのコンテンツがすでにカバーされ、尾部トークンが有用な信号をほとんど提供しないZipf天井を示唆している。

Figure 2: We compare the performance of the same model trained with different sentencepiece vocabularies. The models are all trained for 300K iterations with a batch size of 2,048 on the CC100 corpus.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。