QUICK REVIEW

[논문 리뷰] XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked Language Models

Davis Liang, Hila Gonen|arXiv (Cornell University)|2023. 01. 25.

Topic Modeling인용 수 10

한 줄 요약

XLM-V는 어휘 병목을 극복하기 위해 1M-token 다국어 어휘를 도입하고, 다양한 다국어 작업에서 XLM-R에 비해 일관된 이점을 달성하며 특히 저자원 언어에서 성능 향상을 보입니다.

ABSTRACT

Large multilingual language models typically rely on a single vocabulary shared across 100+ languages. As these models have increased in parameter count and depth, vocabulary size has remained largely unchanged. This extit{vocabulary bottleneck} limits the representational capabilities of multilingual models like XLM-R. In this paper, we introduce a new approach for scaling to very large multilingual vocabularies by de-emphasizing token sharing between languages with little lexical overlap and assigning vocabulary capacity to achieve sufficient coverage for each individual language. Tokenizations using our vocabulary are typically more semantically meaningful and shorter compared to XLM-R. Leveraging this improved vocabulary, we train XLM-V, a multilingual language model with a one million token vocabulary. XLM-V outperforms XLM-R on every task we tested on ranging from natural language inference (XNLI), question answering (MLQA, XQuAD, TyDiQA), to named entity recognition (WikiAnn). XLM-V is particularly effective on low-resource language tasks and outperforms XLM-R by 11.2% and 5.8% absolute on MasakhaNER and Americas NLI, respectively.

연구 동기 및 목표

매우 다국어 모델에서 어휘 용량을 클러스터당 언어에 맞춰 확장하여 어휘 병목을 동기화하고 해결하기 위한 동기 부여 및 addressed를 제시합니다.
표면적으로는 어휘 공유가 낮은 경우에도 언어 간 토큰 공유의 중요성을 낮추고 대규모 다국어 어휘를 확장하는 확장 가능한 방법을 개발합니다.
1M 토큰 어휘를 갖춘 다국어 모델을 사전학습하고 다수의 작업과 언어에서의 성능 향상을 평가합니다.

제안 방법

CC100 유래 데이터에서 각 언어별 SentencePiece(ULM 기반) 어휘를 학습합니다.
각 언어를 어휘의 unigram 로그 확률로 표현하여 언어 지문(language fingerprint)을 만듭니다.
이 지문들을 사용해 K-Means로 언어를 클러스터링하여 교차 클러스터 토큰 공유를 제한하는 언어 클러스터를 형성합니다.
ALP 기반 용량 할당을 사용해 클러스터별 어휘 용량을 할당합니다(예: 1M에 맞춰 총합 목표에 맞춤).
클러스터별 SPM을 학습하고 클러스터 어휘를 하나의 다국어 어휘로 결합합니다.
CC100에서 MLM 목표로 12층 트랜스포머를 approximate softmax 트릭 없이 1.5M 반복 학습하고 교차 언어 전이를 통해 평가합니다.

Figure 1: Similar to Chung et al. ( 2020 ) , we also leverage the per-language sentencepiece vocabularies as a “lexical fingerprint” for clustering. However, instead of using binary vectors, we use the unigram log probability instead.

실험 결과

연구 질문

RQ1더 큰 언어 인식 다국어 어휘가 다양한 언어에서 교차 언어 전이 및 작업 성능을 개선할 수 있는가?
RQ2언어 인식 어휘 할당이 과도한 토큰화를 줄이고 저자원 언어의 성능을 향상시키는가?
RQ31M 토큰 어휘를 사용할 때 학습 속도와 모델 용량의 트레이드오프는 250K와 비교하여 어떤가?
RQ41M을 초과하는 어휘 증가에서 Zipf 이론에 근접한 한계가 있어 수익 감소나 성능 저하가 나타나는가?

주요 결과

모델	XNLI Acc.	NER Acc.	MLQA EM / F1	TyDiQA EM / F1	XQuAD EM / F1	ANLI F1	MNER F1	AVG
XLM	69.1	-	32.6 / 48.5	29.1 / 43.6	44.3 / 59.8	-	-	-
XLM-R	76.2	-	46.3 / 63.7	- / -	- / -	38.5	-	-
XLM-R reimpl.	74.9	61.3	46.7 / 64.4	38.3 / 56.0	56.0 / 71.3	39.6	20.9	55.5
XLM-V	76.0	64.7	47.7 / 66.0	39.7 / 56.9	56.3 / 71.9	45.4	32.1	59.0

XLM-V는 교차 언어 전이에서 모든 테스트 다국어 작업(XNLI, MLQA, XQuAD, TyDiQA, WikiAnn)에서 XLM-R보다 우수하며 평균 약 3.5 포인트의 향상을 보입니다.
저자원 언어에서 뚜렷한 이점을 달성합니다. 예를 들어 Swahili에서 +4.7% 정확도, Urdu에서 +2.9% XNLI; MasakhaNER는 절대 F1에서 +11.2%를 보입니다.
미주 지역 NLI에서 제로샷 개선을 제공하며 Quechua와 Guaraní에서 각각 절대 F1 18.2% 및 17.2%의 이점을 보입니다.
1M 어휘를 사용한 토큰화는 출력이 더 짧아지고 의미 있는 구간으로 의미적으로 분절됩니다(예: 중국어 문장을 의미 있는 단위로 분할).
1M 토큰을 넘는 확장은 다운스트림 성능을 저하시킬 수 있으며, 대부분의 콘텐츠가 이미 커버되고 꼬리 토큰이 유용한 신호를 거의 제공하지 않는 Zipf 상한을 시사합니다.

Figure 2: We compare the performance of the same model trained with different sentencepiece vocabularies. The models are all trained for 300K iterations with a batch size of 2,048 on the CC100 corpus.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.