[논문 리뷰] MuRIL: Multilingual Representations for Indian Languages
MuRIL은 인도 언어를 위해 구축된 다국어 BERT 스타일 인코더로, 단일 언어 MLM 데이터와 번역 및 음역된 교차 언어 데이터를 사용해 학습되었으며, XTREME IN 벤치마크에서 특히 음역된 세트에서 mBERT보다 우수합니다.
India is a multilingual society with 1369 rationalized languages and dialects being spoken across the country (INDIA, 2011). Of these, the 22 scheduled languages have a staggering total of 1.17 billion speakers and 121 languages have more than 10,000 speakers (INDIA, 2011). India also has the second largest (and an ever growing) digital footprint (Statista, 2020). Despite this, today's state-of-the-art multilingual systems perform suboptimally on Indian (IN) languages. This can be explained by the fact that multilingual language models (LMs) are often trained on 100+ languages together, leading to a small representation of IN languages in their vocabulary and training data. Multilingual LMs are substantially less effective in resource-lean scenarios (Wu and Dredze, 2020; Lauscher et al., 2020), as limited data doesn't help capture the various nuances of a language. One also commonly observes IN language text transliterated to Latin or code-mixed with English, especially in informal settings (for example, on social media platforms) (Rijhwani et al., 2017). This phenomenon is not adequately handled by current state-of-the-art multilingual LMs. To address the aforementioned gaps, we propose MuRIL, a multilingual LM specifically built for IN languages. MuRIL is trained on significantly large amounts of IN text corpora only. We explicitly augment monolingual text corpora with both translated and transliterated document pairs, that serve as supervised cross-lingual signals in training. MuRIL significantly outperforms multilingual BERT (mBERT) on all tasks in the challenging cross-lingual XTREME benchmark (Hu et al., 2020). We also present results on transliterated (native to Latin script) test sets of the chosen datasets and demonstrate the efficacy of MuRIL in handling transliterated data.
연구 동기 및 목표
- 기존 다국어 SM에서 IN-언어 표현이 제한되어 인도 언어에 특화된 언어 모델의 필요성을 제시한다.
- 단일언어 텍스트를 보강한 다국어 LM MuRIL을 개발하고 MLM과 지도 학습 Translation Language Modeling (TLM)을 도입한다.
- 교차언어 벤치마크(XTREME)와 음역된 테스트 세트에서 MuRIL을 mBERT와 비교 평가하여 IN 언어에서의 강건성을 입증한다.
제안 방법
- 단일언어 IN 데이터(17개 언어와 영어)를 대상으로 MLM를 사용하여 BERT-base 인코더를 학습한다.
- 번역 및 음역된 병렬 데이터를 사용하여 Translation Language Modeling (TLM)을 통한 감독된 교차언어 신호를 도입한다.
- 업샘플링된 언어-스무딩 코퍼스로 구성된 197,285 토큰의 IN-언어 WordPiece 어휘를 구성한다.
- 언어 표현의 균형을 맞추기 위해 단일언어 데이터(Wikipedia)를 업샘플링한다.
- 약 16B 토큰으로 사전 학습한 후, XTREME IN 과제에서 제로샷으로 미세조정/평가한다.
- TFHub와 HuggingFace용 MuRIL 인코더 및 사전학습 모델을 공개한다.
실험 결과
연구 질문
- RQ1인도 언어에 특화되어 사전학습된 언어 모델은 mBERT와 같은 일반 다국어 LM에 비해 교차언어 전이 작업에서 어떤 성능을 보이나요?
- RQ2번역 및 음역된 교차언어 데이터를 도입하면 IN 언어의 음역 테스트 세트에서 성능이 향상되나요?
- RQ3언어 중심 어휘가 IN 언어에서의 모델 효과성에 어떤 영향을 미치나요?
- RQ4영어 학습 데이터에서 제로샷 전이로 XTREME IN 벤치마크에서 MuRIL은 얼마나 잘 작동하나요?
- RQ5MuRIL은 음역된 데이터를 mBERT보다 더 효과적으로 다룰 수 있나요?
주요 결과
| 모델 | PANX (F1) | UDPOS (F1) | XNLI (정확도) | Tatoeba (정확도) | 평균 (F1/EM) |
|---|---|---|---|---|---|
| mBERT | 58.0 | 71.2 | 66.8 | 18.4 | 59.1 |
| MuRIL | 77.6 | 75.0 | 74.1 | 25.2 | 68.6 |
- MuRIL은 Table 1에서 평균 점수 68.6으로 mBERT의 59.1보다 XTREME IN 작업(PANX, UDPOS, XNLI, Tatoeba) 전반에서 크게 우수하다.
- MuRIL은 음역된 테스트 세트에서도 mBERT보다 현저히 높은 성능을 보인다( Table 2의 결과가 음역 평가 전반에서 이득을 보여준다).
- IN 언어 전반에서 MuRIL은 PANX, UDPOS, XNLI, XQuAD/MLQA 스타일 평가에서 언어별 점수가 더 높아 음역 및 문자 스크립트 변형에 대한 강건성을 보여준다.
- MuRIL의 IN-언어 전용 어휘 및 음역 인식 학습은 토큰화의 생성성을 낮추고 의미 콘텐츠를 더 잘 보존한다. mBERT보다 우수하다.
- 이 모델은 TFHub와 HuggingFace에서 공개되어 인도어 NLP 애플리케이션의 폭넓은 활용을 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.