Skip to main content
QUICK REVIEW

[論文レビュー] MuRIL: Multilingual Representations for Indian Languages

Simran Khanuja, Diksha Bansal|arXiv (Cornell University)|Mar 19, 2021
Natural Language Processing Techniques参考文献 14被引用数 158
ひとこと要約

MuRIL は、インド語用に特化して構築された多言語BERT風エンコーダで、monolingual MLMデータと翻訳・転写済みのクロスリンガルデータを用いて訓練され、XTREME IN ベンチマークで特に転写済みセットにおいて mBERT を上回る。

ABSTRACT

India is a multilingual society with 1369 rationalized languages and dialects being spoken across the country (INDIA, 2011). Of these, the 22 scheduled languages have a staggering total of 1.17 billion speakers and 121 languages have more than 10,000 speakers (INDIA, 2011). India also has the second largest (and an ever growing) digital footprint (Statista, 2020). Despite this, today's state-of-the-art multilingual systems perform suboptimally on Indian (IN) languages. This can be explained by the fact that multilingual language models (LMs) are often trained on 100+ languages together, leading to a small representation of IN languages in their vocabulary and training data. Multilingual LMs are substantially less effective in resource-lean scenarios (Wu and Dredze, 2020; Lauscher et al., 2020), as limited data doesn't help capture the various nuances of a language. One also commonly observes IN language text transliterated to Latin or code-mixed with English, especially in informal settings (for example, on social media platforms) (Rijhwani et al., 2017). This phenomenon is not adequately handled by current state-of-the-art multilingual LMs. To address the aforementioned gaps, we propose MuRIL, a multilingual LM specifically built for IN languages. MuRIL is trained on significantly large amounts of IN text corpora only. We explicitly augment monolingual text corpora with both translated and transliterated document pairs, that serve as supervised cross-lingual signals in training. MuRIL significantly outperforms multilingual BERT (mBERT) on all tasks in the challenging cross-lingual XTREME benchmark (Hu et al., 2020). We also present results on transliterated (native to Latin script) test sets of the chosen datasets and demonstrate the efficacy of MuRIL in handling transliterated data.

研究の動機と目的

  • 既存の multilingual SM における IN-language 表現の限定により、インド語に特化した言語モデルの必要性を喚起する。
  • MuRIL を開発する。monolingual-text を拡張した多言語LMで、MLMと監督付き Translation Language Modeling (TLM) を備える。
  • XTREME などの跨言語ベンチマークと転写テストセットに対して MuRIL を mBERT と比較評価し、IN 言語に対する頑健性を示す。

提案手法

  • monolingual IN データ(17 言語と English を含む)上で MLM を用いて BERT-base エンコーダを訓練する。
  • 翻訳済みおよび転写済みの並列データを用いて Translation Language Modeling (TLM) による監督付きの跨言語信号を組み込む。
  • アップサンプリングされた言語平滑化コーパスから構築した、197,285 トークンの IN 言語に焦点を当てた WordPiece 語彙を構築する。
  • 言語表現のバランスをとるため、モノリンガルデータ(Wikipedia)をアップサンプリングする。
  • 約 ~16B トークンで事前訓練し、XTREME IN タスクでゼロショット設定において微調整/評価を行う。
  • MuRIL エンコーダと事前訓練済みモデルを TFHub と HuggingFace で公開する。

実験結果

リサーチクエスチョン

  • RQ1インド語に特化して事前訓練された言語モデルは、mBERT のような一般的な多言語LMと比較して、跨言語転移タスクでどのように性能を示すか?
  • RQ2翻訳済みおよび転写済みの跨言語データを組み込むと、IN 言語の転写テストセットでの性能は向上するか?
  • RQ3言語に焦点を当てた語彙が IN 言語のモデル性能に与える影響は?
  • RQ4英語の訓練データからのゼロショット転移において、MuRIL は XTREME IN ベンチマークでどの程度通用するか?
  • RQ5MuRIL は mBERT より転写データをより効果的に扱えるか?

主な発見

モデルPANX (F1)UDPOS (F1)XNLI (Acc.)Tatoeba (Acc.)平均 (F1/EM)
mBERT58.071.266.818.459.1
MuRIL77.675.074.125.268.6
  • MuRIL は XTREME IN のタスク(PANX, UDPOS, XNLI, Tatoeba)全体で mBERT を大幅に上回り、Table 1 の平均スコアは 68.6 対 59.1(mBERT)である。
  • MuRIL は転写済みテストセットでも mBERT より著しく高い性能を示す(Table 2 の結果は転写評価全般での利得を示す)。
  • IN 語群全体で、MuRIL は PANX, UDPOS, XNLI および XQuAD/MLQA 風の評価において言語ごとのスコアが高く、転写およびスクリプトの多様性に対する頑健性を示している。
  • MuRIL の専用 IN 言語語彙と転写対応訓練は、トークン化の肥大化を抑制し、意味内容を mBERT より良く保持する。
  • このモデルは公開されており(TFHub および HuggingFace)、インド語NLPアプリケーションのより広い利用を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。