QUICK REVIEW

[論文レビュー] XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization

Junjie Hu, Sebastian Ruder|arXiv (Cornell University)|Mar 24, 2020

Topic Modeling参考文献 59被引用数 299

ひとこと要約

XTREMEは、40言語と9つのタスクを横断する広範なゼロショット型クロスリンガルベンチマークを導入し、多言語表現と転移学習を評価する。特に構文や文の検索タスクで顕著なクロスリンガルギャップを明らかにする。

ABSTRACT

Much recent progress in applications of machine learning models to NLP has been driven by benchmarks that evaluate models across a wide variety of tasks. However, these broad-coverage benchmarks have been mostly limited to English, and despite an increasing interest in multilingual models, a benchmark that enables the comprehensive evaluation of such methods on a diverse range of languages and tasks is still missing. To this end, we introduce the Cross-lingual TRansfer Evaluation of Multilingual Encoders XTREME benchmark, a multi-task benchmark for evaluating the cross-lingual generalization capabilities of multilingual representations across 40 languages and 9 tasks. We demonstrate that while models tested on English reach human performance on many tasks, there is still a sizable gap in the performance of cross-lingually transferred models, particularly on syntactic and sentence retrieval tasks. There is also a wide spread of results across languages. We release the benchmark to encourage research on cross-lingual learning methods that transfer linguistic knowledge across a diverse and representative set of languages and tasks.

研究の動機と目的

英語中心のタスクを超えた、包括的なクロスリンガル評価ベンチマークの必要性を動機づける。
言語タイプが多様で系統的に広範な言語とタスクのセットを提供し、クロスリンガル転移能力を評価する。
多言語表現学習を進めるための標準化された評価とベースラインの普及を促す。
言語やタスクを横断する現在の最先端クロスリンガルモデルの限界を分析する。

提案手法

Cross-lingual Transfer Evaluation of Multilingual Encoders (xtreme) ベンチマークを40言語と9タスクで定義する。
トレーニングデータが英語のみでターゲット言語で評価するゼロショットのクロスリンガル転送を採用する。
意味転移を複数の言語レベルで検証するため、分類、構造化推定、QAを含むタスクを組み立てる。
診断用の擬似（翻訳済み）テストセットを提供し、すべての言語を網羅し、より広範な分析を可能にする。
強力なベースライン（mBERT、XLM、XLM-R、MMTE）と翻訳ベースのアプローチを評価し、コードとリーダーボードを公開する。
転送ダイナミクスを理解するために、性能と事前学習データサイズ、言語系統、表記系との相関を分析する。

実験結果

リサーチクエスチョン

RQ1現在の多言語表現は、ゼロショット設定で40の系統的に多様な言語に対して9タスクを横断してどれだけ転送できるか？
RQ2主要なクロスリンガル転送ギャップは何で、タスクや言語ファミリーまたはスクリプトによってどう変化するか？
RQ3翻訳ベースの拡張やインランゲージ（各言語内）トレーニングデータは、ゼロショット転送と比較してクロスリンガル転送を改善するか？
RQ4事前学習データサイズと言語特性（ファミリー、スクリプト）とモデルの性能はどう相関するか？
RQ5多様な言語にわたる最先端クロスリンガルモデルの限界を明らかにする診断は何か？

主な発見

ゼロショット転送モデルは英語で人間の性能に近づくが、他の言語では大幅な低下を示し、特に構文や文の検索タスクで顕著である。
XLM-R Largeはゼロショット転送で一般にmBERTや他のベースラインを上回り、XQuADとMLQAで顕著な利得を得るが、構造化予測タスクでは利得が限定的である。
翻訳ベースのベースライン（translate-train, translate-test）は大幅な利得をもたらし、タスク横断でしばしばクロスリンガル転送ギャップを縮小する。
言語内トレーニングデータは複数のタスクでゼロショット転送を上回ることがあるが、英語データが豊富な場合には複雑なQAタスクでゼロショット法が依然として高く競合する。
クロスリンガル転送は多くの言語で事前学習データサイズと相関し、インド・ヨーロッパ語族で効果が強く、漢語・チベット語系、中国朝鮮系、ニジェール・コンゴ語族では効果が弱い。
言語と言語タスクを横断するなおさらの転送ギャップが残っており、クロスリンガル転送手法の改善余地を浮き彫りにしている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。