[論文レビュー] CLUE: A Chinese Language Understanding Evaluation Benchmark
CLUE は 9 のタスクを備えた大規模な中国語NLPベンチマーク、214 GBの事前学習コーパス、診断データセット、公開リーダーボードと PyCLUE ツールキットを提供し、中国語モデルを評価します。
The advent of natural language understanding (NLU) benchmarks for English, such as GLUE and SuperGLUE allows new NLU models to be evaluated across a diverse set of tasks. These comprehensive benchmarks have facilitated a broad range of research and applications in natural language processing (NLP). The problem, however, is that most such benchmarks are limited to English, which has made it difficult to replicate many of the successes in English NLU for other languages. To help remedy this issue, we introduce the first large-scale Chinese Language Understanding Evaluation (CLUE) benchmark. CLUE is an open-ended, community-driven project that brings together 9 tasks spanning several well-established single-sentence/sentence-pair classification tasks, as well as machine reading comprehension, all on original Chinese text. To establish results on these tasks, we report scores using an exhaustive set of current state-of-the-art pre-trained Chinese models (9 in total). We also introduce a number of supplementary datasets and additional tools to help facilitate further progress on Chinese NLU. Our benchmark is released at https://www.CLUEbenchmarks.com
研究の動機と目的
- GLUE/SuperGLUE のような英語ベンチマークに匹敵する、中国語自然言語理解の包括的で標準化されたベンチマークを提供する。
- 単一文、文ペア、機械読解を含む多様な中国語NLUタスクを選定し、異なるモデルの能力を検証する。
- 意味のあるモデル間比較を可能にする大規模で公開された中国語事前学習コーパスを公開する。
- 中国語特有の言語現象の理解を分析する診断データを提供し、容易な導入と再現性のためのツールを提供する。
提案手法
- 明確な train/dev/test の分割を持つ9つの中国語NLUタスク(単一文、文ペア、MRC)を組み合わせる。
- 複数ソースから合計約760億語に達する214 GBの大規模中国語事前学習コーパスを作成する(CLUECorpus2020-small、CLUECorpus2020、CLUEOSCAR)。
- 代名照応、モノトニシティ、中国語特有の体言マーカーなどの現象を探る、言語学的動機づけを備えた診断データセットを設計する。
- 自動評価システムを備えた公開オンラインリーダーボードを提供し、再現性のためにオープンソースモデルを認証する。
- 標準的なアーキテクチャでCLUEタスクの訓練と評価を促進するTensorFlowベースのツールキット PyCLUE を開発する。
実験結果
リサーチクエスチョン
- RQ1現在の事前学習済み中国語モデルは、多様な中国語NLUタスクでどのように性能を発揮しますか?
- RQ2CLUE内でのモデルサイズと事前学習データが中国語NLUの性能に与える影響は何ですか?
- RQ3診断データセットで捉えられる中国語特有の言語現象に対して、モデルはどの程度苦戦していますか?
- RQ4コアCLUEタスクにおけるモデルの性能は人間の性能にどれくらい近く、ギャップはどこに最も大きいですか?
主な発見
| Model | Avg | TNEWS | IFLYTEK | CLUEWSC2020 | AFQMC | CSL | OCNLI | CMRC | ChID | C 3 |
|---|---|---|---|---|---|---|---|---|---|---|
| BERT-base | 69.20 | 56.58 | 60.29 | 63.45 | 73.70 | 80.36 | 72.20 | 69.72 | 82.04 | 64.50 |
| BERT-wwm-ext-base | 70.27 | 56.84 | 59.43 | 62.41 | 74.07 | 80.63 | 74.42 | 73.23 | 82.90 | 68.50 |
| ALBERT-tiny | 56.01 | 53.35 | 48.71 | 63.38 | 69.92 | 74.56 | 65.12 | 53.68 | 43.53 | 31.86 |
| ALBERT-xxlarge | 72.49 | 59.46 | 62.89 | 61.54 | 75.60 | 83.63 | 77.70 | 75.15 | 83.15 | 73.28 |
| ERNIE-base | 69.72 | 58.33 | 58.96 | 63.44 | 73.83 | 79.10 | 74.11 | 73.32 | 82.28 | 64.10 |
| XLNet-mid | 68.58 | 56.24 | 57.85 | 61.04 | 70.50 | 81.26 | 72.63 | 66.51 | 83.47 | 67.68 |
| RoBERTa-large | 71.01 | 57.86 | 62.55 | 62.44 | 74.02 | 81.36 | 76.82 | 76.11 | 84.50 | 63.44 |
| RoBERTa-wwm-ext-base | 71.17 | 56.94 | 60.31 | 72.07 | 74.04 | 81.00 | 74.72 | 73.89 | 83.62 | 63.90 |
| Human | 85.09 | 71.00 | 66.00 | 98.00 | 81.0 | 84.0 | 90.30 | 92.40 | 87.10 | 96.00 |
- より大きなモデルとより多くの事前学習データを用いて学習したモデルは、平均CLUEスコアが高い。
- RoBERTa-wwm-ext-large と ALBERT-xxlarge がベースラインの中で最良の全体性能を示し、機械読解タスクで特に強みを発揮。
- 小型モデル(例:ALBERT-tiny)は単一文/文ペアタスクでの gains が小さい一方、機械読解タスクでは大幅な性能低下を示し、グローバルな理解に対するコンパクトモデルの限界を浮き彫りにする。
- 複数のタスクで、特にWSC風の推論や自由形式MRC(C 3)のような深い推論を要するタスクで、人間の性能との差が大きい。
- 診断データセットは、強力なモデルでもモノトニシティや語彙意味論の区別といった中国語特有の現象に苦戦することを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。