[論文レビュー] FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark
この論文はFewCLUEを提示します。これは初の包括的な中国語の少数ショット学習ベンチマークで、9つのタスクにわたる5つの手法を評価し、中国語のNLU少数ショット研究の基準とリーダーボードを提供します。
Pretrained Language Models (PLMs) have achieved tremendous success in natural language understanding tasks. While different learning schemes -- fine-tuning, zero-shot, and few-shot learning -- have been widely explored and compared for languages such as English, there is comparatively little work in Chinese to fairly and comprehensively evaluate and compare these methods and thus hinders cumulative progress. In this paper, we introduce the Chinese Few-shot Learning Evaluation Benchmark (FewCLUE), the first comprehensive few-shot evaluation benchmark in Chinese. It includes nine tasks, ranging from single-sentence and sentence-pair classification tasks to machine reading comprehension tasks. We systematically evaluate five state-of-the-art (SOTA) few-shot learning methods (including PET, ADAPET, LM-BFF, P-tuning and EFL), and compare their performance with fine-tuning and zero-shot learning schemes on the newly constructed FewCLUE benchmark. Experimental results reveal that: 1) The effect of different few-shot learning methods is sensitive to the pre-trained model to which the methods are applied; 2) PET and P-tuning achieve the best overall performance with RoBERTa and ERNIE respectively. Our benchmark is used in the few-shot learning contest of NLPCC 2021. In addition, we provide a user-friendly toolkit, as well as an online leaderboard to help facilitate further progress on Chinese few-shot learning. We provide a baseline performance on different learning methods, a reference for future research.
研究の動機と目的
- 中国語NLPにおける少数ショット、ゼロショット、ファインチューニングの公正で包括的な評価を動機づける。
- 単一文、文ペア、MRCタスクを含む多様で頑健なFewCLUEベンチマークを構築する。
- 中国語タスクで5つの最先端少数ショット手法を系統的に比較し、事前学習モデル依存性を分析する。
- 将来の中国語少数ショット研究を促進するために、ベースライン、人間のパフォーマンス、再現可能なコードを提供する。
提案手法
- 9タスクの中国語少数ショットベンチマークFewCLUEを多様なタスクタイプと複数の訓練/開発/テスト分割で構築する。
- PET、ADAPET、LM-BFF、P-tuning、EFLの5つの少数ショット学習手法を再利用・評価し、ゼロショットと標準的なファインチューニングも含める。
- 各手法ごとに、クローズ形式や含意形式を含むタスク固有のテンプレートとプロンプトを提供する。
- RoBERTa-wwm-ext、ERNIE1.0、GPT系モデル、および標準的なベースラインを用いて学習パラダイムを比較する。
- 再現性のあるベンチマーキングのために、コード、データ分割、および自動評価付きオンラインリーダーボードを公開する。
実験結果
リサーチクエスチョン
- RQ1異なる少数ショット学習手法は、前提モデルが変化する中で中国語NLPタスクでどのように性能を発揮するか?
- RQ2FewCLUEにおけるPET、P-tuning、LM-BFF、ADAPET、EFLの相対的性能は、前提モデルの選択によってどの程度影響を受けるか?
- RQ3中国語において、少数ショットプロンプティングとファインチューニングまたはゼロショットアプローチのどのタスクが最も恩恵を受けるか?
- RQ4FewCLUEタスクにおける少数ショットの性能は、人間のベースラインと比較してどうか?
- RQ5小さな訓練/開発分割によって生じる安定性の課題は何で、 benchmarkingにどのように影響するか?
主な発見
| Method | スコア | EPRSTMT | CSLDCP | TNEWS | IFLYTEK | OCNLI | BUSTM | CSL | CHID | WSC |
|---|---|---|---|---|---|---|---|---|---|---|
| Majority | 29.04 | 50.0 | 1.5 | 6.7 | 0.8 | 38.1 | 50.0 | 50.0 | 14.3 | 50.0 |
| Human | 82.50 | 90.0 | 68.0 | 71.0 | 66.0 | 90.3 | 88.0 | 84.0 | 87.1 | 98.0 |
| FineTuningR | 44.10 | 65.4(7.7) | 35.5(2.5) | 49.0(1.6) | 32.8(1.7) | 33.0(0.34) | 60.7(9.1) | 50.0(0.1) | 14.9(0.4) | 55.6(14) |
| Zero-shotR | 44.60 | 85.2 | 12.6 | 25.3 | 27.7 | 40.3 | 50.6 | 52.2 | 57.6 | 50.0 |
| Zero-shotG | 43.40 | 57.5 | 26.2 | 37.0 | 19.0 | 34.4 | 50.0 | 50.1 | 65.6 | 50.3 |
| PET | 57.44 | 86.7(1.0) | 51.7(1.0) | 54.5(1.2) | 46.0(1.1) | 44.0(0.4) | 56.0(5.0) | 59.4(1.3) | 61.2(1.1) | 57.5(2.7) |
| LM-BFF | 56.32 | 85.6 (0.9) | 54.4 (3.1) | 53.0 (2.1) | 47.1 (2.6) | 41.6 (4.0) | 57.6 (3.4) | 51.7 (2.4) | 61.2 (1.10) | 54.7 (6.7) |
| P-tuningR | 59.91 | 88.3 (0.7) | 56.0(1.1) | 54.2(1.0) | 57.6 (0.9) | 41.9(1.9) | 60.9(2.9) | 62.9 (2.3) | 59.3(1.4) | 58.1(2.2) |
| EFL | 55.91 | 84.9(0.4) | 45.0(2.3) | 52.1(0.8) | 42.7(1.1) | 66.2 (1.4) | 71.8 (0.8) | 56.6(1.8) | 30.9(1.9) | 53.0(3.1) |
| FineTuning ernie1.0 | 48.34 | 66.5(6.3) | 57.0(3.4) | 51.6(3.3) | 42.1(3.7) | 32.0(1.6) | 60.4(5.7) | 60.1(3.5) | 15.0(0.4) | 50.3(1.4) |
| PET ernie1.0 | 56.39 | 84.0(4.8) | 59.9 (3.0) | 56.4 (0.8) | 50.3(2.8) | 38.1(0.3) | 58.4(3.4) | 61.1(4.4) | 40.6(2.5) | 58.7 (1.4) |
| P-tuning ernie1.0 | 54.37 | 80.6(5.3) | 56.6(6.6) | 55.9(1.3) | 52.6(5.0) | 35.7(0.8) | 60.8(5.3) | 51.8(3.5) | 39.6(1.7) | 55.7(2.0) |
| EFL ernie1.0 | 52.27 | 76.7(6.3) | 47.9(2.3) | 56.3(0.6) | 52.1(2.2) | 48.7(2.5) | 54.6(8.1) | 52.8(3.2) | 30.3(4.3) | 52.3(3.7) |
- PETとP-tuningは、それぞれRoBERTaとERNIEに対して全体的に強い性能を示す。
- データが不足している場合、ゼロショット手法がファインチューニングを超えることがある。
- 前提モデルの選択は少数ショットの結果に大きく影響し、RoBERTaは複数の手法でより強い結果を提供することが多い。
- FewCLUE全体で、すべてのモデルとタスクにわたって単一の優れた手法は存在しない。
- 少数ショット学習は訓練/検証の分割が小さいため不安定性を示し、堅牢な評価設計の必要性を示している。
- 人間はほとんどのタスクでモデルを上回るが、WSCやCSLDCPのような高ラベル・難易度のタスクでは顕著なギャップがある。
- CHID(成語穴埋め)はクローズ系ベースの手法とよく整合し、PET/ゼロショットアプローチが比較的良好に機能する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。