[論文レビュー] M3KE: A Massive Multi-Level Multi-Subject Knowledge Evaluation Benchmark for Chinese Large Language Models
M3KEは中国語知識評価ベンチマークで、71タスク・20,477問を含み、小学から大学レベルまでをカバー。ゼロショット・少数ショットの知識を多様な科目で評価。GPT-3.5-turboが現状、オープンソースの中国語LLMを上回る。
Large language models have recently made tremendous progress in a variety of aspects, e.g., cross-task generalization, instruction following. Comprehensively evaluating the capability of large language models in multiple tasks is of great importance. In this paper, we propose M3KE, a Massive Multi-Level Multi-Subject Knowledge Evaluation benchmark, which is developed to measure knowledge acquired by Chinese large language models by testing their multitask accuracy in zero- and few-shot settings. We have collected 20,477 questions from 71 tasks. Our selection covers all major levels of Chinese education system, ranging from the primary school to college, as well as a wide variety of subjects, including humanities, history, politics, law, education, psychology, science, technology, art and religion. All questions are multiple-choice questions with four options, hence guaranteeing a standardized and unified assessment process. We've assessed a number of state-of-the-art open-source Chinese large language models on the proposed benchmark. The size of these models varies from 335M to 130B parameters. Experiment results demonstrate that they perform significantly worse than GPT-3.5 that reaches an accuracy of ~ 48% on M3KE. The dataset is available at https://github.com/tjunlp-lab/M3KE.
研究の動機と目的
- 中国の教育体系に沿って小学校から大学までの中国語LLMの知識獲得と応用を評価する。
- 4択問題を用いた標準化された大規模・多科目ベンチマークを提供する。
- 科目クラスターと教育レベル別に、オープンソース中国語LLMのGPT-3.5-turboに対する性能を分析する。
提案手法
- 71タスクから芸術・人文科学・社会科学・自然科学・その他の領域を含む20,477問の4択問題を収集する。
- タスクをテストセットと5ショット評価セットに分割し、統一指示プロンプトで0ショットまたは5ショット promptingを使用する。
- GPT-3.5-turboを参照として、事前学習済みモデルおよび指示チューニングモデルを含む、パラメータ数335M–130Bの中国語LLMを広範に評価する。
- 科目クラスターと教育レベル全体でゼロショットおよび五ショットの正解率を報告する。
- モデルごとの結果を標準化された表で提示し、モデル間の比較を促進する。
実験結果
リサーチクエスチョン
- RQ1ゼロショットおよび少数ショット設定で、複数科目にわたる中国語LLMの知識獲得と応用能力はどの程度か。
- RQ2事前学習済みモデルのサイズと指示チューニング(SFT/RLHF)が、中国語の広範な知識ベンチマークでの性能にどう影響するか。
- RQ3小学校から大学までの異なる教育レベルでモデルはどのようにパフォーマンスを示すか。
- RQ4オープンソースの中国語LLMはM3KEにおいてGPT-3.5-turboの性能にどれくらい近づけるか。
主な発見
| Models | Arts & Humanities | Social Sciences | Natural Sciences | Other | Average |
|---|---|---|---|---|---|
| GLM-335M | 0.070 | 0.046 | 0.084 | 0.044 | 0.062 |
| BLOOM-7.1B | 0.163 | 0.159 | 0.161 | 0.158 | 0.161 |
| GLM-10B | 0.180 | 0.229 | 0.219 | 0.150 | 0.197 |
| GLM-130B | 0.326 | 0.352 | 0.274 | 0.359 | 0.328 |
| ChatGLM-6B | 0.246 | 0.267 | 0.168 | 0.263 | 0.236 |
| MOSS-SFT-16B | 0.260 | 0.263 | 0.207 | 0.275 | 0.251 |
| BELLE-7B-0.2M | 0.247 | 0.296 | 0.260 | 0.260 | 0.266 |
| BELLE-7B-2M | 0.328 | 0.367 | 0.282 | 0.355 | 0.333 |
| GPT-3.5-turbo | 0.460 | 0.538 | 0.444 | 0.481 | 0.481 |
- ほとんどの評価済み中国語LLMはM3KEでGPT-3.5-turboを下回る。GPT-3.5-turboは英語ベンチマーク風の枠組みで全体約48%の正解率を達成。
- ゼロショット設定では、特に10Bパラメータ以下の多くのオープンソース中国語LLMはランダム近辺またはそれ以下の性能を示すクラスターが多い。事前学習済みモデルのモデルサイズは正解率と正の相関を示し、特に130B以上で顕著。
- 五ショット promptingは複数モデルのゼロショット性能を向上させるが、効果はモデルにより異なる。大規模モデルの一部(例:GLM-130B)はデモンストレーションの影響で推定値が劣化することがある。
- BELLEモデルは指示数が多い(2M対0.2M)ほど性能が向上することを示し、指示チューニングの規模の影響を強調する。
- GPT-3.5-turboはほとんどのクラスターで評価済みのすべてのオープンソース中国語LLMを上回り、M3KEにおける現時点のオープンソース中国語LLMの明確な上限を示す。
- 教育レベル別に分解すると、低いレベルで一貫して改善するモデルはなく、低レベルのタスクは強力なモデルでも依然として難しい。
- ベンチマークは、教育レベルと科目を横断して中国語LLMの知識能力の進歩を時系列で追跡可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。