[論文レビュー] C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models
C-Eval は、中国語の総合評価スイートで、52の分野と4つの難易度レベルを対象とする13,948問の択一問題に加え、Advanced 論理力用の C-Eval Hard があり、GPT-4 がテスト対象モデルの中でパフォーマンスをリードしています。
New NLP benchmarks are urgently needed to align with the rapid development of large language models (LLMs). We present C-Eval, the first comprehensive Chinese evaluation suite designed to assess advanced knowledge and reasoning abilities of foundation models in a Chinese context. C-Eval comprises multiple-choice questions across four difficulty levels: middle school, high school, college, and professional. The questions span 52 diverse disciplines, ranging from humanities to science and engineering. C-Eval is accompanied by C-Eval Hard, a subset of very challenging subjects in C-Eval that requires advanced reasoning abilities to solve. We conduct a comprehensive evaluation of the most advanced LLMs on C-Eval, including both English- and Chinese-oriented models. Results indicate that only GPT-4 could achieve an average accuracy of over 60%, suggesting that there is still significant room for improvement for current LLMs. We anticipate C-Eval will help analyze important strengths and shortcomings of foundation models, and foster their development and growth for Chinese users.
研究の動機と目的
- 中国語文脈における複数分野での基盤モデルの高度な知識と推論能力を評価する。
- 中学校レベルから専門職レベルまでの多層評価を、STEM、人文科学、社会科学、その他の4領域で提供する。
- データリークを緩和するため、模擬試験/地域試験から出題を取得し、標準化された4択形式へ加工する。
- 中国語のLLMの開発を支援し、モデルの強みと弱点を分析できるようにする。
提案手法
- 模擬試験と地域の中国語試験から、52科目にわたる13,948問の4択問題を収集する。
- 各問題を4つの選択肢へ標準化し、STEM 内容は必要に応じてLaTeX形式で表現する。
- 科目ごとにデータを開発用・検証用・テスト用に分割し、開発項目にはfew-shotの説明を提供する。
- ゼロショットおよびfew-shot(5-shot)回答のみ設定でモデルを評価し、一部のモデルでは思考連鎖(chain-of-thought)設定も適用する。
- データリークを防ぐために私的なテストセットを維持し、提出用の公開リーダーボードを用意する。
実験結果
リサーチクエスチョン
- RQ1多分野にわたる広範な中国語試験風ベンチマークにおいて、最先端のLLMはどの程度の成績を示すか?
- RQ2中国語志向モデルと英語志向モデルの中国知識・推論タスクのギャップはどの程度か?
- RQ3few-shot prompting と chain-of-thought 推論は複雑な中国語の試験問題の成績にどう影響するか?
- RQ4現在のLLMが高度な中国語推論タスク(C-Eval Hard)で直面する強みと制約は何か?
主な発見
| モデル | STEM | 社会科学 | 人文学 | その他 | 平均 |
|---|---|---|---|---|---|
| GPT-4 | 66.4 | 74.7 | 62.5 | 64.7 | 66.4 |
| ChatGPT | 51.0 | 58.0 | 48.8 | 50.4 | 51.0 |
| Claude-v1.3 | 50.5 | 58.6 | 47.3 | 50.1 | 50.5 |
| Bloomz-mt | 44.3 | 53.0 | 47.7 | 42.7 | 44.3 |
| GLM-130B | 44.0 | 55.8 | 47.7 | 43.0 | 44.0 |
| Claude-instant-v1.0 | 40.6 | 47.6 | 39.5 | 39.0 | 40.6 |
| ChatGLM-6B | 38.9 | 48.3 | 41.3 | 38.0 | 38.9 |
| LLaMA-65B | 34.7 | 41.2 | 34.1 | 33.0 | 34.7 |
| MOSS | 33.1 | 37.0 | 33.4 | 32.1 | 33.1 |
| Chinese-Alpaca-13B | 30.9 | 39.2 | 32.5 | 28.0 | 30.9 |
| Chinese-LLaMA-13B | 29.6 | 32.9 | 29.7 | 28.0 | 29.6 |
- GPT-4 は平均正解率が最も高く、ゼロショットとfew-shotの両方の設定で平均60%以上を超える。
- 中国語志向モデルの中ではGLM-130Bが最も強力だが、全体の平均ではChatGPTに依然として大きな差をつけられており、特にSTEMタスクで顕著。
- Few-shot prompting は一部のモデルで一般的に有効だが、few-shotアラインメントなしで指示調整されたモデルには逆効果になることがある。
- 思考連鎖 prompting は全体的な性能を普遍的には向上させないが、いくつかのモデル(例:特定教科のGPT-4)には有効である場合がある。
- C-Eval Hard では GPT-4、ChatGPT、Claude は思考連鎖で有意な向上を示すが、全体の正解率は多くのモデルで依然低く、高度な推論の難しさを浮き彫りにしている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。