[论文解读] C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models
C-Eval 是一个综合性的中文评估套件,覆盖 52 个学科、4 个难度等级,共 13,948 道多项选择题,另有用于高级推理的 C-Eval Hard;在测试模型中,GPT-4 的表现领先。
New NLP benchmarks are urgently needed to align with the rapid development of large language models (LLMs). We present C-Eval, the first comprehensive Chinese evaluation suite designed to assess advanced knowledge and reasoning abilities of foundation models in a Chinese context. C-Eval comprises multiple-choice questions across four difficulty levels: middle school, high school, college, and professional. The questions span 52 diverse disciplines, ranging from humanities to science and engineering. C-Eval is accompanied by C-Eval Hard, a subset of very challenging subjects in C-Eval that requires advanced reasoning abilities to solve. We conduct a comprehensive evaluation of the most advanced LLMs on C-Eval, including both English- and Chinese-oriented models. Results indicate that only GPT-4 could achieve an average accuracy of over 60%, suggesting that there is still significant room for improvement for current LLMs. We anticipate C-Eval will help analyze important strengths and shortcomings of foundation models, and foster their development and growth for Chinese users.
研究动机与目标
- 在多个学科的中文语境中评估基础模型的高级知识与推理能力。
- 提供一个多层次的评估(从初中到专业水平),覆盖四个领域:STEM、人文、社会科学及其他。
- 通过从模拟考试/本地考试获取题目并将其处理为标准化的四选项格式,降低数据泄露风险。
- 分析模型的强项/弱点,支持中文语言的大语言模型开发。
提出的方法
- 从 52 个科目中采集来自模拟考试和本地中文考试的 13,948 道四选项题目。
- 将每道题标准化为四个选项,必要处对 STEM 内容使用 LaTeX 格式。
- 按科目将数据划分为开发集、验证集和测试集;为开发项提供少量示例解释。
- 在零-shot 和少-shot(五次)仅回答设置下评估模型,并在某些模型上加入连锁推理设置。
- 保留一个私有测试集以防止数据泄露,公开提交排行榜以供评测。
实验结果
研究问题
- RQ1最先进的大语言模型在跨多个学科的中文考试风格基准上表现如何?
- RQ2面向中文知识与推理任务的中文导向模型与英文导向模型之间的差距有多大?
- RQ3少-shot 提示和连锁推理对复杂中文考试题的表现有何影响?
- RQ4当前大语言模型在高级中文推理任务(C-Eval Hard)中的强项与局限性是什么?
主要发现
| 模型 | STEM | 社会科学 | 人文学科 | 其他 | 平均 |
|---|---|---|---|---|---|
| GPT-4 | 66.4 | 74.7 | 62.5 | 64.7 | 66.4 |
| ChatGPT | 51.0 | 58.0 | 48.8 | 50.4 | 51.0 |
| Claude-v1.3 | 50.5 | 58.6 | 47.3 | 50.1 | 50.5 |
| Bloomz-mt | 44.3 | 53.0 | 47.7 | 42.7 | 44.3 |
| GLM-130B | 44.0 | 55.8 | 47.7 | 43.0 | 44.0 |
| Claude-instant-v1.0 | 40.6 | 47.6 | 39.5 | 39.0 | 40.6 |
| ChatGLM-6B | 38.9 | 48.3 | 41.3 | 38.0 | 38.9 |
| LLaMA-65B | 34.7 | 41.2 | 34.1 | 33.0 | 34.7 |
| MOSS | 33.1 | 37.0 | 33.4 | 32.1 | 33.1 |
| Chinese-Alpaca-13B | 30.9 | 39.2 | 32.5 | 28.0 | 30.9 |
| Chinese-LLaMA-13B | 29.6 | 32.9 | 29.7 | 28.0 | 29.6 |
- GPT-4 在平均准确率方面最高,在零-shot 与少-shot 设置中平均超过 60%。
- 在中文导向模型中,GLM-130B 最强,但在整体平均水平上仍显著落后于 ChatGPT,尤其在 STEM 任务中。
- 少-shot 提示通常对某些模型有帮助,但对未经少-shot 对齐的指令调优模型可能有害。
- 连锁推理提示并非普遍提升性能,在若干模型上会降低准确率,尽管对某些模型(如在特定学科的 GPT-4)有帮助。
- 在 C-Eval Hard 上,GPT-4、ChatGPT 和 Claude 在连锁推理方面显示出显著提升,但总体准确率对大多数模型仍然偏低,凸显了高级推理的挑战。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。