[论文解读] CMMLU: Measuring massive multitask language understanding in Chinese
CMMLU 是一个全面的中文多任务基准测试,覆盖 67 个主题,对 20+ 的大语言模型进行评估;大多数模型难以达到 60% 的准确度,GPT-4 的平均水平约为 71%。
As the capabilities of large language models (LLMs) continue to advance, evaluating their performance becomes increasingly crucial and challenging. This paper aims to bridge this gap by introducing CMMLU, a comprehensive Chinese benchmark that covers various subjects, including natural science, social sciences, engineering, and humanities. We conduct a thorough evaluation of 18 advanced multilingual- and Chinese-oriented LLMs, assessing their performance across different subjects and settings. The results reveal that most existing LLMs struggle to achieve an average accuracy of 50%, even when provided with in-context examples and chain-of-thought prompts, whereas the random baseline stands at 25%. This highlights significant room for improvement in LLMs. Additionally, we conduct extensive experiments to identify factors impacting the models' performance and propose directions for enhancing LLMs. CMMLU fills the gap in evaluating the knowledge and reasoning capabilities of large language models within the Chinese context.
研究动机与目标
- 在多样化主题中评估大语言模型在中文中的知识与推理能力。
- 识别影响 CMMLU 上 LLM 性能的因素。
- 在标准化的中文基准上比较多语言、面向中文及中国特定的 LLM。
- 提供可执行的改进中国大模型能力的方向。
提出的方法
- 使用 CMMLU,涵盖 11,528 个问题,跨 67 个科目,每道题为四选一。
- 在零样本和五样本设置下评估模型:对开放模型使用下一个 token 的预测,对封闭模型使用基于正则表达式的提取。
- 比较各种规模与训练范式的模型(商业与开源),包括基础模型、监督微调(SFT)和 RLHF。
- 分析思维链提示、少样本演示、模型规模、否定处理和子选项对性能的影响。
- 提供学科与类别层面的性能分析,以解释优势与劣势。
实验结果
研究问题
- RQ1在一个面向中文多任务知识基准的广泛 LLM 集上,其性能如何?
- RQ2如思维链提示、少样本示例和模型规模等因素如何影响 CMMLU 的结果?
- RQ3哪些学科对于当前的 LLM 最具挑战性,以及中国特定主题的表现如何?
- RQ4否定与子选项格式是否会显著影响 CMMLU 的模型准确性?
主要发现
| 模型 | 状态 | STEM | 人文 | 社会科学 | 其他 | 中国特定 | 平均 |
|---|---|---|---|---|---|---|---|
| GPT4 | Chat | 65.23 | 72.11 | 72.06 | 74.79 | 66.12 | 70.95 |
| ChatGPT | Chat | 47.81 | 55.68 | 56.50 | 62.66 | 50.69 | 55.51 |
| LLaMA2-70B* | Base | 44.11 | 57.05 | 55.63 | 56.65 | 48.01 | 53.21 |
| Falcon-40B | Base | 33.33 | 43.46 | 44.28 | 44.75 | 39.46 | 41.45 |
| LLaMA-65B | Base | 34.47 | 40.24 | 41.55 | 42.88 | 37.00 | 39.80 |
| LLaMA2-13B* | Base | 33.04 | 39.73 | 38.45 | 42.54 | 35.67 | 38.24 |
| BLOOMZ-7B | Chat | 30.56 | 39.10 | 38.59 | 40.32 | 37.15 | 37.04 |
| LLaMA-30B | Base | 29.69 | 33.68 | 34.08 | 37.40 | 30.68 | 33.63 |
| LLaMA2-7B* | Base | 30.03 | 34.76 | 33.72 | 33.62 | 30.12 | 32.96 |
| ZH ${}_{\text{LLaMA}}$-13B | Chat | 27.12 | 33.18 | 34.87 | 35.10 | 32.97 | 32.63 |
| BX ${}_{\text{LLaMA}}$-13B | Chat | 27.50 | 32.47 | 32.33 | 35.77 | 31.64 | 31.90 |
| LLaMA-13B | Base | 29.21 | 30.96 | 31.74 | 33.07 | 30.86 | 31.24 |
| Baichuan2-13B* | Base | 48.36 | 67.44 | 66.40 | 65.94 | 63.48 | 61.92 |
| Baichuan-13B* | Base | 42.38 | 61.61 | 60.44 | 59.26 | 56.62 | 55.82 |
| InternLM-20B* | Chat | 42.70 | 60.51 | 58.00 | 57.62 | 54.72 | 54.52 |
| Xverse-13B* | Chat | 41.65 | 55.72 | 57.47 | 57.32 | 52.32 | 53.08 |
| InternLM-7B* | Base | 41.71 | 54.43 | 56.42 | 55.38 | 53.11 | 52.07 |
| ChatGLM-6B | Chat | 32.35 | 39.22 | 39.65 | 38.62 | 37.70 | 37.48 |
| BatGPT-15B | Chat | 41.68 | 50.14 | 50.78 | 48.68 | 46.93 | 47.88 |
- GPT-4 在被评估的模型中平均准确率最高,约 70.95%,而许多开放式多语言模型在不同类别上大致落在 30-55% 区间。
- 大多数模型未达到中文考试的 60% 及格线,凸显了巨大的改进机会。
- 各学科表现不均衡,人文与社会科学通常高于 STEM 和中国特定主题。
- 思维链提示很少提升整体 CMMLU 表现,甚至可能降低某些模型的基于正则表达式的提取效果。
- 少样本学习对基础模型有益但并非对 SFT/RLHF 模型一致有益;更大规模在某些家族(如 LLaMA2)上有所提升,但收益递减。
- 中国特定与 STEM 学科尤其具有挑战性,子选项问题会降低许多模型的准确性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。