[论文解读] Measuring Massive Multitask Chinese Understanding
该论文提出一种多任务测试,用以评估大规模中文语言模型在医学、法学、心理学和教育等四个领域的表现,并在四个领域及子任务上给出零样本表现。
The development of large-scale Chinese language models is flourishing, yet there is a lack of corresponding capability assessments. Therefore, we propose a test to measure the multitask accuracy of large Chinese language models. This test encompasses four major domains, including medicine, law, psychology, and education, with 15 subtasks in medicine and 8 subtasks in education. We found that the best-performing models in the zero-shot setting outperformed the worst-performing models by nearly 18.6 percentage points on average. Across the four major domains, the highest average zero-shot accuracy of all models is 0.512. In the subdomains, only the GPT-3.5-turbo model achieved a zero-shot accuracy of 0.693 in clinical medicine, which was the highest accuracy among all models across all subtasks. All models performed poorly in the legal domain, with the highest zero-shot accuracy reaching only 0.239. By comprehensively evaluating the breadth and depth of knowledge across multiple disciplines, this test can more accurately identify the shortcomings of the models.
研究动机与目标
- 促使人们认识到对大型中文语言模型进行全面能力评估的必要性。
- 引入一个跨越四个领域和多个子任务的多任务评估测试。
- 提供零样本和领域级别的性能洞察,以识别模型的不足。
提出的方法
- 界定四个领域(医学、法律、心理学、教育),并列举医学领域的15个子任务和教育领域的8个子任务。
- 在所有子任务上对大型中文语言模型进行零样本设置评估。
- 比较模型在各领域的表现,以识别领域级和子领域的表现模式。
实验结果
研究问题
- RQ1在四大领域中,大型中文语言模型的零样本表现如何?
- RQ2哪些领域或子任务在零样本设置下揭示了模型能力的最强或最弱?
- RQ3在模型和领域之间,最佳零样本表现与最差表现的比较如何?
主要发现
- 最佳零样本模型平均领先最差模型约18.6个百分点。
- 在四个领域中,所有模型的平均零样本准确率最高为0.512。
- 在子领域中,GPT-3.5-turbo在临床医学方面的零样本准确率达到0.693,为所有子任务中的最高。
- 在法律领域,所有模型表现都较差,最高零样本准确率仅为0.239。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。