Skip to main content
QUICK REVIEW

[论文解读] Measuring Massive Multitask Chinese Understanding

Hui Zeng|arXiv (Cornell University)|Apr 25, 2023
Radiomics and Machine Learning in Medical Imaging被引用 11
一句话总结

该论文提出一种多任务测试,用以评估大规模中文语言模型在医学、法学、心理学和教育等四个领域的表现,并在四个领域及子任务上给出零样本表现。

ABSTRACT

The development of large-scale Chinese language models is flourishing, yet there is a lack of corresponding capability assessments. Therefore, we propose a test to measure the multitask accuracy of large Chinese language models. This test encompasses four major domains, including medicine, law, psychology, and education, with 15 subtasks in medicine and 8 subtasks in education. We found that the best-performing models in the zero-shot setting outperformed the worst-performing models by nearly 18.6 percentage points on average. Across the four major domains, the highest average zero-shot accuracy of all models is 0.512. In the subdomains, only the GPT-3.5-turbo model achieved a zero-shot accuracy of 0.693 in clinical medicine, which was the highest accuracy among all models across all subtasks. All models performed poorly in the legal domain, with the highest zero-shot accuracy reaching only 0.239. By comprehensively evaluating the breadth and depth of knowledge across multiple disciplines, this test can more accurately identify the shortcomings of the models.

研究动机与目标

  • 促使人们认识到对大型中文语言模型进行全面能力评估的必要性。
  • 引入一个跨越四个领域和多个子任务的多任务评估测试。
  • 提供零样本和领域级别的性能洞察,以识别模型的不足。

提出的方法

  • 界定四个领域(医学、法律、心理学、教育),并列举医学领域的15个子任务和教育领域的8个子任务。
  • 在所有子任务上对大型中文语言模型进行零样本设置评估。
  • 比较模型在各领域的表现,以识别领域级和子领域的表现模式。

实验结果

研究问题

  • RQ1在四大领域中,大型中文语言模型的零样本表现如何?
  • RQ2哪些领域或子任务在零样本设置下揭示了模型能力的最强或最弱?
  • RQ3在模型和领域之间,最佳零样本表现与最差表现的比较如何?

主要发现

  • 最佳零样本模型平均领先最差模型约18.6个百分点。
  • 在四个领域中,所有模型的平均零样本准确率最高为0.512。
  • 在子领域中,GPT-3.5-turbo在临床医学方面的零样本准确率达到0.693,为所有子任务中的最高。
  • 在法律领域,所有模型表现都较差,最高零样本准确率仅为0.239。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。