Skip to main content
QUICK REVIEW

[論文レビュー] Measuring Massive Multitask Chinese Understanding

Hui Zeng|arXiv (Cornell University)|Apr 25, 2023
Radiomics and Machine Learning in Medical Imaging被引用数 11
ひとこと要約

本論文は、医学、法学、心理学、教育学の4分野とサブタスク全体を対象に、大規模中国語言語モデルを評価するマルチタスク試験を提案し、4分野およびサブタスク全体のゼロショット性能を報告している。

ABSTRACT

The development of large-scale Chinese language models is flourishing, yet there is a lack of corresponding capability assessments. Therefore, we propose a test to measure the multitask accuracy of large Chinese language models. This test encompasses four major domains, including medicine, law, psychology, and education, with 15 subtasks in medicine and 8 subtasks in education. We found that the best-performing models in the zero-shot setting outperformed the worst-performing models by nearly 18.6 percentage points on average. Across the four major domains, the highest average zero-shot accuracy of all models is 0.512. In the subdomains, only the GPT-3.5-turbo model achieved a zero-shot accuracy of 0.693 in clinical medicine, which was the highest accuracy among all models across all subtasks. All models performed poorly in the legal domain, with the highest zero-shot accuracy reaching only 0.239. By comprehensively evaluating the breadth and depth of knowledge across multiple disciplines, this test can more accurately identify the shortcomings of the models.

研究の動機と目的

  • 大規模中国語言語モデルに対する包括的能力評価の必要性を動機づける。
  • 4つのドメインと複数のサブタスクを跨ぐマルチタスク評価テストを導入する。
  • ゼロショットおよびドメインレベルの性能洞察を提供し、モデルの欠点を特定する。

提案手法

  • 4つのドメイン領域(医学、法学、心理学、教育学)を定義し、医学で15のサブタスク、教育学で8のサブタスクを列挙する。
  • すべてのサブタスクでゼロショット設定のもと、大規模中国語言語モデルを評価する。
  • モデルの性能を比較し、ドメイン全体およびサブドメインの性能パターンを特定する。

実験結果

リサーチクエスチョン

  • RQ14つの主要ドメインにわたる大規模中国語言語モデルのゼロショット性能はどの程度か。
  • RQ2ゼロショット設定で最も強い/弱いモデル能力を示すドメインやサブタスクはどれか。
  • RQ3モデルとドメイン間で、最高のゼロショット性能と最悪の性能はどのように比較されるか。

主な発見

  • 最高のゼロショットモデルは、平均で最悪のモデルより約18.6ポイント高い。
  • 4つのドメイン全体で、全モデルの中で最高の平均ゼロショット精度は0.512である。
  • サブドメインでは、GPT-3.5-turboが臨床医学で0.693のゼロショット精度を達成し、全サブタスク中で最高である。
  • 法域ではすべてのモデルの性能が低く、最高のゼロショット精度はわずか0.239である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。