QUICK REVIEW

[論文レビュー] Evaluating the Performance of Large Language Models on GAOKAO Benchmark

Xiaotian Zhang, Chunyang Li|arXiv (Cornell University)|May 21, 2023

Topic Modeling被引用数 18

ひとこと要約

本論文は GAOKAO-Bench を導入します。これは中国の GAOKAO に基づく LLM 評価ベンチマークで、ゼロショット性能と客観的な問題と主観的な問題に対する人間の整合性を検証し、客観的な問題での強みと改善すべき領域を明らかにします。

ABSTRACT

Large Language Models(LLMs) have demonstrated remarkable performance across various natural language processing tasks; however, how to comprehensively and accurately assess their performance becomes an urgent issue to be addressed. This paper introduces GAOKAO-Bench, an intuitive benchmark that employs questions from the Chinese GAOKAO examination as test samples, including both subjective and objective questions. To align with human examination methods, we design a method based on zero-shot settings to evaluate the performance of LLMs. With human evaluation, we obtain the converted total score of LLMs, including GPT-4, ChatGPT and ERNIE-Bot.Our findings reveal that LLMs have achieved competitive scores in Chinese GAOKAO examination, while they exhibit significant performance disparities across various subjects. We also use LLMs to grade the subjective questions, and find that model scores achieve a moderate level of consistency with human scores. In conclusion, this research contributes a robust evaluation benchmark for future large language models and offers valuable insights into the advantages and limitations of such models.

研究の動機と目的

GAOKAO 問題を用いて中国語教育タスクのドメイン特化型で人間と整合した評価を動機づける。
LLM の能力を評価するために、全科目の 2010–2022 Gaokao データを含むベンチマークを提供する。
質問をモデル出力へマッピングする際の zero-shot プロンプトの有効性を評価する。
客観的な問題と主観的な問題に対するモデルの性能を区別し、科目別の長所と課題を特定する。

提案手法

GAOKAO 問題データ（2010–2022）を LaTeX を数式に用いた JSON コーパスに組み立てる。
問題タイプに合わせた zero-shot プロンプトを適用して、LLMs から複数の出力を生成する。
標準解答との完全一致で客観的問題を採点する; 主観的問題は人間の専門家評価により採点する。
高校教師を招いて採点を検証し、人間のベンチマークと整合させる。
科目別・問題タイプ別の採点率を分析し、強み（例: English など）と弱点（例: Physics、Chemistry、Math_I）を特定する。

実験結果

リサーチクエスチョン

RQ1ゼロショット設定で GAOKAO 問題に対して、大規模言語モデルはどのような性能を示すか。
RQ2科目を横断して、客観的 vs 主観的 Gaokao 問題における LLM の相対的な性能はどうか。
RQ3LLM の性能と人間のベンチマークの間に最も大きなギャップを生む科目や問題タイプはどれか。

主な発見

このモデルは客観的な問題で最も高い性能を示し、特定された English 問題タイプで高い採点率を示す（例: English_Reading_Comp = 88.3%、English_MCQs = 78.1%、English_Fill_in_Blanks = 73.8%）。
主観的な問題の採点は全体的に低く、科目によって異なり、計算と推論の要件のため Physics、Chemistry、Biology、Math の間により大きなギャップが見られる。
全体として、知識ベースの問題で高い性能を示すが、長い中国語読解問題や特定の論理的/数学的推論タスクには苦戦する。
科目レベルの分析では英語関連のタスクが最も強く、Physics、Chemistry、Math_I は顕著な課題を示す。
上海市 Caoyang No. 2 中学校の教師による人間の評価を用いて、主観的な採点を人間のベンチマークに合わせた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。