QUICK REVIEW

[論文レビュー] S-GRADES -- Studying Generalization of Student Response Assessments in Diverse Evaluative Settings

Tasfia Seuti, Sagnik Ray Choudhury|arXiv (Cornell University)|Mar 10, 2026

Topic Modeling被引用数 0

ひとこと要約

S-GRADES は 14 の AES および ASAG データセットをウェブベースのベンチマークに統合し、標準化された評価を提供するとともに、様々な推論戦略とデータセット横断の exemplar 転移を横断的に分析します。

ABSTRACT

Evaluating student responses, from long essays to short factual answers, is a key challenge in educational NLP. Automated Essay Scoring (AES) focuses on holistic writing qualities such as coherence and argumentation, while Automatic Short Answer Grading (ASAG) emphasizes factual correctness and conceptual understanding. Despite their shared goal, these paradigms have progressed in isolation with fragmented datasets, inconsistent metrics, and separate communities. We introduce S-GRADES (Studying Generalization of Student Response Assessments in Diverse Evaluative Settings), a web-based benchmark that consolidates 14 diverse grading datasets under a unified interface with standardized access and reproducible evaluation protocols. The benchmark is fully open-source and designed for extensibility, enabling continuous integration of new datasets and evaluation settings. To demonstrate the utility of S-GRADES, we evaluate three state-of-the-art large language models across the benchmark using multiple reasoning strategies in prompting. We further examine the effects of exemplar selection and cross-dataset exemplar transfer. Our analyses illustrate how benchmark-driven evaluation reveals reliability and generalization gaps across essay and short-answer grading tasks, highlighting the importance of standardized, cross-paradigm assessment.

研究の動機と目的

AES および ASAG データセットを単一の標準評価プラットフォームへ統合する。
ウェブベースのインフラストラクチャを提供し、再現可能な評価と公開リーダーボードを実現する。
多様な採点タスクに対して、複数の推論構成で最先端の LLM を評価する。
exemplar 選択の安定性とデータセット横断の exemplar 転移効果が採点性能に与える影響を調査する。
エッセイと短答の採点間の一般化ギャップを強調し、跨パラダイム評価を促進する。

提案手法

14 の AES および ASAG データセットをスコアリングスケールを保持し、前処理を一貫させて集約・標準化する。
データセット配布、提出検証、評価、リーダーボード追跡のために FastAPI ベースのプラットフォームを実装する。
6 種の推論構成（Ind, Ded, Abd, Ind+Abd, Ind+Ded, Ded+Abd）を用いて、3 つの大規模言語モデル（GPT-4o-mini、Gemini 2.5 Flash、Llama 4 Scout）を評価する。
一貫した推論と出力制約を強制する多部構成テンプレートを用いたシステム化されたプロンプトを使用する。
安定性を評価するため、異なるシードを用いた帰納的設定とデコードのランダム性（温度）に関するアブレーション研究を実施する。
AES/ASAG のパラダイム内外でのデータセット横断 exemplar 転移を分析し、一般化を研究する。

Figure 2: Complete benchmark submission interface.

実験結果

リサーチクエスチョン

RQ1どの LLM と推論戦略が異なる採点パラダイム（AES 対 ASAG）に最も適合するか。
RQ2少数ショット exemplar 選択とデータセット横断転移が採点性能と一般化にどのように影響するか。
RQ3 exemplar 選択とデコードランダム性に対するモデル予測の安定性はどの程度か。
RQ4横断パラダイム一般化（AES から ASAG へ、ASAG から AES へ）は採点正確度にどのような影響を与えるか。
RQ5標準化評価の下で、エッセイと短答の採点間の一般化にどのようなギャップが残るか。

主な発見

ハイブリッド推論戦略（例：Ind+Ded）は、データセット全体で単一戦略より一般的に優れている。
GPT-4o-mini は ASAP-AES で高い一貫性を示すが、他の AES データセットや ASAG タスクでは変動が見られる。
Gemini-2.5-Flash はバランスのとれた性能と強いクロスドメイン堅牢性を提供し、特に Rice_Chem および ASAG タスクで顕著。
ASAG タスクは AES より変動性が高く、絶対的な性能も低く、転移の難易度が高いことを示す。
データセット横断 exemplar 転移はしばしば性能を劣化させるが、特定データセットの構造化 exemplar を用いると正の転移が見られる場合がある。
exemplar の安定性はモデルに依存して高いもの（例：Gemini-2.5-Flash）もあれば低いものもあり、 exemplar 選択に対するモデル依存の感度を示す。

Figure 3: Public leaderboard displaying aggregated results across all datasets and evaluation metrics.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。