Skip to main content
QUICK REVIEW

[论文解读] S-GRADES -- Studying Generalization of Student Response Assessments in Diverse Evaluative Settings

Tasfia Seuti, Sagnik Ray Choudhury|arXiv (Cornell University)|Mar 10, 2026
Topic Modeling被引用 0
一句话总结

S-GRADES 将 14 个 AES 和 ASAG 数据集整合为基准并提供标准化评估,分析在多种推理策略下以及跨数据集的示例迁移对大语言模型的表现。

ABSTRACT

Evaluating student responses, from long essays to short factual answers, is a key challenge in educational NLP. Automated Essay Scoring (AES) focuses on holistic writing qualities such as coherence and argumentation, while Automatic Short Answer Grading (ASAG) emphasizes factual correctness and conceptual understanding. Despite their shared goal, these paradigms have progressed in isolation with fragmented datasets, inconsistent metrics, and separate communities. We introduce S-GRADES (Studying Generalization of Student Response Assessments in Diverse Evaluative Settings), a web-based benchmark that consolidates 14 diverse grading datasets under a unified interface with standardized access and reproducible evaluation protocols. The benchmark is fully open-source and designed for extensibility, enabling continuous integration of new datasets and evaluation settings. To demonstrate the utility of S-GRADES, we evaluate three state-of-the-art large language models across the benchmark using multiple reasoning strategies in prompting. We further examine the effects of exemplar selection and cross-dataset exemplar transfer. Our analyses illustrate how benchmark-driven evaluation reveals reliability and generalization gaps across essay and short-answer grading tasks, highlighting the importance of standardized, cross-paradigm assessment.

研究动机与目标

  • 将 AES 和 ASAG 数据集整合为单一标准化评估平台。
  • 提供一个具有可重复评估和公开排行榜的网页基础设施。
  • 在多种推理配置下评估最先进的 LLMs,在多样化的评分任务上进行比较。
  • 研究示例选择的稳定性以及跨数据集示例迁移对评分性能的影响。
  • 强调作文评分与简答题评分之间的泛化差距,以促进跨范式评估。

提出的方法

  • 聚合并标准化 14 个 AES 和 ASAG 数据集,保留评分量表并进行一致的预处理。
  • 实现基于 FastAPI 的平台用于数据分发、提交校验、评估与排行榜跟踪。
  • 使用六种推理配置(Ind、Ded、Abd、Ind+Abd、Ind+Ded、Ded+Abd)评估三种大型语言模型(GPT-4o-mini、Gemini 2.5 Flash、Llama 4 Scout)。
  • 使用系统化提示与多部件模板以强制统一推理和输出约束。
  • 对示例选择(带不同种子的归纳设定)和解码随机性(温度)进行消融研究以评估稳定性。
  • 分析跨数据集的示例迁移在 AES/ASAG 范式内外的影响以研究泛化。
Figure 2: Complete benchmark submission interface.
Figure 2: Complete benchmark submission interface.

实验结果

研究问题

  • RQ1哪些 LLM 和推理策略最符合不同的评分范式(AES 与 ASAG)?
  • RQ2少量示例选择与跨数据集迁移如何影响评分性能与泛化?
  • RQ3模型预测对示例选择与解码随机性的稳定性如何?
  • RQ4跨范式泛化(AES 到 ASAG 及反向)对评分准确性有何影响?
  • RQ5在标准化评估下,作文评分与简答题评分的泛化差距仍然存在吗?

主要发现

  • 混合推理策略(如 Ind+Ded)通常在跨数据集上优于单一策略。
  • GPT-4o-mini 在 ASAP-AES 上具有较高的一致性,但在其他 AES 数据集和 ASAG 任务上存在变量性。
  • Gemini-2.5-Flash 提供平衡的性能和较强的跨领域鲁棒性,特别是在 Rice_Chem 和 ASAG 任务上。
  • ASAG 任务的变异性更大,绝对表现低于 AES,表示跨域迁移难度较高。
  • 跨数据集的示例迁移常常降低性能,但在使用来自某些数据集的结构化示例时也存在正向迁移。
  • 某些模型(如 Gemini-2.5-Flash)的示例稳定性较高,其他模型则对示例选择敏感,表现为模型依赖性。
Figure 3: Public leaderboard displaying aggregated results across all datasets and evaluation metrics.
Figure 3: Public leaderboard displaying aggregated results across all datasets and evaluation metrics.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。