[论文解读] Using Generative AI and Multi-Agents to Provide Automatic Feedback
本研究推出 AutoFeedback,一种由两代理系统生成并 refinement 自动反馈学生科学回应,并显示相比单代理 GenAI 方法,在240份学生回答中能减少过度赞扬和过度推断。
This study investigates the use of generative AI and multi-agent systems to provide automatic feedback in educational contexts, particularly for student constructed responses in science assessments. The research addresses a key gap in the field by exploring how multi-agent systems, called AutoFeedback, can improve the quality of GenAI-generated feedback, overcoming known issues such as over-praise and over-inference that are common in single-agent large language models (LLMs). The study developed a multi-agent system consisting of two AI agents: one for generating feedback and another for validating and refining it. The system was tested on a dataset of 240 student responses, and its performance was compared to that of a single-agent LLM. Results showed that AutoFeedback significantly reduced the occurrence of over-praise and over-inference errors, providing more accurate and pedagogically sound feedback. The findings suggest that multi-agent systems can offer a more reliable solution for generating automated feedback in educational settings, highlighting their potential for scalable and personalized learning support. These results have important implications for educators and researchers seeking to leverage AI in formative assessments, offering a pathway to more effective feedback mechanisms that enhance student learning outcomes.
研究动机与目标
- 解决 GenAI 自动反馈中的质量问题(过度赞扬和过度推断)。
- 开发具有生成与验证专门角色的多代理反馈系统(AutoFeedback)。
- 以学生构造的回答对 AutoFeedback 与单代理 GenAI 基线进行经验比较。
- 使用人类评审和统计检验评估反馈质量,以评估改进。
- 展示教育中个性化、形成性反馈的可扩展性与潜力。
提出的方法
- 提出一个两代理系统(Agent 1:反馈生成;Agent 2:验证与修订)来生成并改进反馈。
- 使用 WRVRT 提示和迭代提示改进以从 Agent 1 获取高质量反馈。
- 收集 240 份中学科学回答以构建并评分提示,120 份 Beginning 与 120 份 Proficient 的均衡样本。
- 基准模型为 GPT-4o,两个代理均使用;通过 OpenAI API 在本地运行以模拟大规模提交。
- Agent 2 评估并修订 Agent 1 的输出,以减轻过度赞扬和过度推断,提供最终反馈。
- 人类评审评估反馈中的过度赞扬与过度推断,从而与单代理基线进行比较。
实验结果
研究问题
- RQ1单一 GenAI 代理生成反馈时出现过度赞扬和过度推断的频率有多高?
- RQ2AutoFeedback 在减少过度赞扬和过度推断方面对反馈的提升程度有多大?
- RQ3与单一代理系统相比,多代理反馈过程是否提供更准确、教学意义更强的反馈?
主要发现
- 单代理反馈中有 15.42% 的过度赞扬和 27.20% 的过度推断,9.58% 同时具备两者。
- 与单代理相比,AutoFeedback 显著降低了这两类问题(卡方检验 p < 0.001)。
- AutoFeedback 中的过度赞扬从 15.42% 降至 1.25%;过度推断从 27.20% 降至 7.08%;两者合并下降至 0.83%。
- AutoFeedback 提供经修订的反馈,避免不当推断和过度赞扬,与学生回答更好地对齐。
- 研究指出仍有个别案例存在残留的过度赞扬/过度推断,且 Agent 2 有时可能错误判断反馈,这表明仍需进一步完善。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。