[論文レビュー] Using Generative AI and Multi-Agents to Provide Automatic Feedback
この研究はAutoFeedbackという二エージェントシステムを紹介し、学生の科学回答に対する自動フィードバックを生成・精錬し、240件の学生回答に対して単一エージェント GenAI アプローチと比較して過大賞賛と過剰推論を低減することを示した。
This study investigates the use of generative AI and multi-agent systems to provide automatic feedback in educational contexts, particularly for student constructed responses in science assessments. The research addresses a key gap in the field by exploring how multi-agent systems, called AutoFeedback, can improve the quality of GenAI-generated feedback, overcoming known issues such as over-praise and over-inference that are common in single-agent large language models (LLMs). The study developed a multi-agent system consisting of two AI agents: one for generating feedback and another for validating and refining it. The system was tested on a dataset of 240 student responses, and its performance was compared to that of a single-agent LLM. Results showed that AutoFeedback significantly reduced the occurrence of over-praise and over-inference errors, providing more accurate and pedagogically sound feedback. The findings suggest that multi-agent systems can offer a more reliable solution for generating automated feedback in educational settings, highlighting their potential for scalable and personalized learning support. These results have important implications for educators and researchers seeking to leverage AI in formative assessments, offering a pathway to more effective feedback mechanisms that enhance student learning outcomes.
研究の動機と目的
- GenAI自動フィードバックの品質問題(過大賞賛と過剰推論)を解決する。
- 生成と検証の専門的役割を持つマルチエージェントフィードバックシステム(AutoFeedback)を開発する。
- 学生が作成した回答を用いた単一エージェント基線とAutoFeedbackを実証的に比較する。
- 人間の評価者と統計的検定を用いてフィードバック品質を評価し改善を検証する。
- 教育における個別化・形成的フィードバックのスケーラビリティと潜在性を示す。
提案手法
- フィードバック生成と検証・改稿を担当する二エージェントシステム(Agent 1: フィードバック生成; Agent 2: 検証と改稿)を提案してフィードバックを作成・精錬。
- WRVRT promptingと反復的プロンプト改良を用いてAgent 1 から高品質のフィードバックを引き出す。
- 240件の中学理科回答を収集し、120件のBeginningと120件のProficientのバランスの良い prompts を構築・採点。
- 両エージェントともベースモデルはGPT-4oを使用; 大規模提出を模擬するためOpenAI APIを介してローカルで処理を実行。
- Agent 2 は Agent 1 の出力を評価・改稿し、過大賞賛と過剰推論を抑制して最終フィードバックを提供。
- 人間の評価者が過大賞賛と過剰推論を評価し、単一エージェントの基線と比較できるようにした。
実験結果
リサーチクエスチョン
- RQ1単一GenAIエージェントが過大賞賛と過剰推論を含むフィードバックを生成する頻度はどの程度か?
- RQ2AutoFeedbackは過大賞賛と過剰推論を減らすことでフィードバックをどの程度改善するか?
- RQ3マルチエージェントのフィードバックプロセスは、単一エージェントシステムと比較してより正確で教育的に妥当なフィードバックを提供するか?
主な発見
- 単一エージェントのフィードバックは過大賞賛が15.42%、過剰推論が27.20%、両方を示すものが9.58%だった。
- AutoFeedbackは両方の問題を有意に低減(カイ二乗検定 p < 0.001)し、単一エージェントと比較して改善された。
- AutoFeedback の過大賞賛は15.42%から1.25%へ、過剰推論は27.20%から7.08%へ低下し、両方の問題の合計は0.83%へ低下した。
- AutoFeedbackは不当な推論や過度の賞賛を避ける改訂済みフィードバックを提供し、学生の回答との整合性を改善した。
- 研究は一部のケースで residual な過大賞賛/過剰推論が残ること、Agent 2 が時折フィードバックを誤判断することを指摘しており、さらなる改良の余地を示唆している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。