QUICK REVIEW

[論文レビュー] Human-AI Collaborative Essay Scoring: A Dual-Process Framework with LLMs

Changrong Xiao, Wenxing Ma|arXiv (Cornell University)|Jan 12, 2024

Natural Language Processing Techniques被引用数 12

ひとこと要約

本論文は、GPT-4と微調整されたGPT-3.5を自動採点システムとして検討し、それらをBERTと比較するとともに、LLMを用いた人間の採点支援が初学者を専門家レベルのパフォーマンスへ引き上げることを示している。

ABSTRACT

Receiving timely and personalized feedback is essential for second-language learners, especially when human instructors are unavailable. This study explores the effectiveness of Large Language Models (LLMs), including both proprietary and open-source models, for Automated Essay Scoring (AES). Through extensive experiments with public and private datasets, we find that while LLMs do not surpass conventional state-of-the-art (SOTA) grading models in performance, they exhibit notable consistency, generalizability, and explainability. We propose an open-source LLM-based AES system, inspired by the dual-process theory. Our system offers accurate grading and high-quality feedback, at least comparable to that of fine-tuned proprietary LLMs, in addition to its ability to alleviate misgrading. Furthermore, we conduct human-AI co-grading experiments with both novice and expert graders. We find that our system not only automates the grading process but also enhances the performance and efficiency of human graders, particularly for essays where the model has lower confidence. These results highlight the potential of LLMs to facilitate effective human-AI collaboration in the educational context, potentially transforming learning experiences through AI-generated feedback.

研究の動機と目的

公的 ASAP データセットと私的中国語データセットにおける自動採点（AES）システムとしてのGPT-4と微調整済みGPT-3.5の有効性を評価する。
従来モデルと比較したLLMベースのAESの一貫性、一般化可能性、解釈可能性を評価する。
AESタスクにおけるLLM生成のフィードバックが初学者と専門家の人間採点者に与える影響を調査する。

提案手法

ロジック評価基準と検索ベースの例選択を含むゼロショットおよび少数ショット設定でのGPT-4用プロンプトを設計する。
データセット全体の注釈付きエッセイを用いてGPT-3.5を微調整し、採点と対応するサブディメンションのスコアを生成する。
参照点としてスコア予測のためのBERTベースのベースラインを確立する。
埋め込みを用いてトップ-kの類似エッセイを選択する検索ベースのアプローチを少数ショットプロンプト用に実装する。
スコアとともに説明と推奨を提供するフィードバック生成モジュール（GPT-4）を組み込む。

実験結果

リサーチクエスチョン

RQ1GPT-4（ゼロショットおよび少数ショット）と微調整済みGPT-3.5は、ASAPおよび私的データセット上でBERTベースラインと比較してAESタスクでどのように機能するか？
RQ2LLM生成のフィードバックは、初学者と専門家のグループ全体において、採点の正確さ、一貫性、効率性を改善するか？
RQ3再訓練なしで、異なる採点ルーブリックやレンジに対してLLMは一般化できるか？

主な発見

セット 1	セット 2	セット 3	セット 4	セット 5	セット 6	セット 7	セット 8
0.0423	0.4017	0.2805	0.5571	0.3659	0.5021	0.0809	0.4188
0.0715	0.3003	0.3661	0.6266	0.5227	0.3448	0.1101	0.4072
0.2801	0.3376	0.3308	0.7839	0.6226	0.7284	0.2570	0.4541
0.7406	0.6183	0.7041	0.8593	0.7959	0.8480	0.7271	0.6135
0.6486	0.6284	0.7327	0.7669	0.7432	0.6810	0.7165	0.4624

微調整済みGPT-3.5は、ASAPのサブセットおよび私的データセット全般で最も高いQWKスコアを一般に達成し、複数の設定でBERTベースラインを上回る。
GPT-4はゼロショットまたは少数ショットの構成で、いくつかのASAPサブセットにおいて微調整済みGPT-3.5およびBERTベースラインと比較して性能が劣る。
CoTプロンプトを用いたトップ-k類似エッセイによる検索ベースのインコンテキスト学習は、GPT-4の性能をランダムショットプロンプトよりも向上させる。
LLM支援を受けた初学者の採点者は、LLM生成のフィードバックを与えられると専門家レベルのQAパフォーマンス（QWK ≈ 0.66）に達し、専門家と有意差はない（p = 0.43）。
専門家はLLMフィードバックによって効率と一致度が向上する（得点のばらつきが小さくなる）が、全体の利益は常に統計的に有意ではないことがある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。