[論文レビュー] Using GPT-4 to Augment Unbalanced Data for Automatic Scoring
この論文は、GPT-4 を用いて少数クラスの学生回答を生成しデータセットの不均衡を是正し、DistilBERT を自動採点用にファインチューニングすることで、非拡張データおよび金標準拡張と比較して正確度、適合率、再現率、F1 を改善している。
Machine learning-based automatic scoring faces challenges with unbalanced student responses across scoring categories. To address this, we introduce a novel text data augmentation framework leveraging GPT-4, a generative large language model, specifically tailored for unbalanced datasets in automatic scoring. Our experimental dataset comprised student written responses to four science items. We crafted prompts for GPT-4 to generate responses, especially for minority scoring classes, enhancing the data set. We then finetuned DistillBERT for automatic scoring based on the augmented and original datasets. Model performance was assessed using accuracy, precision, recall, and F1 metrics. Our findings revealed that incorporating GPT-4-augmented data remarkedly improved model performance, particularly for precision and F1 scores. Interestingly, the extent of improvement varied depending on the specific dataset and the proportion of augmented data used. Notably, we found that a varying amount of augmented data (20%-40%) was needed to obtain stable improvement for automatic scoring. Comparisons with models trained on additional student-written responses suggest that GPT-4 augmented models match those trained with student data. This research underscores the potential and effectiveness of data augmentation techniques utilizing generative large language models like GPT-4 in addressing unbalanced datasets within automated assessment.
研究の動機と目的
- 自動採点における学生の科学的説明の回答分布の不均衡を解消する。
- 少数クラスの採点を強化するためのGPT-4 プロンプト拡張を検討する。
- augmented データと元データ・金標準拡張の比較で採点性能を評価する。
- 拡張割合がモデル指標と安定性に与える影響を評価する。
提案手法
- 高度に不均衡な少数クラス(Q1 と Q2)を含む二つの科学項目データセットを構築する。
- データをバランスさせるために少数クラスの回答をGPT-4 で拡張生成する。
- 拡張データと元データの両方で DistilBERT を自動採点用にファインチューニングする。
- 訓練/検証/テストにデータを分割し、テスト集合の少数表現を増強する。
- さまざまな拡張割合(0–100%)で精度、適合率、再現率、F1 を用いてモデルを評価する。
- GPT-4 拡張データを金標準(追加の実データ)拡張と比較する。
実験結果
リサーチクエスチョン
- RQ1GPT-4 拡張トレーニングデータは採点性能をどれだけ改善するか。
- RQ2GPT-4 ベースのデータ拡張は採点モデルの性能向上にどの程度効率的か。
- RQ3GPT-4 ベースのデータ拡張は追加の学生作成回答を用いる場合とどう比較されるか。
主な発見
- GPT-4 拡張は適合率、再現率、F1 を改善し、二つの項目で平均最大増加が正解率で 3.5%、適合率で 30.6%、再現率で 21.1%、F1 で 24.2% となる。
- 僅か 5% の拡張データを用いるだけで顕著な利得が得られ:平均で正解率 2.6%、適合率 29.2%、再現率 15.1%、F1 19.6%。
- タスク固有の改善はデータセットごとに異なり、データ特性と拡張レベルに依存する。
- 拡張データを用いたモデルは、学生作成拡張データで訓練したモデルと比較して一般に性能を上回るか同等で、正解率約 1.7%、適合率約 1.9%、再現率約 11.0%、F1 約 7.8% の優位性をGPT-4 拡張が示す。
- タスク1では、初期の拡張で適合率/再現率/F1 が著しく改善され、5–20% を超えると安定化する傾向。
- タスク2では、拡張により正解率は高いまま(天井効果)、再現率と F1 は拡張データ量を増やすほど改善し、40% 付近で飽和点に達する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。