[論文レビュー] NERIF: GPT-4V for Automatic Scoring of Drawn Models
論文はGPT-4Vを用いたプロンプト設計によるNERIFを提示し、指示ノートとルーブリックを用いたFew-shot学習で学生が描いた科学モデルを自動評価する。中程度のテスト正答率と説明可能な採点を実現。
Scoring student-drawn models is time-consuming. Recently released GPT-4V provides a unique opportunity to advance scientific modeling practices by leveraging the powerful image processing capability. To test this ability specifically for automatic scoring, we developed a method NERIF (Notation-Enhanced Rubric Instruction for Few-shot Learning) employing instructional note and rubrics to prompt GPT-4V to score students' drawn models for science phenomena. We randomly selected a set of balanced data (N = 900) that includes student-drawn models for six modeling assessment tasks. Each model received a score from GPT-4V ranging at three levels: 'Beginning,' 'Developing,' or 'Proficient' according to scoring rubrics. GPT-4V scores were compared with human experts' scores to calculate scoring accuracy. Results show that GPT-4V's average scoring accuracy was mean =.51, SD = .037. Specifically, average scoring accuracy was .64 for the 'Beginning' class, .62 for the 'Developing' class, and .26 for the 'Proficient' class, indicating that more proficient models are more challenging to score. Further qualitative study reveals how GPT-4V retrieves information from image input, including problem context, example evaluations provided by human coders, and students' drawing models. We also uncovered how GPT-4V catches the characteristics of student-drawn models and narrates them in natural language. At last, we demonstrated how GPT-4V assigns scores to student-drawn models according to the given scoring rubric and instructional notes. Our findings suggest that the NERIF is an effective approach for employing GPT-4V to score drawn models. Even though there is space for GPT-4V to improve scoring accuracy, some mis-assigned scores seemed interpretable to experts. The results of this study show that utilizing GPT-4V for automatic scoring of student-drawn models is promising.
研究の動機と目的
- 科学教育における学生描画モデルの自動採点の必要性を動機づけ、時間を節約し迅速なフィードバックを提供する。
- GPT-4Vの画像処理と言語能力を活用して描画モデルを採点するプロンプトベース手法(NERIF)を開発する。
- 六つのモデリング課題にわたりGPT-4Vの性能を人間の専門家スコアと比較評価する。
- instructional notes and rubrics が解釈可能で説明可能な採点結果を示す方法を実証する。
提案手法
- 9つの例評価を用いたFew-shot学習アプローチでトリニミアル分類(Beginning, Developing, Proficient)をGPT-4Vに促す。
- 各クエリに2画像を添付:スコアリング例を含む問題文脈と学生描画モデル;採点を誘導する prompts からランダムに例を取得。
- Notation-Enhanced Scoring Rubricsの三要素(採点項目、熟練度ルール、 instructional notes)を組み込む。
- 検証(N=54)でプロンプトを反復的に洗練させた後、グリーディデコーディング(温度0、top_p 0.01)でテスト採点(N=900)を実行。
- 正確さ、適合率、再現率、F1、Fleiss’ Kappaで評価;混合行列を分析して誤分類を理解する。
実験結果
リサーチクエスチョン
- RQ1GPT-4Vは学生描画モデルを自動でどれだけ正確に採点できるか?
- RQ2提供されたルーブリックとノートを用いて、GPT-4Vは学生描画モデルに対して自動でどのようにスコアを割り当てるか?
主な発見
| Item | Accuracy | Acc_Beg | Acc_Dev | Acc_Prof | Precision | Recall | F1 | Kappa |
|---|---|---|---|---|---|---|---|---|
| R1-1 | 0.50 | 0.50 | 0.66 | 0.34 | 0.56 | 0.50 | 0.50 | 0.44 |
| J2-1 | 0.45 | 0.68 | 0.56 | 0.12 | 0.62 | 0.45 | 0.41 | 0.32 |
| M3-1 | 0.53 | 0.82 | 0.40 | 0.36 | 0.53 | 0.53 | 0.51 | 0.51 |
| H4-1 | 0.57 | 0.64 | 0.68 | 0.38 | 0.61 | 0.57 | 0.56 | 0.51 |
| H5-1 | 0.47 | 0.62 | 0.58 | 0.22 | 0.53 | 0.47 | 0.46 | 0.43 |
| J6-1 | 0.53 | 0.62 | 0.84 | 0.12 | 0.62 | 0.53 | 0.48 | 0.38 |
- 6項目の平均テスト採点正確度: 0.51 (SD = 0.037)。
- 項目ごとの平均適合率、再現率、F1はそれぞれ0.58、0.51、0.49;Fleiss’ Kappaは0.32〜0.51(Fair to Moderate)。
- カテゴリ別の正確度: Beginning 0.64、Developing 0.61、Proficient 0.26。ProficientはGPT-4Vにとって採点がより難しい。
- 検証の正確度は平均0.67(Beginning 0.78、Developing 0.67、Proficient 0.56)6項目で。
- GPT-4Vは入力画像から問題文脈と採点例を取り出し、採点構成要素の自然言語の推論を生成できる。
- few-shotプロンプトと instructional notes を追加することで採点品質が向上することを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。