QUICK REVIEW

[論文レビュー] Large Language Models for Education: Grading Open-Ended Questions Using ChatGPT

Gustavo Pinto, Isadora Cardoso-Pereira|arXiv (Cornell University)|Jul 31, 2023

Topic Modeling被引用数 9

ひとこと要約

本論は、ソフトウェア教育における開放式質問の採点にChatGPTを用いることを調査し、専門家と非専門家の回答を比較し、プロンプト設計と類似度指標を検討する。

ABSTRACT

As a way of addressing increasingly sophisticated problems, software professionals face the constant challenge of seeking improvement. However, for these individuals to enhance their skills, their process of studying and training must involve feedback that is both immediate and accurate. In the context of software companies, where the scale of professionals undergoing training is large, but the number of qualified professionals available for providing corrections is small, delivering effective feedback becomes even more challenging. To circumvent this challenge, this work presents an exploration of using Large Language Models (LLMs) to support the correction process of open-ended questions in technical training. In this study, we utilized ChatGPT to correct open-ended questions answered by 42 industry professionals on two topics. Evaluating the corrections and feedback provided by ChatGPT, we observed that it is capable of identifying semantic details in responses that other metrics cannot observe. Furthermore, we noticed that, in general, subject matter experts tended to agree with the corrections and feedback given by ChatGPT.

研究の動機と目的

大規模なエンジニアリング訓練環境で、スケーラブルで即時のフィードバックを促進する。
開放式の回答における意味的ディテールを特定するChatGPTの能力を評価する。
ChatGPTの採点と人間の専門家の合意を評価する。
採点の厳密さを向上させ、偏りを減らすためのプロンプトエンジニアリング戦略を探る。

提案手法

キャッシュとストレス/性能テストに関する6つの開放式質問を設計し、実施する。
Zup Innovationのエンジニアから専門家の回答（2名）と非専門家の回答（N=40）を収集する。
回答を採点するためにChatGPTを使用し、交差検証のために自身の回答も採点させる。
プロンプトを反復的に改良（Prompt V1–V4）して、採点の厳密さを高め、ミスキャリブレーションを減らす。
ChatGPTの採点を補完するため、sbertを用いて専門家と参加者の回答間のコサイン類似度を算出する。
LLMベースの採点の限界と潜在的な幻像（ハルシネーション）および人間の監視の役割について論じる。

実験結果

リサーチクエスチョン

RQ1RQ1: 専門家の回答と比較した場合、ChatGPTの採点の品質はどの程度か？
RQ2RQ2: 非専門家の回答と比較した場合、ChatGPTの採点の品質はどの程度か？

主な発見

ChatGPTは、他の指標では見逃されがちな回答の意味的ディテールを特定できた。
専門家は、ChatGPTが回答に対して提供した修正と採点に概ね同意した。
専門家と参加者の回答間のコサイン類似度は一般に0.7を超え、ほとんどのケースで人間の参照と一致していることを示した。
プロンプトエンジニアリングの反復（V1–V4）は、採点の厳密さを高め、ミスキャリブレーションと幻像を軽減するために使用された。
本研究は、明示的なプロンプトがなくとも、ChatGPTが関連概念（例：クライアントサイドのキャッシュとサーバーサイドのキャッシュを併記する場合など）を省略する可能性のあるギャップを指摘している。
このアプローチは、ChatGPTの採点とコサイン類似度を組み合わせて多面的な評価を提供し、人間を介在させた検証の必要性を指摘している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。