QUICK REVIEW

[論文レビュー] Can Generative Pre-trained Transformers (GPT) Pass Assessments in Higher Education Programming Courses?

Jaromír Šavelka, Arav Agarwal|arXiv (Cornell University)|Mar 16, 2023

Teaching and Learning Programming参考文献 33被引用数 7

ひとこと要約

GPTモデル（text-davinci-003）はPythonコースの全範囲の評価を通過できないが、全体スコアの非実用的でない部分を獲得する可能性があることを示しており、完全なソルバーというより学習アシスタントとしての潜在性を示唆する。

ABSTRACT

We evaluated the capability of generative pre-trained transformers (GPT), to pass assessments in introductory and intermediate Python programming courses at the postsecondary level. Discussions of potential uses (e.g., exercise generation, code explanation) and misuses (e.g., cheating) of this emerging technology in programming education have intensified, but to date there has not been a rigorous analysis of the models' capabilities in the realistic context of a full-fledged programming course with diverse set of assessment instruments. We evaluated GPT on three Python courses that employ assessments ranging from simple multiple-choice questions (no code involved) to complex programming projects with code bases distributed into multiple files (599 exercises overall). Further, we studied if and how successfully GPT models leverage feedback provided by an auto-grader. We found that the current models are not capable of passing the full spectrum of assessments typically involved in a Python programming course (<70% on even entry-level modules). Yet, it is clear that a straightforward application of these easily accessible models could enable a learner to obtain a non-trivial portion of the overall available score (>55%) in introductory and intermediate courses alike. While the models exhibit remarkable capabilities, including correcting solutions based on auto-grader's feedback, some limitations exist (e.g., poor handling of exercises requiring complex chains of reasoning steps). These findings can be leveraged by instructors wishing to adapt their assessments so that GPT becomes a valuable assistant for a learner as opposed to an end-to-end solution.

研究の動機と目的

実際の高等教育コースで用いられるMCQとコーディング課題を含むPythonコースの全スペクトラムのGPT能力を評価する。
オートグレーダーのフィードバックを活用して解を改善するGPTの能力を評価する。
プログラミング教育における指導設計と評価セキュリティの限界と示唆を特定する。

提案手法

MCQプロンプト（温度0.0、max_tokens 500）とコーディング課題プロンプト（max_tokens 2000まで、温度0.7）を用いてtext-davinci-003（GPT-3.5ファミリー）を使用する。
人間の学習者と同じ評価レジメンを適用し、オートグレーダーのフィードバックと反復提出を含める。
データセットはPE1、PE2、PPPの3つのPythonコースからの599問題（MCQとコーディング課題）を構成する。
GPTのパフォーマンスを以前のモデル（text-davinci-002）と比較して進捗を測定する。
GPTがコースレベルの評価を通過できるかどうかと、フィードバックが修正に与える影響を分析する。

実験結果

リサーチクエスチョン

RQ1RQ1: 初級および中級Pythonコースで用いられるMCQ評価に対して、GPTが正答を生成する信頼性はどれくらいか。
RQ2RQ2: 人間に近い指示から複雑なPythonコーディング課題の解を生成する信頼性はどれくらいか。
RQ3RQ3: オートグレーダーのフィードバックを用いて欠陥のある解を改善する能力はどれくらいか。

主な発見

GPT-3.5（text-davinci-003）は530問中341問（64.3%）に回答し、以前のモデル(td-002)の301/530（56.8%）より改善した。
PE1ではtd-003は最初のモジュールのみを合格し、総合で56.1%を平均、以降のモジュールテストは不合格。
PE2ではtd-003は4モジュール中3を合格し、総合で67.9%（Summary Testでは65.0%）を平均。
PPPではGPTは8コース単位のうち4単位を合格し、提示された採点方式の下で総合67.3%（コース合計）を達成。プロジェクトとリフレクションはそれぞれ0.8と0.2のウェイト。
GPTはオートグレーダーのフィードバックを通じて改善する能力を示した（例：初回提出のプロジェクトスコア53.6%から修正後の66.4%へ上昇）が、長い推論チェーンや微妙な出力理解を要する課題には苦戦。
制約としては、複雑な推論ステップ、多数の成果物の統合、または非自明な出力検証を必要とする演習で難がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。