QUICK REVIEW

[論文レビュー] Large Language Models in Introductory Programming Education: ChatGPT's Performance and Implications for Assessments

Natalie Kiesler, Daniel Schiffner|arXiv (Cornell University)|Aug 15, 2023

Artificial Intelligence in Healthcare and Education被引用数 19

ひとこと要約

この論文は、72個のCodingBat Python課題に対するChatGPT-3.5とGPT-4を評価し、正確さは約94.4–95.8%、説明とコードの提供が広く行われていることを発見し、教育・評価への含意を論じる。

ABSTRACT

This paper investigates the performance of the Large Language Models (LLMs) ChatGPT-3.5 and GPT-4 in solving introductory programming tasks. Based on the performance, implications for didactic scenarios and assessment formats utilizing LLMs are derived. For the analysis, 72 Python tasks for novice programmers were selected from the free site CodingBat. Full task descriptions were used as input to the LLMs, while the generated replies were evaluated using CodingBat's unit tests. In addition, the general availability of textual explanations and program code was analyzed. The results show high scores of 94.4 to 95.8% correct responses and reliable availability of textual explanations and program code, which opens new ways to incorporate LLMs into programming education and assessment.

研究の動機と目的

ChatGPT-3.5とGPT-4が初心者向けプログラミング課題に対して正確で実行可能なPythonコードを生成する能力を評価する。
出力に文本の説明とコードが含まれているか、信頼性を分析する。
LLMを活用した入門プログラミング教育における教育的シナリオと評価形式について論じる。

提案手法

CodingBat Python課題（8領域の72課題）を入力としてChatGPT-3.5とGPT-4を評価する。
LLMsに対して全課題の説明を提示し、CodingBatのユニットテストで出力を評価する。
回答にコードと説明が含まれるか、コードがユニットテストをパスするかを記録し、必要に応じてプロンプトを反復する。
課題の明確さ、制約（ライブラリなし、関数シグネチャー）、LLMの過信などの制約を分析する。

実験結果

リサーチクエスチョン

RQ1ChatGPT-3.5とGPT-4は初級プログラミング課題において正確さの観点でどう評価されるか？
RQ2これらのモデルはどの程度、文本の説明とコードを提供するか？
RQ3入門プログラミング教育における教育設計と評価の意味は何か？

主な発見

CodingBat課題エリア	GPT-3.5 テキスト説明	GPT-3.5 プログラムコード	GPT-3.5 正しい単体テスト結果	GPT-4 テキスト説明	GPT-4 プログラムコード	GPT-4 正しい単体テスト結果
Warmup1	11/12	12/12	12/12	12/12	12/12	12/12
Warmup2	9/9	9/9	9/9	9/9	9/9	9/9
String1	11/11	11/11	10/11	11/11	11/11	11/11
List1	12/12	12/12	12/12	11/12	12/12	12/12
Logic1	8/9	9/9	8/9	9/9	9/9	9/9
Logic2	7/7	7/7	6/7	6/7	7/7	6/7
String2	6/6	6/6	6/6	6/6	6/6	4/6
List2	6/6	6/6	6/6	6/6	6/6	5/6

ChatGPT-3.5は72課題中69課題を正しく解いた（95.8%）。
GPT-4は72課題中68課題を正しく解いた（94.4%）。
両モデルは初回応答にPythonコードを提供し、多くの場合に文本の説明を提供している（GPT-3.5: 70/72の説明; GPT-4: 70/72の説明）。
コードにはしばしばコメントが含まれ、時には追加のサンプル出力がある。
8領域の内訳はほとんどの領域で非常に高い正確性を示し、課題によって若干の差異がある。
著者らは出力を向上させるためのプロンプト戦略を論じ、曖昧さと過信の可能性に対する注意を強調している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。