[論文レビュー] ChatGPT and Software Testing Education: Promises & Perils
本研究は教科書の31問のソフトウェア検査問題に対するChatGPTの回答を評価し、回答可能率77.5%、正解/部分正解率55.6%、説明の正確性/部分正解率53.0%を示す。文脈と自信が結果に影響する。
Over the past decade, predictive language modeling for code has proven to be a valuable tool for enabling new forms of automation for developers. More recently, we have seen the advent of general purpose "large language models", based on neural transformer architectures, that have been trained on massive datasets of human written text spanning code and natural language. However, despite the demonstrated representational power of such models, interacting with them has historically been constrained to specific task settings, limiting their general applicability. Many of these limitations were recently overcome with the introduction of ChatGPT, a language model created by OpenAI and trained to operate as a conversational agent, enabling it to answer questions and respond to a wide variety of commands from end users. The introduction of models, such as ChatGPT, has already spurred fervent discussion from educators, ranging from fear that students could use these AI tools to circumvent learning, to excitement about the new types of learning opportunities that they might unlock. However, given the nascent nature of these tools, we currently lack fundamental knowledge related to how well they perform in different educational settings, and the potential promise (or danger) that they might pose to traditional forms of instruction. As such, in this paper, we examine how well ChatGPT performs when tasked with answering common questions in a popular software testing curriculum. Our findings indicate that ChatGPT can provide correct or partially correct answers in 55.6% of cases, provide correct or partially correct explanations of answers in 53.0% of cases, and that prompting the tool in a shared question context leads to a marginally higher rate of correct responses. Based on these findings, we discuss the potential promises and perils related to the use of ChatGPT by students and instructors.
研究の動機と目的
- ChatGPTが人気の教科書からのソフトウェア検査問題にどれだけ適切に回答できるかを評価する。
- ChatGPTの回答に対する説明の質を評価する。
- prompting戦略と対話文脈が性能にどのように影響するかを調査する。
- ChatGPT自身が報告する自信と回答の正確さの相関を検討する。
提案手法
- Ammann & Offuttの五つの章からの31問のデータセットを手動で検証し、各問につきChatGPTの応答を3回用意する。
- 別文脈 promptingと共有文脈 promptingを比較して正確さへの影響を評価する。
- 各回答の後に自信についての質問をして校正を検討する。
- 2人以上の研究者が回答と説明の正確さを独立してラベリングする。
- 各問につき3回の実行を行い非決定性の影響を分析する。
実験結果
リサーチクエスチョン
- RQ1RQ1: 異なる prompting 戦略の下で、ChatGPTはどのくらい正しい回答と説明を提供できるか。
- RQ2RQ2: ChatGPTはどの程度、正確さの異なる回答-説明ペアを生成するか。
- RQ3RQ3: ChatGPTの非決定性は回答と説明の正確さにどう影響するか。
- RQ4RQ4: ChatGPTの自己申告の自信は実際の正確さと相関するか。
主な発見
| Iter | AC-EC | AC-EPC | AC-EIC | APC-EC | APC-EPC | APC-EIC | AIC-EC | AIC-EPC | AIC-EIC |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 15 | 0 | 2 | 0 | 1 | 0 | 0 | 2 | 11 |
| 2 | 15 | 0 | 2 | 0 | 2 | 0 | 0 | 0 | 11 |
| 3 | 15 | 1 | 2 | 0 | 2 | 0 | 0 | 1 | 10 |
- ChatGPTは試行した質問のうち77.5%を正しく回答し、回答済みのケースで正解/部分正解は55.6%を占める。
- ChatGPTは回答したケースにおいて、正解/部分正解の説明を53.0%提供する。
- 共有文脈 promptingは別文脈 promptingより正確さが高くなる(正解: 49.4% 対 34.6%、部分正解: 6.2% 対 7.4%)。
- 共有文脈 prompting は回答と説明の双方を平均的に改善するが、自信の報告と正確さは必ずしも一致しない。
- 非決定性は回答正確さにおいて9.7%、説明正確さにおいて6.5%の問で影響する。
- ChatGPTの自己申告の自信は、その回答が正しいかどうかにはほとんど影響を与えない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。