[논문 리뷰] ChatGPT and Software Testing Education: Promises & Perils
본 연구는 교재의 31개 소프트웨어 테스트 질문에 대해 ChatGPT를 평가하고, 77.5%가 답할 수 있었고, 55.6%가 정답/부분정답이며, 53.0%가 정답/부분정답인 설명을 제시했으며, 맥락과 신뢰도가 결과에 영향을 미쳤다.
Over the past decade, predictive language modeling for code has proven to be a valuable tool for enabling new forms of automation for developers. More recently, we have seen the advent of general purpose "large language models", based on neural transformer architectures, that have been trained on massive datasets of human written text spanning code and natural language. However, despite the demonstrated representational power of such models, interacting with them has historically been constrained to specific task settings, limiting their general applicability. Many of these limitations were recently overcome with the introduction of ChatGPT, a language model created by OpenAI and trained to operate as a conversational agent, enabling it to answer questions and respond to a wide variety of commands from end users. The introduction of models, such as ChatGPT, has already spurred fervent discussion from educators, ranging from fear that students could use these AI tools to circumvent learning, to excitement about the new types of learning opportunities that they might unlock. However, given the nascent nature of these tools, we currently lack fundamental knowledge related to how well they perform in different educational settings, and the potential promise (or danger) that they might pose to traditional forms of instruction. As such, in this paper, we examine how well ChatGPT performs when tasked with answering common questions in a popular software testing curriculum. Our findings indicate that ChatGPT can provide correct or partially correct answers in 55.6% of cases, provide correct or partially correct explanations of answers in 53.0% of cases, and that prompting the tool in a shared question context leads to a marginally higher rate of correct responses. Based on these findings, we discuss the potential promises and perils related to the use of ChatGPT by students and instructors.
연구 동기 및 목표
- 인기 교재의 소프트웨어 테스트 질문에 대해 ChatGPT가 얼마나 잘 대답하는지 평가한다.
- 그 답변에 대한 ChatGPT의 설명 품질을 평가한다.
- 프롬프트 전략과 대화 맥락이 성능에 어떻게 영향을 미치는지 조사한다.
- ChatGPT가 자가 보고한 자신감과 정답 여부 간의 상관관계를 조사한다.
제안 방법
- Ammann & Offutt의 다섯 챕터에서 나온 31개 질문의 수동으로 검증된 데이터 세트를 사용하고 각 질문에 대해 ChatGPT의 응답을 세 번 제시한다.
- 정답성에 대한 효과를 평가하기 위해 분리 맥락 프롬프트와 공유 맥락 프롬프트를 비교한다.
- 각 응답 후에 신뢰도 질문을 묻고 보정(calibration)을 연구한다.
- 두 명 이상 연구원이 답변과 설명의 정답 여부를 독립적으로 표기하도록 한다.
- 비결정성 효과를 분석하기 위해 각 질문당 세 번의 실행을 사용한다.
실험 결과
연구 질문
- RQ1RQ1: 서로 다른 프롬프트 전략 하에서 ChatGPT가 올바른 답변과 설명을 제공하는 빈도는 어느 정도인가?
- RQ2RQ2: ChatGPT가 다양한 정확도 수준의 답변-설명 쌍을 얼마나 자주 생성하는가?
- RQ3RQ3: ChatGPT의 비결정성이 답변 및 설명의 정확도에 어떤 영향을 미치는가?
- RQ4RQ4: ChatGPT의 자가 보고한 자신감이 실제 정확도와 상관관계가 있는가?
주요 결과
| Iter | AC-EC | AC-EPC | AC-EIC | APC-EC | APC-EPC | APC-EIC | AIC-EC | AIC-EPC | AIC-EIC |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 15 | 0 | 2 | 0 | 1 | 0 | 0 | 2 | 11 |
| 2 | 15 | 0 | 2 | 0 | 2 | 0 | 0 | 0 | 11 |
| 3 | 15 | 1 | 2 | 0 | 2 | 0 | 0 | 1 | 10 |
- ChatGPT는 시도한 질문의 77.5%를 정확하게 답하며, 답한 경우의 55.6%에서 정답/부분정답의 결과를 보인다.
- ChatGPT는 답변하는 경우의 53.0%에서 정답/부분정답인 설명을 제공한다.
- 공유 맥락 프롬프트는 분리 맥락 프롬프트보다 정답성에서 더 높다(정답 비율 49.4% 대 34.6%; 부분정답 6.2% 대 7.4%).
- 공유 맥락으로 프롬프트하면 평균적으로 답변과 설명 모두가 향상되며, 자신감 보고는 정답 여부와 신뢰성 있게 일치하지 않는다.
- 비결정성은 질문의 9.7%에서 답변의 정답성에, 6.5%에서 설명의 정답성에 영향을 미친다.
- ChatGPT의 자가 보고한 자신감은 답변이 정답인지 여부에 거의 영향을 미치지 않는다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.