[논문 리뷰] Large Language Models in Introductory Programming Education: ChatGPT's Performance and Implications for Assessments
본 논문은 72개의 CodingBat Python 과제를 대상으로 ChatGPT-3.5와 GPT-4를 평가하고, 약 94.4–95.8%의 정답률과 해설 및 코드 제공의 광범위한 가능성을 발견한 뒤, 교육적 및 평가적 시사점을 논의한다.
This paper investigates the performance of the Large Language Models (LLMs) ChatGPT-3.5 and GPT-4 in solving introductory programming tasks. Based on the performance, implications for didactic scenarios and assessment formats utilizing LLMs are derived. For the analysis, 72 Python tasks for novice programmers were selected from the free site CodingBat. Full task descriptions were used as input to the LLMs, while the generated replies were evaluated using CodingBat's unit tests. In addition, the general availability of textual explanations and program code was analyzed. The results show high scores of 94.4 to 95.8% correct responses and reliable availability of textual explanations and program code, which opens new ways to incorporate LLMs into programming education and assessment.
연구 동기 및 목표
- ChatGPT-3.5와 GPT-4가 초보 프로그래밍 과제를 위한 올바르고 실행 가능한 Python 코드를 생성하는 능력을 평가한다.
- 출력에 텍스트 설명과 코드가 포함되는지 여부와 그 신뢰성을 분석한다.
- LLM을 활용한 초급 프로그래밍 교육에서의 교수 설계 시나리오 및 평가 형식을 논의한다.
제안 방법
- CodingBat Python 과제(8개 영역의 72개 과제)를 입력으로 ChatGPT-3.5와 GPT-4에 적용한다.
- LLM에 전체 과제 설명을 제시하고 CodingBat 유닛 테스트를 통해 출력을 평가한다.
- 응답에 코드, 설명이 포함되는지 여부와 코드가 유닛 테스트를 통과하는지 기록하고 필요 시 프롬프트를 반복한다.
- 과제의 명확성, 제약사항(라이브러리 없음, 함수 시그니처) 및 LLM의 과신 등 한계점을 분석한다.
실험 결과
연구 질문
- RQ1ChatGPT-3.5와 GPT-4는 초보 프로그래밍 과제에서 정확성 측면에서 어떻게 수행하는가?
- RQ2이 모델들이 제공하는 텍스트 설명과 코드의 범위는 어느 정도인가?
- RQ3초급 프로그래밍 교육에서의 교수 설계 및 평가에 어떤 함의를 가지는가?
주요 결과
| CodingBat 과제 영역 | GPT-3.5 텍스트 설명 | GPT-3.5 프로그램 코드 | GPT-3.5 올바른 단위 테스트 결과 | GPT-4 텍스트 설명 | GPT-4 프로그램 코드 | GPT-4 올바른 단위 테스트 결과 |
|---|---|---|---|---|---|---|
| Warmup1 | 11/12 | 12/12 | 12/12 | 12/12 | 12/12 | 12/12 |
| Warmup2 | 9/9 | 9/9 | 9/9 | 9/9 | 9/9 | 9/9 |
| String1 | 11/11 | 11/11 | 10/11 | 11/11 | 11/11 | 11/11 |
| List1 | 12/12 | 12/12 | 12/12 | 11/12 | 12/12 | 12/12 |
| Logic1 | 8/9 | 9/9 | 8/9 | 9/9 | 9/9 | 9/9 |
| Logic2 | 7/7 | 7/7 | 6/7 | 6/7 | 7/7 | 6/7 |
| String2 | 6/6 | 6/6 | 6/6 | 6/6 | 6/6 | 4/6 |
| List2 | 6/6 | 6/6 | 6/6 | 6/6 | 6/6 | 5/6 |
- ChatGPT-3.5는 72개 과제 중 69개를 올바르게 해결했다(95.8%).
- GPT-4는 72개 과제 중 68개를 올바르게 해결했다(94.4%).
- 두 모델 모두 초기 응답에 Python 코드를 제공하고 대부분의 경우 텍스트 설명을 제시한다( GPT-3.5: 설명 70/72; GPT-4: 설명 70/72 ).
- 코드에는 종종 주석이 포함되며 때때로 추가 샘플 출력이 있다.
- 여덟 영역 구분은 대부분 영역에서 매우 높은 정확성을 보이며 과제별로 약간의 변동이 있다.
- 저자들은 출력을 개선하거나 수정하기 위한 프롬프트의 전략적 사용과 모호성과 과신으로 인한 주의 필요성을 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.