QUICK REVIEW

[논문 리뷰] ChatGPT Participates in a Computer Science Exam

Sebastian Bordt, Ulrike von Luxburg|arXiv (Cornell University)|2023. 03. 08.

Artificial Intelligence in Healthcare and Education인용 수 31

한 줄 요약

본 논문은 ChatGPT가 학부 CS 시험에 참가한 실험 평가를 보고하며, 간신히 합격했다(20.5/40), GPT-4가 약 24점으로 약 17% 향상시켰고, 강한 성과에도 불구하고 진정한 이해의 한계를 시사한다.

ABSTRACT

We asked ChatGPT to participate in an undergraduate computer science exam on ''Algorithms and Data Structures''. The program was evaluated on the entire exam as posed to the students. We hand-copied its answers onto an exam sheet, which was subsequently graded in a blind setup alongside those of 200 participating students. We find that ChatGPT narrowly passed the exam, obtaining 20.5 out of 40 points. This impressive performance indicates that ChatGPT can indeed succeed in challenging tasks like university exams. At the same time, the questions in our exam are structurally similar to those of other exams, solved homework problems, and teaching materials that can be found online and might have been part of ChatGPT's training data. Therefore, it would be inadequate to conclude from this experiment that ChatGPT has any understanding of computer science. We also assess the improvements brought by GPT-4. We find that GPT-4 would have obtained about 17\% more exam points than GPT-3.5, reaching the performance of the average student. The transcripts of our conversations with ChatGPT are available at \url{https://github.com/tml-tuebingen/chatgpt-algorithm-exam}, and the entire graded exam is in the appendix of this paper.

연구 동기 및 목표

ChatGPT가 인간 학생과 함께 블라인드 채점 설정에서 실제 학부 컴퓨터공학 시험에서 수행할 수 있는지 평가합니다.
표준 알고리즘 및 데이터 구조 시험에서 GPT-3.5와 GPT-4의 성능 차이를 평가합니다.
제어된 교육 맥락에서 ChatGPT의 시험 답변의 한계와 해석 가능성을 탐구합니다.
교육 벤치마크에서 AI 능력을 이해하는 데 대한 시사점을 논의합니다.

제안 방법

LaTeX 텍스트 형식으로 제시된 표준 학부 알고리즘 및 데이터 구조 시험을 사용합니다.
간단한 프롬프트와 체인-오브-사고 프롓트를 사용하지 않고 19개의 대화에 걸쳐 ChatGPT에 19문제를 제시합니다.
blind 채점이 가능하도록 ChatGPT의 답을 시험지에 손으로 복사합니다.
200명의 학생 답안지와 함께.
혼합된 답안 세트를 한 방에서 블라인드 조건으로 채점하는 10명의 조교.
GPT-3.5 결과를 GPT-4 결과와 비교하기 위해 GPT-4 기본 모델과 비블라인드 채점으로 동일한 과정을 반복합니다.

실험 결과

연구 질문

RQ1현대형 언어 모델이 블라인드 채점 조건하에서 표준화된 학부 CS 시험을 합격할 수 있나요?
RQ2같은 시험에서 GPT-4의 성능은 GPT-3.5와 어떻게 비교되나요?
RQ3모델에 가장 도전적인 유형의 질문은 어떤 것들인가요(예: 증명, 의사코드, 그래프)?
RQ4이 시험의 성능이 진정한 이해를 반영하는지 아니면 훈련 데이터에 의존하는지?
RQ5AI 보조 교육에 대한 한계와 잠재적 시사점은 무엇인가?

주요 결과

ChatGPT는 40점 만점에 20.5점을 얻어 GPT-3.5의 블라인드 채점에서 간신히 합격했다.
GPT-4는 GPT-3.5보다 약 17% 더 많은 점수를 얻어 이 시험에서 평균 학생의 성능에 해당하는 수준에 도달했다.
GPT-4는 더 어려운 다지선다형 질문과 특정 그래프 관련 과제에서 향상된 성능을 보였지만, 그래프 그림 및 비-의사코드로 구조화된 출력에는 어려움을 겪었다.
의사코드 및 동적 프로그래밍 문제에서 일부 강점이 보였지만, 표준 알고리즘 설명이나 그래프 구조를 포함하는 여러 문제는 여전히 도전적이었다.
전반적으로 ChatGPT의 성공은 컴퓨터 과학에 대한 인간과 같은 이해를 암시하지 않으며, 문제는 온라인 수업 자료와 학습 데이터에 등장했을 수 있는 풀이 문제를 닮아 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.