QUICK REVIEW

[논문 리뷰] Can ChatGPT pass the Vietnamese National High School Graduation Examination?

Xuan-Quy Dao, Ngoc-Bich Le|arXiv (Cornell University)|2023. 06. 15.

Artificial Intelligence in Healthcare and Education인용 수 32

한 줄 요약

본 논문은 베트남 전국 고등학교 졸업 시험(VNHSGE)에서 ChatGPT를 테스트하여, 주별 평균 6–7점으로 합격이 가능하며 과목별로 성능이 다르게 나타난다는 것을 보여준다.

ABSTRACT

This research article highlights the potential of AI-powered chatbots in education and presents the results of using ChatGPT, a large language model, to complete the Vietnamese National High School Graduation Examination (VNHSGE). The study dataset included 30 essays in the literature test case and 1,700 multiple-choice questions designed for other subjects. The results showed that ChatGPT was able to pass the examination with an average score of 6-7, demonstrating the technology's potential to revolutionize the educational landscape. The analysis of ChatGPT performance revealed its proficiency in a range of subjects, including mathematics, English, physics, chemistry, biology, history, geography, civic education, and literature, which suggests its potential to provide effective support for learners. However, further research is needed to assess ChatGPT performance on more complex exam questions and its potential to support learners in different contexts. As technology continues to evolve and improve, we can expect to see the use of AI tools like ChatGPT become increasingly common in educational settings, ultimately enhancing the educational experience for both students and educators.

연구 동기 및 목표

교육에서의 AI 활용을 고무하기 위해 VNHSGE라는 고위험 시험에서 ChatGPT를 평가한다.
베트남 데이터셋을 사용하여 다수의 과목을 다루는 ChatGPT의 능력을 평가한다.
ChatGPT의 성능을 인간 학생 분포 및 이전 OpenAI-시험 결과와 비교한다.
교육에서 AI 지원 학습 및 평가의 시사점을 논의한다.

제안 방법

VNHSGE 평가 세트(다양한 과목: 수학, 영어, 물리, 화학, 생물, 역사, 지리, 시민교육, 문학)를 사용한다.
OpenAI API를 통해 구조화된 정답 형식을 사용한 제로샷 프롬프트를 ChatGPT에 적용한다.
인간 정답 솔루션과의 이진 정오성 메트릭으로 응답을 평가한다.
교육부 공식에 따른 일반 입학 점수(GAS)를 계산하고 2019–2023년 간의 차이를 비교한다.
과목별 성능을 베트남 학생 분포 및 다른 AI 평가 사례와 비교한다.

실험 결과

연구 질문

RQ1ChatGPT가 베트남 전국 고등학교 졸업 시험(VNHSGE)을 통과할 수 있는가?
RQ2VNHSGE 내에서 과목별로 ChatGPT의 성능은 어떻게 다르게 나타나는가?
RQ3VNHSGE에서의 ChatGPT 성능은 다른 표준화 시험에서의 성능 및 베트남 학생 점수 분포와 어떻게 비교되는가?

주요 결과

ChatGPT는 연도 및 과목 전반에 걸쳐 합격 가능성을 시사하는 평균 점수 범위를 달성했으며(자연계 및 사회계 전반 GAS 점수 6.35–6.94).
2019–2023년의 과목별 평균 점수는 4.8에서 7.92 사이였으며 영어가 일반적으로 최고점, 화학이 일반적으로 최저점이었다.
영어 성능은 베트남 학생 다수에 비해 지속적으로 높았다(평균 7.6–8.6).
수학, 물리, 생물, 역사, 지리, 문학은 변화가 있지만 일반적으로 경쟁력이 있는 결과를 보였으며, 화학은 여러 해에 걸쳐 뒤처졌다.
다른 시험과 비교했을 때 VNHSGE에서의 ChatGPT 성능은 일부 영역에서 비교적 우수하거나 동등했고(예: 영어, 문학), 수학과 화학에서는 벤치마크 대비 다소 약할 수 있으며; GPT-3.5의 이미지/차트 분석 부재로 지리에서 한계가 있었다.
전반적으로 ChatGPT는 점수 산정 공식에 따라 VNHSGE를 통과하며, 교육 도구 및 프롬프트 기반 시험 보조 도구로의 가능성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.