QUICK REVIEW

[논문 리뷰] Performance Comparison of Large Language Models on VNHSGE English Dataset: OpenAI ChatGPT, Microsoft Bing Chat, and Google Bard

Xuan-Quy Dao|arXiv (Cornell University)|2023. 07. 05.

Topic Modeling인용 수 26

한 줄 요약

BingChat은 베트남 VNHSGE 영어 데이터셋에서 가장 높은 정확도(평균 92.4%)를 달성하여 ChatGPT(79.2%) 및 Bard(86%)를 능가했으며, 모든 LLM이 베트남 학생의 평균 영어 실력을 상회한다.

ABSTRACT

This paper presents a performance comparison of three large language models (LLMs), namely OpenAI ChatGPT, Microsoft Bing Chat (BingChat), and Google Bard, on the VNHSGE English dataset. The performance of BingChat, Bard, and ChatGPT (GPT-3.5) is 92.4\%, 86\%, and 79.2\%, respectively. The results show that BingChat is better than ChatGPT and Bard. Therefore, BingChat and Bard can replace ChatGPT while ChatGPT is not yet officially available in Vietnam. The results also indicate that BingChat, Bard and ChatGPT outperform Vietnamese students in English language proficiency. The findings of this study contribute to the understanding of the potential of LLMs in English language education. The remarkable performance of ChatGPT, BingChat, and Bard demonstrates their potential as effective tools for teaching and learning English at the high school level.

연구 동기 및 목표

베트남 고등학교 수준의 VNHSGE 영어 데이터셋에서 세 가지 선도 LLM의 성능을 평가한다.
LLM 성능을 베트남 학생의 영어 실력과 비교하여 상대적 숙련도를 가늄한다.
베트남의 영어 교육에서 LLM의 잠재적 응용 및 시사점을 탐구한다.

제안 방법

2019–2023 VNHSGE 영어 데이터셋의 250문항 MCQ에 제로샷 프롬프트로 답한다.
프롬프트를 구조화된 출력 형식으로 얻도록 구성한다: 선택지(A–D) 및 해설.
정답-해설을 이진 채점 함수 G를 사용해 ground-truth 솔루션과 비교 평가한다.
ChatGPT, BingChat, Bard 간 LLM_B와 LLM_W의 최선/최악 경계값을 계산한다.
연도별 안정성을 분석하고 모델별로 집계된 성능(AVG)을 보고한다.

실험 결과

연구 질문

RQ1베트남의 고등학교 수준에서 VNHSGE 영어 데이터셋에 대한 ChatGPT, BingChat, Bard의 성능은 어떠한가?
RQ2이 LLM들이 베트남 학생들의 영어 실력과 비교하여 어떠한 차이가 있는가?
RQ3베트남의 영어 교육에서 LLM의 잠재력은 무엇인가?

주요 결과

2019	2020	2021	2022	2023	평균
ChatGPT	76	86	76	80	78	79.2
BingChat	92	96	86	94	94	92.4
Bard	82	94	82	86	86	86
LLM_W	66	82	68	74	70	72
LLM_B	96	100	94	96	100	97.2

BingChat은 평균 정확도에서 최고를 달성한다(LLM_B 97.2%; AVG 92.4%).
ChatGPT는 2019–2023년 평균 79.2%.
Bard는 2019–2023년 평균 86%.
LLM_W(모델 간 최악)의 평균은 72%.
세 LLM이 제시된 10점 만점 영어 점수 스펙트럼에서 베트남 학생들보다 우수함(평균 LLM 점수 약 7.92–9.24 vs. 베트남 AVS 약 3.8–5.84, 연도에 따라 다름).
결과는 BingChat이 연도별 변동을 더 보이는 등 LLM의 연도 간 성능이 안정적으로 나타남을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.