[논문 리뷰] VNHSGE: VietNamese High School Graduation Examination Dataset for Large Language Models
본 논문은 대형 언어 모델을 평가하기 위한 VNHSGE 데이터셋을 도입합니다. 이 데이터셋은 약 19,000개의 객관식 문제와 300편의 문학 에세이, 텍스트 데이터와 이미지 데이터를 특징으로 하며, ChatGPT 및 BingChat과의 벤치마크 결과를 제공합니다.
The VNHSGE (VietNamese High School Graduation Examination) dataset, developed exclusively for evaluating large language models (LLMs), is introduced in this article. The dataset, which covers nine subjects, was generated from the Vietnamese National High School Graduation Examination and comparable tests. 300 literary essays have been included, and there are over 19,000 multiple-choice questions on a range of topics. The dataset assesses LLMs in multitasking situations such as question answering, text generation, reading comprehension, visual question answering, and more by including both textual data and accompanying images. Using ChatGPT and BingChat, we evaluated LLMs on the VNHSGE dataset and contrasted their performance with that of Vietnamese students to see how well they performed. The results show that ChatGPT and BingChat both perform at a human level in a number of areas, including literature, English, history, geography, and civics education. They still have space to grow, though, especially in the areas of mathematics, physics, chemistry, and biology. The VNHSGE dataset seeks to provide an adequate benchmark for assessing the abilities of LLMs with its wide-ranging coverage and variety of activities. We intend to promote future developments in the creation of LLMs by making this dataset available to the scientific community, especially in resolving LLMs' limits in disciplines involving mathematics and the natural sciences.
연구 동기 및 목표
- 베트남 고등학교 졸업시험(VNHSGE) 및 유사 시험에서 벤치마크 데이터셋을 생성한다.
- 다양한 유형의 문항으로 수학, 문학, 영어, 물리, 화학, 생물, 역사, 지리, 시민교육 등 아홉 과목을 다룬다.
- 작업 전반에 걸쳐 LLM을 평가하기 위해 300편의 문학 에세이와 약 19,000개의 객관식 문제를 제공한다.
- ChatGPT, BingChat 등과 베트남 학생 간의 비교를 가능하게 하여 격차와 강점을 식별한다.
- 폭넓은 접근성과 평가를 촉진하기 위해 베트남어–영어 이중언어 버전 및 형식을 제공한다.
제안 방법
- VMET (2019–2023) 및 유사 시험의 공식 및 예시 문제를 수집한다.
- 모든 자료(공식, 표, 이미지)를 텍스트로 변환하고 별도의 이미지 폴더에 보관하며 필요에 따라 Latex로 번역한다.
- Word 및 JSON 형식을 제공하고 GPT-4/ChatGPT 번역을 통해 베트남어 버전(VNHSGE-V)과 영어 버전(VNHSGE-E)을 생성한다.
- 자격 있는 교사가 집필한 상세한 단계별 풀이와 설명을 포함한다. 크라우드워커가 아니다.
- 텍스트 전용 입력과 이미지 보강 입력을 가능하게 하도록 데이터를 번역하고 LLM과의 호환 형식으로 포맷한다.
- ChatGPT 및 BingChat를 사용하여 LLM 성능을 평가하고 베트남 학생의 점수 분포와 비교한다.
실험 결과
연구 질문
- RQ1VNHSGE 벤치마크의 아홉 과목에서 LLM의 성능은 어떻게 나타나는가?
- RQ2문학, 영어, 역사, 지리, 시민교육에서 인간 수준의 성능에 도달하는가, 그리고 어디에서 뒤처지는가(예: 수학 및 과학)?
- RQ3베트남 고등학교 시험 내용을 다루는 현재 LLM의 강점과 한계는 무엇인가?
- RQ4VNHSGE가 향후 LLM 개발을 이끄는 데 사용될 수 있는가, 특히 수학 및 자연과학 분야에서?
주요 결과
- ChatGPT 및 BingChat는 문학, 영어, 역사, 지리, 시민교육에서 인간 수준의 성능에 도달한다.
- LLMs는 수학, 물리학, 화학, 생물학 과제에서 여전히 인간보다 뒤처진다.
- 이 데이터셋은 광범위한 커버리지와 다양한 작업을 제공하여 실제 베트남 시험에서 LLM을 강력하게 벤치마크할 수 있다.
- 이중언어(베트남어–영어) 버전은 모델 간 교차-언어 평가 및 비교를 촉진한다.
- 설명 및 단계별 풀이가 문제와 함께 제공되어 오류 분석 및 추론 향상을 지원한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.