QUICK REVIEW

[논문 리뷰] C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models

Yuzhen Huang, Yuzhuo Bai|arXiv (Cornell University)|2023. 05. 15.

Topic Modeling인용 수 90

한 줄 요약

C-Eval은 52개 분야와 네 가지 난이도 수준에 걸친 13,948개의 객관식 문제를 포함하는 포괄적 중국어 평가 모음이며, 고급 추론용 C-Eval Hard가 있으며; 테스트된 모델들 중에서 GPT-4가 성능을 주도한다.

ABSTRACT

New NLP benchmarks are urgently needed to align with the rapid development of large language models (LLMs). We present C-Eval, the first comprehensive Chinese evaluation suite designed to assess advanced knowledge and reasoning abilities of foundation models in a Chinese context. C-Eval comprises multiple-choice questions across four difficulty levels: middle school, high school, college, and professional. The questions span 52 diverse disciplines, ranging from humanities to science and engineering. C-Eval is accompanied by C-Eval Hard, a subset of very challenging subjects in C-Eval that requires advanced reasoning abilities to solve. We conduct a comprehensive evaluation of the most advanced LLMs on C-Eval, including both English- and Chinese-oriented models. Results indicate that only GPT-4 could achieve an average accuracy of over 60%, suggesting that there is still significant room for improvement for current LLMs. We anticipate C-Eval will help analyze important strengths and shortcomings of foundation models, and foster their development and growth for Chinese users.

연구 동기 및 목표

다양한 분야에서 중국어 맥락 속 기초 모델의 고급 지식 및 추론 능력을 평가한다.
중학교에서 전문가에 이르는 다층 평가를 네 가지 영역(STEM, 인문학, 사회과학, 기타)으로 제공한다.
데이터 유출을 줄이기 위해 모의/현지 시험에서 출처를 확보하고 문제를 표준화된 4지선다 형식으로 처리한다.
중국어 언어 모델의 강점/약점을 분석하고 중국어 LLM 개발을 지원한다.

제안 방법

모의 시험 및 현지 중국어 시험에서 52과목에 걸쳐 13,948개의 4지선다형 문제를 수집한다.
필요한 경우 STEM 콘텐츠에 LaTeX 형식을 사용하여 각 항목을 4지선다로 표준화한다.
과목별로 개발, 유효성 검사, 시험 세트로 데이터를 분할하고 개발 문제에 대해 few-shot 설명을 제공한다.
제로샷 및 few-shot(다섯 샷) 응답-전용 설정과 일부 모델에 대해 chain-of-thought 설정으로 모델을 평가한다.
데이터 유출을 방지하기 위해 비공개 시험 세트를 유지하고 제출을 위한 공개 리더보드를 제공한다.

실험 결과

연구 질문

RQ1최신 LLM은 여러 분야에 걸친 광범위한 중국어- 기반 시험 스타일 벤치마크에서 어떻게 성능을 보이나?
RQ2중국어 지식 및 추론 과제에서 중국어 지향 모델과 영어 지향 모델 간 격차는 얼마인가?
RQ3few-shot 프롬프트 및 chain-of-thought 추론이 복잡한 중국어 시험 문제의 성능에 어떤 영향을 미치는가?
RQ4고급 중국어 추론 과제(C-Eval Hard)에서 현재 LLM의 강점과 한계는 무엇인가?

주요 결과

모델	STEM	사회과학	인문학	기타	평균
GPT-4	66.4	74.7	62.5	64.7	66.4
ChatGPT	51.0	58.0	48.8	50.4	51.0
Claude-v1.3	50.5	58.6	47.3	50.1	50.5
Bloomz-mt	44.3	53.0	47.7	42.7	44.3
GLM-130B	44.0	55.8	47.7	43.0	44.0
Claude-instant-v1.0	40.6	47.6	39.5	39.0	40.6
ChatGLM-6B	38.9	48.3	41.3	38.0	38.9
LLaMA-65B	34.7	41.2	34.1	33.0	34.7
MOSS	33.1	37.0	33.4	32.1	33.1
Chinese-Alpaca-13B	30.9	39.2	32.5	28.0	30.9
Chinese-LLaMA-13B	29.6	32.9	29.7	28.0	29.6

GPT-4는 평균 정확도가 가장 높으며 제로샷 및 few-shot 설정에서 평균 60%를 웃돌아 성능을 주도한다.
중국어 지향 모델 중 GLM-130B가 가장 강하지만, STEM 과제에서 특히 전체 평균이 챗GPT보다 현저한 차이로 뒤처진다.
몇몇 모델에 대해 few-shot 프롬프트가 일반적으로 도움이 되지만 few-shot 정렬 없이 지시-튜닝된 다른 모델에는 해를 끼칠 수 있다.
chain-of-thought 프롬팅은 모든 모델의 성능을 보편적으로 향상시키지 않으며 여러 모델에서 정확도를 낮출 수 있지만, 일부 모델(GPT-4 등)에는 도움이 된다.
C-Eval Hard에서 GPT-4, ChatGPT, Claude는 chain-of-thought를 통해 의미 있는 향상을 보이나, 전반적으로 대부분의 모델의 정확도는 여전히 낮아 고급 추론의 난이도를 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.