[논문 리뷰] C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models
C-Eval은 52개 분야와 네 가지 난이도 수준에 걸친 13,948개의 객관식 문제를 포함하는 포괄적 중국어 평가 모음이며, 고급 추론용 C-Eval Hard가 있으며; 테스트된 모델들 중에서 GPT-4가 성능을 주도한다.
New NLP benchmarks are urgently needed to align with the rapid development of large language models (LLMs). We present C-Eval, the first comprehensive Chinese evaluation suite designed to assess advanced knowledge and reasoning abilities of foundation models in a Chinese context. C-Eval comprises multiple-choice questions across four difficulty levels: middle school, high school, college, and professional. The questions span 52 diverse disciplines, ranging from humanities to science and engineering. C-Eval is accompanied by C-Eval Hard, a subset of very challenging subjects in C-Eval that requires advanced reasoning abilities to solve. We conduct a comprehensive evaluation of the most advanced LLMs on C-Eval, including both English- and Chinese-oriented models. Results indicate that only GPT-4 could achieve an average accuracy of over 60%, suggesting that there is still significant room for improvement for current LLMs. We anticipate C-Eval will help analyze important strengths and shortcomings of foundation models, and foster their development and growth for Chinese users.
연구 동기 및 목표
- 다양한 분야에서 중국어 맥락 속 기초 모델의 고급 지식 및 추론 능력을 평가한다.
- 중학교에서 전문가에 이르는 다층 평가를 네 가지 영역(STEM, 인문학, 사회과학, 기타)으로 제공한다.
- 데이터 유출을 줄이기 위해 모의/현지 시험에서 출처를 확보하고 문제를 표준화된 4지선다 형식으로 처리한다.
- 중국어 언어 모델의 강점/약점을 분석하고 중국어 LLM 개발을 지원한다.
제안 방법
- 모의 시험 및 현지 중국어 시험에서 52과목에 걸쳐 13,948개의 4지선다형 문제를 수집한다.
- 필요한 경우 STEM 콘텐츠에 LaTeX 형식을 사용하여 각 항목을 4지선다로 표준화한다.
- 과목별로 개발, 유효성 검사, 시험 세트로 데이터를 분할하고 개발 문제에 대해 few-shot 설명을 제공한다.
- 제로샷 및 few-shot(다섯 샷) 응답-전용 설정과 일부 모델에 대해 chain-of-thought 설정으로 모델을 평가한다.
- 데이터 유출을 방지하기 위해 비공개 시험 세트를 유지하고 제출을 위한 공개 리더보드를 제공한다.
실험 결과
연구 질문
- RQ1최신 LLM은 여러 분야에 걸친 광범위한 중국어- 기반 시험 스타일 벤치마크에서 어떻게 성능을 보이나?
- RQ2중국어 지식 및 추론 과제에서 중국어 지향 모델과 영어 지향 모델 간 격차는 얼마인가?
- RQ3few-shot 프롬프트 및 chain-of-thought 추론이 복잡한 중국어 시험 문제의 성능에 어떤 영향을 미치는가?
- RQ4고급 중국어 추론 과제(C-Eval Hard)에서 현재 LLM의 강점과 한계는 무엇인가?
주요 결과
| 모델 | STEM | 사회과학 | 인문학 | 기타 | 평균 |
|---|---|---|---|---|---|
| GPT-4 | 66.4 | 74.7 | 62.5 | 64.7 | 66.4 |
| ChatGPT | 51.0 | 58.0 | 48.8 | 50.4 | 51.0 |
| Claude-v1.3 | 50.5 | 58.6 | 47.3 | 50.1 | 50.5 |
| Bloomz-mt | 44.3 | 53.0 | 47.7 | 42.7 | 44.3 |
| GLM-130B | 44.0 | 55.8 | 47.7 | 43.0 | 44.0 |
| Claude-instant-v1.0 | 40.6 | 47.6 | 39.5 | 39.0 | 40.6 |
| ChatGLM-6B | 38.9 | 48.3 | 41.3 | 38.0 | 38.9 |
| LLaMA-65B | 34.7 | 41.2 | 34.1 | 33.0 | 34.7 |
| MOSS | 33.1 | 37.0 | 33.4 | 32.1 | 33.1 |
| Chinese-Alpaca-13B | 30.9 | 39.2 | 32.5 | 28.0 | 30.9 |
| Chinese-LLaMA-13B | 29.6 | 32.9 | 29.7 | 28.0 | 29.6 |
- GPT-4는 평균 정확도가 가장 높으며 제로샷 및 few-shot 설정에서 평균 60%를 웃돌아 성능을 주도한다.
- 중국어 지향 모델 중 GLM-130B가 가장 강하지만, STEM 과제에서 특히 전체 평균이 챗GPT보다 현저한 차이로 뒤처진다.
- 몇몇 모델에 대해 few-shot 프롬프트가 일반적으로 도움이 되지만 few-shot 정렬 없이 지시-튜닝된 다른 모델에는 해를 끼칠 수 있다.
- chain-of-thought 프롬팅은 모든 모델의 성능을 보편적으로 향상시키지 않으며 여러 모델에서 정확도를 낮출 수 있지만, 일부 모델(GPT-4 등)에는 도움이 된다.
- C-Eval Hard에서 GPT-4, ChatGPT, Claude는 chain-of-thought를 통해 의미 있는 향상을 보이나, 전반적으로 대부분의 모델의 정확도는 여전히 낮아 고급 추론의 난이도를 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.