[논문 리뷰] SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark
SuperCLUE는 세 가지 구성요소(CArena, OPEN, CLOSE)를 갖춘 중국어 LLM 벤치마크를 도입하여 실제 사용자 선호를 반영하고, 개방형 질문이 닫힌 질문과 함께 필요함을 보여주며, OPEN 질문에 대해 GPT-4를 자동 판단자로 사용함; 11개 모델을 평가하고 중국어 LLM과 GPT-4 사이의 큰 격차를 발견한다.
Large language models (LLMs) have shown the potential to be integrated into human daily lives. Therefore, user preference is the most critical criterion for assessing LLMs' performance in real-world scenarios. However, existing benchmarks mainly focus on measuring models' accuracy using multi-choice questions, which limits the understanding of their capabilities in real applications. We fill this gap by proposing a comprehensive Chinese benchmark SuperCLUE, named after another popular Chinese LLM benchmark CLUE. SuperCLUE encompasses three sub-tasks: actual users' queries and ratings derived from an LLM battle platform (CArena), open-ended questions with single and multiple-turn dialogues (OPEN), and closed-ended questions with the same stems as open-ended single-turn ones (CLOSE). Our study shows that accuracy on closed-ended questions is insufficient to reflect human preferences achieved on open-ended ones. At the same time, they can complement each other to predict actual user preferences. We also demonstrate that GPT-4 is a reliable judge to automatically evaluate human preferences on open-ended questions in a Chinese context. Our benchmark will be released at https://www.CLUEbenchmarks.com
연구 동기 및 목표
- 실제 중국어 맥락에서의 닫힌 형식의 정확도 이상으로 LLM 능력을 측정하려는 동기.
- 개방형 대화 및 지시 수행 능력을 포착하기 위한 다중 구성요소 벤치마크(CArena, OPEN, CLOSE) 개발.
- OPEN 평가와 CLOSE 평가 간의 관계 및 실제 사용자 선호 간의 관계 분석.
- 중국어 개방형 응답에 대해 GPT-4를 자동 판단자로 사용하는 가능성을 시연.
제안 방법
- LangYa Leaderboard에서 사용자 보고 승/무승부를 골드 표준으로 사용하는 CArena 구성.
- 600개의 OPEN 개방형 질문 생성(각 능력 범주별 10개 범주당 30개의 단일 턴 + 30개의 다중 턴).
- GPT-3.5를 통해 OPEN SINGLE 문항을 네지선다형으로 변환하고 사람 검증으로 CLOSE 구성.
- 제로샷 설정에서 8개 중국어 지향 LLM과 3개 글로벌 모델을 평가.
- OPEN 형 평가의 자동 판단을 위해 GPT-4를 판단자로 삼아 모델 간 쌍대 비교 수행.
- CLOSE 평가와 OPEN 평가 및 CArena 간의 상관관계를 분석하여 보완 가치를 이해.
실험 결과
연구 질문
- RQ1OPEN 형식과 CLOSE 형식이 중국어 LLM 상호작용에서 실제 사용자 선호를 얼마나 잘 반영하는가?
- RQ2GPT-4가 중국어 개방형 응답에 대한 신뢰할 수 있는 자동 판단자가 될 수 있는가, 그리고 인간 채점자와의 판단 일치도는 어떤가?
- RQ3CArena 사용자 평점, OPEN 성능, CLOSE 정확도 간의 관계는 중국어 LLM 간에 어떤가?
- RQ4OPEN과 CLOSE 평가의 조합이 단일 형식보다 실제 사용자 선호를 더 잘 예측하는가?
주요 결과
- GPT-4가 OPEN 및 CLOSE 벤치마크에서 모든 모델을 능가하며, OPEN 및 CLOSE 결과에서 중국어 LLM과 GPT-4 사이의 큰 격차가 존재한다.
- MiniMax가 테스트된 중국어 LLM 중 최상위로 나타나며, 여러 능력 영역에서 ChatGLM2-6B를 보완한다.
- GPT-4는 OPEN 평가에서 인간 평가자와의 높은 일치를 보이며 피어슨 상관계수 ~0.80에 도달한다.
- CLOSE 정확도만으로는 OPEN과 유사한 상호작용 시나리오에서 사용자 선호를 잘 반영하지 못하며, OPEN과 CLOSE는 CArena 결과 예측에 상호 보완적이다.
- OPEN MULTIPLE(다중 턴)이 CArena 선호도와 더 강하게 상관되며, OPEN SINGLE보다 다중 턴 맥락이 사용자 선호를 더 잘 반영한다.
- 모델 간에 CLOSE 결과가 약 55-60%의 정확도 주위에 군집하는 반면, OPEN 결과는 크게 다르게 나타나 실제 세계 능력에 대한 닫힌 형식 지표의 한계를 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.