[논문 리뷰] ReLE: A Scalable System and Structured Benchmark for Diagnosing Capability Anisotropy in Chinese LLMs
ReLE은 중국어 LLM의 능력 비대칭성을 진단하기 위한 확장 가능한 평가 시스템과 도메인×능력 벤치마크를 도입하여 상당한 비용 절감을 달성하면서 차원 간 순위 불안정성을 드러냅니다.
Large Language Models (LLMs) have achieved rapid progress in Chinese language understanding, yet accurately evaluating their capabilities remains challenged by benchmark saturation and prohibitive computational costs. While static leaderboards provide snapshot rankings, they often mask the structural trade-offs between capabilities. In this work, we present ReLE (Robust Efficient Live Evaluation), a scalable system designed to diagnose Capability Anisotropy, the non-uniformity of model performance across domains. Using ReLE, we evaluate 304 models (189 commercial, 115 open-source) across a Domain $ imes$ Capability orthogonal matrix comprising 207,843 samples. We introduce two methodological contributions to address current evaluation pitfalls: (1) A Symbolic-Grounded Hybrid Scoring Mechanism that eliminates embedding-based false positives in reasoning tasks; (2) A Dynamic Variance-Aware Scheduler based on Neyman allocation with noise correction, which reduces compute costs by 70\% compared to full-pass evaluations while maintaining a ranking correlation of $ρ=0.96$. Our analysis reveals that aggregate rankings are highly sensitive to weighting schemes: models exhibit a Rank Stability Amplitude (RSA) of 11.4 in ReLE versus $\sim$5.0 in traditional benchmarks, confirming that modern models are highly specialized rather than generally superior. We position ReLE not as a replacement for comprehensive static benchmarks, but as a high-frequency diagnostic monitor for the evolving model landscape.
연구 동기 및 목표
- 직교 도메인 및 능력 차원으로 성능을 분해하여 중국어 LLM에서의 능력 비대칭성을 진단한다.
- 산업 현장에서 300개 이상의 모델에 적합한 확장 가능하고 비용 효율적인 평가 파이프라인을 개발한다.
- 포화를 완화하고 직교 능력 간의 trade-off를 드러내기 위해 신선한 데이터가 포함된 구조화된 벤치마크를 제공한다.
- 랭킹 안정성을 정량화하고 집계 점수를 넘는 모델 선택에 정보를 제공하는 진단 지표를 제시한다.
제안 방법
- 모델 특화 어댑터 계층이 포함된 12개 태스크 유형과 7개 도메인 전반의 입력을 표준화하기 위한 통합 프롬프트 스키마를 구현한다.
- 정밀도와 확장성의 균형을 맞추고 편향 완화를 위한 3단계 하이브리드 검증 점수 파이프라인을 사용한다.
- Hoeffding-Serfling 경계를 통해 오차를 제어하면서 평가 비용을 줄이기 위해 계층화된 순차 분산 감소 샘플링(Neyman 배분)을 채택한다.
- 도메인 × 능력 행렬을 22개 차원과 317개 하위 태스크로 구성하여 지식 도메인과 인지 능력을 분리한다.
- Rank Stability Amplitude (RSA), Capability Inconsistency (CI), 그리고 Anisotropy Index와 같은 지표를 정의하고 계산하여 불안정성과 비대칭을 진단한다.
- 다이나믹하고 비용 인식 스케줄링과 신선한 데이터를 사용하여 304개 모델(189 상용, 115 오픈 소스)을 207,843 샘플에서 평가한다.
실험 결과
연구 질문
- RQ1직교 도메인×능력 매트릭스에서 평가될 때 다양한 중국어 LLM에서 모델의 능력 비대칭성은 어떻게 나타나는가?
- RQ2대규모 LLM 평가를 위한 분산 의식적 동적 샘플링 전략의 비용과 정확도 사이의 트레이드오프는 무엇인가?
- RQ3구조화된 도메인‑능력 분해가 집계 점수가 가려는 순위의 불안정을 드러낼 수 있는가?
- RQ4중국어 NLP의 전문 및 추론 도메인에서 상용 모델과 오픈 소스 모델은 어느 정도 차이를 보이는가?
- RQ5제안된 점수화 및 오염 제거 프레임워크가 편향과 오염을 줄이면서 랭킹 충실도를 유지하는 데 얼마나 효과적인가?
주요 결과
- ReLE 프레임워크는 가중치 섭동 하에서 높은 랭킹 불안정을 보이며 평균 RSA가 11.4로 전통 벤치마크의 약 5.0에 비해 높다.
- 평균 차원 간 상관의 1빼기 값으로 계산된 Anisotropy Index는 0.74로, 차원 전반에 걸친 강한 능력 비대칭성을 나타낸다.
- 상용 모델이 전문 도메인에서 우위를 보이지만 일반 추론에서 오픈 소스 상위 모델이 격차를 좁히고 있다; 다중 에이전트 도구 사용 모델이 도구 사용에서 일반 모델보다 우수하다(74.8 vs 62.4).
- 비용 효율적인 동적 샘플링은 평가 비용을 약 70% 감소시켜 304개 모델의 경우 $69,000에서 $20,700으로 감소시키면서 전체 세트 평가와의 랭킹 상관관계 ρ = 0.96를 유지한다.
- 랭킹 불안정성은 기준선과 비교해 통계적으로 유의하며(p<0.001); ReLE와 C-Eval/CLUE 간 RSA 분포가 다르고 부트스트랩 95% CI가 비중첩이다.
- 전체 세트 대조에서 동적 샘플링은 능력 신호의 94.8%를 보존하여 샘플링 전략에 대한 강건함을 나타낸다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.