Skip to main content
QUICK REVIEW

[论文解读] ReLE: A Scalable System and Structured Benchmark for Diagnosing Capability Anisotropy in Chinese LLMs

Rui Fang, Jian Li|arXiv (Cornell University)|Jan 24, 2026
Natural Language Processing Techniques被引用 0
一句话总结

ReLE 引入可扩展的评估系统和领域×能力基准,用于诊断中文大型语言模型的能力各向异性,在显著降低成本的同时揭示跨维度的高排名不稳定性。

ABSTRACT

Large Language Models (LLMs) have achieved rapid progress in Chinese language understanding, yet accurately evaluating their capabilities remains challenged by benchmark saturation and prohibitive computational costs. While static leaderboards provide snapshot rankings, they often mask the structural trade-offs between capabilities. In this work, we present ReLE (Robust Efficient Live Evaluation), a scalable system designed to diagnose Capability Anisotropy, the non-uniformity of model performance across domains. Using ReLE, we evaluate 304 models (189 commercial, 115 open-source) across a Domain $ imes$ Capability orthogonal matrix comprising 207,843 samples. We introduce two methodological contributions to address current evaluation pitfalls: (1) A Symbolic-Grounded Hybrid Scoring Mechanism that eliminates embedding-based false positives in reasoning tasks; (2) A Dynamic Variance-Aware Scheduler based on Neyman allocation with noise correction, which reduces compute costs by 70\% compared to full-pass evaluations while maintaining a ranking correlation of $ρ=0.96$. Our analysis reveals that aggregate rankings are highly sensitive to weighting schemes: models exhibit a Rank Stability Amplitude (RSA) of 11.4 in ReLE versus $\sim$5.0 in traditional benchmarks, confirming that modern models are highly specialized rather than generally superior. We position ReLE not as a replacement for comprehensive static benchmarks, but as a high-frequency diagnostic monitor for the evolving model landscape.

研究动机与目标

  • 通过将性能分解为正交的领域和能力维度,诊断中文 LLM 的能力各向异性。
  • 开发可扩展、成本高效的评估流水线,适用于工业场景中的 300+ 模型。
  • 提供带有新数据的结构化基准,以缓解饱和并揭示正交能力权衡。
  • 量化排名稳定性并提供诊断指标,以超越聚合分数来辅助模型选择。

提出的方法

  • 实现一个统一提示模式(Unified Prompt Schema),对 12 种任务类型和 7 个领域进行输入标准化,并配备模型特定的适配层。
  • 使用三层混合验证评分流水线,在精确性与可扩展性之间取得平衡,并进行偏差缓解。
  • 采用分层序列方差降低抽样(Neyman 分配)来降低评估成本,同时通过 Hoeffding-Serfling 边界控制误差。
  • 构建一个 Domain × Capability 矩阵,包含 22 个维度和 317 个子任务,以将知识领域与认知能力解耦。
  • 定义并计算诸如 Rank Stability Amplitude (RSA)、Capability Inconsistency (CI) 和 Anisotropy Index 等指标,以诊断不稳定性与各向异性。
  • 在 304 个模型(189 商用,115 开源)上对 207,843 个样本进行评估,使用动态、成本感知的调度和新鲜数据。

实验结果

研究问题

  • RQ1在正交的领域×能力矩阵上评估时,不同中文 LLM 的模型能力各向异性如何表现?
  • RQ2对于大规模 LLM 评估,方差感知动态抽样策略在成本与准确性之间的权衡如何?
  • RQ3结构化的领域-能力分解是否能揭示聚合分数所掩盖的排名不稳定性?
  • RQ4在中文 NLP 的专业与推理领域,商业模型与开源模型在表现上有何差异?
  • RQ5所提出的评分与去污染框架在降低偏差和污染的同时,是否能维持排名的保真度?

主要发现

  • 在权重扰动下,ReLE 框架产生了较高的排名不稳定性,Mean RSA 为 11.4,而传统基准大约为 5.0。
  • Anisotropy Index 计算为 1 减去平均维度间相关性的值,为 0.74,表明在各维度之间存在强能力各向异性。
  • 商用模型在专业领域处于领先,但顶尖开源模型在一般推理方面缩小了差距;多智能体工具使用模型在 Tool Use 方面的表现优于通用模型(74.8 对 62.4)。
  • 成本高效的动态抽样将评估成本降低约 70%(从 69,000 美元降至 20,700 美元,涉及 304 个模型),同时保持与全集评估相关性 ρ = 0.96。
  • 相较于基线,排名不稳定性在统计上显著(p<0.001);RSA 分布在 ReLE 与 C-Eval/CLUE 之间存在显著差异,Bootstrap 95% CI 不重叠。
  • 全集控制显示动态抽样保留了能力信号的 94.8%,表明对抽样策略具有鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。