QUICK REVIEW

[論文レビュー] ReLE: A Scalable System and Structured Benchmark for Diagnosing Capability Anisotropy in Chinese LLMs

Rui Fang, Jian Li|arXiv (Cornell University)|Jan 24, 2026

Natural Language Processing Techniques被引用数 0

ひとこと要約

ReLEはスケーラブルな評価システムと domain×capability ベンチマークを導入し、中国語LLMの能力の方向依存性を診断。コストを大幅に削減しつつ、次元間でのランキングの不安定性を明らかにする。

ABSTRACT

Large Language Models (LLMs) have achieved rapid progress in Chinese language understanding, yet accurately evaluating their capabilities remains challenged by benchmark saturation and prohibitive computational costs. While static leaderboards provide snapshot rankings, they often mask the structural trade-offs between capabilities. In this work, we present ReLE (Robust Efficient Live Evaluation), a scalable system designed to diagnose Capability Anisotropy, the non-uniformity of model performance across domains. Using ReLE, we evaluate 304 models (189 commercial, 115 open-source) across a Domain $ imes$ Capability orthogonal matrix comprising 207,843 samples. We introduce two methodological contributions to address current evaluation pitfalls: (1) A Symbolic-Grounded Hybrid Scoring Mechanism that eliminates embedding-based false positives in reasoning tasks; (2) A Dynamic Variance-Aware Scheduler based on Neyman allocation with noise correction, which reduces compute costs by 70\% compared to full-pass evaluations while maintaining a ranking correlation of $ρ=0.96$. Our analysis reveals that aggregate rankings are highly sensitive to weighting schemes: models exhibit a Rank Stability Amplitude (RSA) of 11.4 in ReLE versus $\sim$5.0 in traditional benchmarks, confirming that modern models are highly specialized rather than generally superior. We position ReLE not as a replacement for comprehensive static benchmarks, but as a high-frequency diagnostic monitor for the evolving model landscape.

研究の動機と目的

中国語LLMの性能を直交するドメインと能力の次元に分解して能力の方向性依存を診断する。
工業現場で300以上のモデルに適した、スケーラブルでコスト効率の高い評価パイプラインを開発する。
飽和を緩和し直交的な能力トレードオフを明らかにする新鮮データを用いた構造化ベンチマークを提供する。
総合スコアだけでなくモデル選択に資する診断指標を提供し、ランキングの安定性を定量化する。

提案手法

12種のタスクタイプと7つのドメインに跨る入力を標準化する統一プロンプトスキーマを実装し、モデル固有のアダプター層を導入する。
精度とスケーラビリティのバランスとバイアス緩和を図る3層構造のHybrid Verificationスコアリングパイプラインを用いる。
Hoeffding-Serfling境界で誤差を制御しつつ評価コストを抑えるStratified Sequential Variance-Reduction Sampling（Neyman割付）を採用する。
知識ドメインと認知能力を分離する22次元×317サブタスクのDomain × Capabilityマトリクスを構築する。
Rank Stability Amplitude (RSA)、Capability Inconsistency (CI)、Anisotropy Indexなどの指標を定義・計算し、安定性と異方性を診断する。
動的かつコスト配慮されたスケジューリングと新鮮データを用いて、304モデル（189商用、115オープンソース）を207,843サンプルで評価する。

実験結果

リサーチクエスチョン

RQ1直交ドメイン×能力マトリクスに基づく評価で、中国語LLMの多様なモデル間における能力の方向依存性はどのように現れるか。
RQ2大規模LLM評価の分散感知動的サンプリング戦略のコストと精度のトレードオフはどうか。
RQ3構造化されたドメイン-能力分解は、総合スコアが見逃すランキングの不安定性を明らかにできるか。
RQ4商用モデルとオープンソースモデルは中国語NLPの専門領域と推論領域でどの程度差があるか。
RQ5提案されたスコアリングとデコンタミネーションの枠組みは、バイアス・汚染を減らしつつランキング忠実度を維持できるか。

主な発見

ReLEフレームワークは重み擾乱下で高いランキング不安定性を示し、Mean RSAは11.4で、従来ベンチマークの約5.0と比較して高い。
Anisotropy Indexは1 minus average inter-dimension correlationとして0.74となり、次元間での強い能力異方性を示す。
商用モデルは専門領域でリードするが、一般的な推論ではオープンソースモデルのトップが差を縮める；マルチエージェントツール利用モデルはTool Useで一般モデルを上回る（74.8対62.4）。
コスト効率の高い動的サンプリングにより評価コストを約70%削減（304モデルで$69,000から$20,700へ）し、全セット評価と比較してランキング相関ρ=0.96を維持。
ランキング不安定性はベースラインと統計的に有意（p<0.001）で、ReLEとC-Eval/CLUEのRSA分布はブートストラップの95%信頼区間で非重複。
フルセットのコントロールは動的サンプリングが能力信号の94.8%を保持することを示し、サンプリング戦略に対する堅牢性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。