QUICK REVIEW

[論文レビュー] Towards Fair and Comprehensive Evaluation of Routers in Collaborative LLM Systems

Wanxing Wu, He Zhu|arXiv (Cornell University)|Feb 12, 2026

Advanced Graph Neural Networks被引用数 0

ひとこと要約

RouterXBench を提案する。ルータをルータ能力、シナリオ適合性、クロスドメインの堅牢性の三つの視点から評価する三重視点フレームワークであり、クロスドメイン一般化を改善する隠れ状態ルータ ProbeDirichlet を導入する。

ABSTRACT

Large language models (LLMs) have achieved success, but cost and privacy constraints necessitate deploying smaller models locally while offloading complex queries to cloud-based models. Existing router evaluations are unsystematic, overlooking scenario-specific requirements and out-of-distribution robustness. We propose RouterXBench, a principled evaluation framework with three dimensions: router ability, scenario alignment, and cross-domain robustness. Unlike prior work that relies on output probabilities or external embeddings, we utilize internal hidden states that capture model uncertainty before answer generation. We introduce ProbeDirichlet, a lightweight router that aggregates cross-layer hidden states via learnable Dirichlet distributions with probabilistic training. Trained on multi-domain data, it generalizes robustly across in-domain and out-of-distribution scenarios. Our results show ProbeDirichlet achieves 16.68% and 18.86% relative improvements over the best baselines in router ability and high-accuracy scenarios, with consistent performance across model families, model scales, heterogeneous tasks, and agentic workflows.

研究の動機と目的

エッジ-クラウド連携におけるルータの公正でシナリオ意識的な評価を動機づける。
実装コストからルータ能力を分離し、 principled な比較を可能にする。
堅牢なクロスドメイン性能を持つ軽量な隠れ状態ルータを提案する。
多様な訓練データが、ドメイン内性能を損なうことなく堅牢性を向上させることを示す。
モデルファミリ、スケール、エージェント的ワークフロー間の一般化を実証する。

提案手法

RouterXBench を三つの評価次元で定義する：Router Ability（AUROC）、Scenario Alignment（LPM、MPM、HCR）、および Cross-Domain Robustness。
ProbeDirichlet を提案し、訓練時に Dirichlet 分布の層重みを用いてクロスレイヤ隠れ状態を集約し、推論時には期待値を使用する。
各層から文レベルの隠れ状態を抽出し、層間の加重和を計算し、軽量な線形プローブを訓練する。
多ドメイン訓練データを用いてクロスドメインの堅牢性を向上させ、ドメイン特異的過適合を防ぐ。
6つのベンチマーク（Alpaca、MMLU、Big-Math、Magpie、MMLU-Pro、MATH）で評価し、GPT-5 を大規模モデル、LLama-3.1-8B-Instruct を小規模モデルとして用いる。
信号モダリティとして Verbose、Logit、Embedding ベースのルータと比較する。

実験結果

リサーチクエスチョン

RQ1小型モデルの正解度に対する AUROC を用いて、デプロイコストに依存せず intrinsic なルータ能力を測定できるか。
RQ2現実的なデプロイメント制約を反映するため、低-中-高帯域のシナリオ適合性をどのように定量化できるか。
RQ3多-domain データの訓練はルータのクロスドメイン堅牢性を改善するか。
RQ4内部隠れ状態は出力確率や外部埋め込みよりもルーティング決定の優れた信号か。
RQ5Dirichlet ベースのクロスレイヤ集約は固定値や平均ベースの集約より有利か。

主な発見

ProbeDirichlet は ID および OOD 設定で best ベースラインを相対的に 16.68% 改善した。
プローブベースの手法は高精度シナリオ（HCR）で相対的に 18.86% 改善を達成。
隠れ状態信号は、出力ベースや埋め込みベースの信号よりもベンチマークとタスク全体で優れている。
Dirichlet 集約は集約戦略の中で最高の AUROC を提供し、Final Layer および Mean Pool を上回る。
多様な多ドメイン訓練は、ドメイン間およびモデルファミリ間で干渉なく加法的な利得を生む。
一般化はモデルファミリ（Llama および Qwen）およびスケール、エージェントベースの推論シナリオを含む。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。