QUICK REVIEW

[論文レビュー] LLM Router: Prefill is All You Need

Tanay Varshney, Annie Surla|arXiv (Cornell University)|Mar 21, 2026

Network Packet Processing and Optimization被引用数 0

ひとこと要約

この論文は Encoder-Target Decoupling と SharedTrunkNet ルーティングアーキテクチャを紹介し、プレフィル活性化を用いてターゲットモデルの正解性を予測し、 semantic baseline を凌ぐルーティング性能と顕著なコスト削減を達成します。

ABSTRACT

LLMs often share comparable benchmark accuracies, but their complementary performance across task subsets suggests that an Oracle router--a theoretical selector with perfect foresight--can significantly surpass standalone model accuracy by navigating model-specific strengths. While current routers rely on fragile semantic signals, we propose using internal prefill activations via Encoder-Target Decoupling--a functional separation between the model providing the predictive signal (the Encoder) and the model whose performance is being estimated (the Target). This allows optimized heterogeneous pairing between unique encoders and target models. We utilize Fisher Separability (J) and Effective Dimensionality (d_eff) as mathematical probes to isolate optimal layer-wise signals, providing the predictive foundation for our SharedTrunkNet architecture. SharedTrunkNet captures up to 45.58% of the accuracy gap between the strongest standalone model and the Oracle while achieving 74.31% cost savings relative to the highest-cost model.

研究の動機と目的

内部モデルの活性化を用いたルーティングを促進し、セマンティックなクエリ信号よりもモデル固有の正当性と難易度を better に予測する。
Encoder-Target Decoupling を導入して、オープンウェイトのエンコーダがクローズドソースモデルの性能を予測できるようにする。
幾何学的プローブ、特に Fisher Separability (J) を補足する Effective Dimensionality および異方性診断を用いて有益なレイヤを特定する。
SharedTrunkNet を提案し、結合されたプレフィル特徴を用いて複数候補モデルの正解性を同時に予測する多出力MLP を提案する。
frontier，small，mixed model pools における per-model および global レベルでのルーティングを評価し、実用的な利得を示す。

提案手法

クエリからの信号抽出と候補ターゲットの信頼度推定という二段階ルーティングアーキテクチャを定式化する。
Encoder LLM からプレフィル活性化を抽出し、選択された上部層から PCA 降次特徴を計算する。
結合されたプレフィル特徴を用いて全候補ターゲットの同時正解性確率を予測する SharedTrunkNet を訓練する。
Encoder-Target ベースのルーティングを複数のモデルプールとベンチマーク（MMLU-Pro、 Humanity’s Last Exam、 LiveCodeBench）で semantic baseline と比較する。
routing score s_k,q = λ * p_hat_k(q) - (1 - λ) * C̃_k,q を定義し、さまざまな λ で精度-コストのトレードオフを追跡する。
入力/出力トークンの中央値と提供者価格に基づく部分的コストモデルを用いて C_k,q を推定する。

Figure 1: Overview of the two-stage routing architecture: signal extraction and confidence estimation.

実験結果

リサーチクエスチョン

RQ1オープンウェイトのエンコーダはプレフィル活性化を用いてクローズドソースターゲットモデルの性能を予測できるか。
RQ2正解と不正解の予測をルーティングのために最もよく分離する内部活性化レイヤ特性は何か（例：Fisher J、d_eff、異方性）か。
RQ3ジョイントのマルチ出力ルータ（SharedTrunkNet）はターゲットの正解性予測で semantic baseline を超えるか。
RQ4 frontier、small、mixed model pools でプレフィル信号を用いたルーティングは精度とコストにどの程度の利得をもたらすか。

主な発見

SharedTrunkNet はプール全体で最も強い per-model AUC と最も低い Brier スコアを一貫して達成する。
frontier、small、mixed pools において SharedTrunkNet は oracle との差を大幅に縮めつつ、顕著なコスト削減を達成する（例：frontier pool の最も高価なモデルに対して 74.31% のコスト削減）。
エンコーダターゲットのターゲットでは、大規模オープンウェイトエンコーダ（例：Qwen-3.5 122B）がしばしば各ターゲットの最も高い AUC を示し、多くのターゲットモデル自身の隠れ状態を上回る。
Fisher Separability (J) はプレフィルルーティングに有益なレイヤを効果的に特定し、d_eff および異方性は補完的な診断を提供する。
Encoder-Target Decoupling はオープンエンコーダを用いてターゲット性能を予測可能にし、モデル間の文脈共有とキャリブレーションの改善を実現する。

Figure 2: Frontier pool: raw accuracy vs. total cost ($). SharedTrunkNet dominates all semantic backbones across the full cost range.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。