[論文レビュー] PROTEUS: SLA-Aware Routing via Lagrangian RL for Multi-LLM Serving Systems
PROTEUSはランタイムで精度目標を受け付け、学習済みのラグランジュ dualを用いて目標を品質-コストルーティング方針へマッピングするSLA awareルータを導入。再トレーニングなしで全精度スペクトルをカバーできる単一モデルを実現。
Production LLM deployments serve diverse workloads where cost and quality requirements vary by customer tier, time of day, and query criticality. Model serving systems accept latency SLOs directly. LLM routers do not. They force operators to tune parameters offline and guess what accuracy might result. The relationship between parameters and outcomes is indirect, non-monotonic, and dataset-dependent. Operators need to specify accuracy targets, not infer them from opaque settings. We present PROTEUS (Polymorphic Router for Operational Target Enforcement with Unified SLA), a router that accepts accuracy targets tau as runtime input. PROTEUS uses Lagrangian dual control. A learned dual variable lambda tracks constraint violations during training and conditions the policy network. This lets the router translate specified tau values into routing decisions that satisfy them. A single trained model serves the full accuracy spectrum without retraining.We evaluate on RouterBench (11 models, 405K queries) and SPROUT (14 models, 45K queries). PROTEUS achieves consistent floor compliance where accuracy meets or exceeds tau. The target-response correlation reaches 0.97 to 0.98. The closest baseline, OmniRouter, meets floors only 22% of the time despite also using Lagrangian optimization. PROTEUS operates across tau in [0.85, 0.95] from a single model. On RouterBench it achieves 90.1% accuracy, within 1.3% of oracle. On SPROUT it achieves 94.0% accuracy, within 4.6% of oracle. Cost savings reach 89.8% versus the best fixed model.
研究の動機と目的
- Runtime入力としてターゲット精度を正式化したSLA適応ルーティングの定式化。
- 再トレーニングなしで単一モデルが全精度スペクトルを提供できるようにする。
- 異種LLMプール間でコストを最小化しつつ floor 遵守を保証する。
- 標準的なルーティングベンチマークでのランタイム適応性とコスト効率を実証する。
提案手法
- ルーティングポリシーをランタイムターゲット tau に条件付けて連続的な精度運用点をサポートする。
- Beta分布の連続品質嗜好 mu を用いて安価なモデルと高価なモデルの間を補間する。
- ランタイムスコアリング関数 s_i を推定モデル精度 p_i(x)、品質向上 b_i、学習可能な gamma を持つ非線形コスト項と組み合わせて計算する:s_i = p_i(x) + mu*b_i - (1-mu)^gamma * c_i。
- 訓練中に精度目標を強制するため、制約フィードバックループで更新される学習済みデュアル変数 lambda を用いる:lambda_{t+1} = [lambda_t + eta_lambda*(tau - p_batch)]_+。
- ポリシーをProximal Policy Optimization (PPO) で訓練し、精度・コスト・制約圧力を含む制約付きMDP報酬 r(x, mu) を用いる:r = w_q(tau)*p_{m*}(x) - w_c(tau)*hat{c}_{m*} + lambda*(p_{m*}(x) - tau)。
- 制約信号を安定化させ tau-mappedルーティング挙動を学習するため、セッションごとに tau を固定するセッションベース訓練を採用する。

実験結果
リサーチクエスチョン
- RQ1LLMルーティングポリシーはランタイム精度目標 tau を直接受け付け、異なるモデルプールに対して満たすことができるか。
- RQ2tau に条件付けることで再訓練なしに単一モデルが複数のSLA階層を提供できるか。
- RQ3訓練と推論時のターゲット精度をデュアル機構がどれだけ効果的に強制できるか。
- RQ4PROTEUS を従来のルーティング法と比較した場合のコスト・精度・レイテンシのトレードオフはどうか。
- RQ5tau-mu の相関がベンチマークを跨いでランタイム適応性とfloor遵守にどう寄与するか。
主な発見
| Method | RB Acc. (%) | SP Acc. (%) | RB Cost ($/1K) | SP Cost ($/1K) | RB Routing Eff. (pp/ms) | SP Routing Eff. (pp/ms) | RB Overall Perf. | SP Overall Perf. |
|---|---|---|---|---|---|---|---|---|
| PROTEUS | 90.1 | 94.0 | 0.33 | 0.93 | 11.1 | 9.5 | 88.5 | 83.5 |
| Oracle | 91.4 | 98.6 | 0.39 | 0.60 | N/A | N/A | 88.2 | 92.2 |
- PROTEUSは RouterBench および SPROUT の評価で tau レベル全体に対してfloor遵守(accuracy ≥ tau)を達成し、ベースラインを上回る。
- tau-mu の相関は RouterBench で 0.973、SPROUT で 0.981 となり、目標から品質嗜好への強い変換を示す。
- RouterBench では PROTEUS は 90.1% の精度(オラクルの1.3%内)、SPROUT では 94.0%(オラクルの4.6%内)を達成。
- PROTEUS は RouterBench で最良固定モデルに対して約 89.8% のコスト削減を達成し、SPROUT では最も強力なベースラインより大幅なコスト削減を示す。
- ルーティング効率(RE)は RouterBench で 11.1 pp/ms、SPROUT で 9.5 pp/ms に達し、ベースラインを上回りオラクル性能に近づく。
- アブレーション解析では制約機構(lambda)が精度維持に不可欠であること、学習可能な gamma は SPROUT でより重要となる(コスト変動が大きいため)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。