QUICK REVIEW

[论文解读] PROTEUS: SLA-Aware Routing via Lagrangian RL for Multi-LLM Serving Systems

Amit Singh Bhatti, Vishal Vaddina|arXiv (Cornell University)|Jan 27, 2026

Software-Defined Networks and 5G被引用 0

一句话总结

PROTEUS 引入一个 SLA 感知的路由器，运行时接受准确性目标，并使用一个学习的拉格朗日对偶将目标映射到质量-成本路由策略，使单一模型覆盖完整的准确性范围且无需重新训练。

ABSTRACT

Production LLM deployments serve diverse workloads where cost and quality requirements vary by customer tier, time of day, and query criticality. Model serving systems accept latency SLOs directly. LLM routers do not. They force operators to tune parameters offline and guess what accuracy might result. The relationship between parameters and outcomes is indirect, non-monotonic, and dataset-dependent. Operators need to specify accuracy targets, not infer them from opaque settings. We present PROTEUS (Polymorphic Router for Operational Target Enforcement with Unified SLA), a router that accepts accuracy targets tau as runtime input. PROTEUS uses Lagrangian dual control. A learned dual variable lambda tracks constraint violations during training and conditions the policy network. This lets the router translate specified tau values into routing decisions that satisfy them. A single trained model serves the full accuracy spectrum without retraining.We evaluate on RouterBench (11 models, 405K queries) and SPROUT (14 models, 45K queries). PROTEUS achieves consistent floor compliance where accuracy meets or exceeds tau. The target-response correlation reaches 0.97 to 0.98. The closest baseline, OmniRouter, meets floors only 22% of the time despite also using Lagrangian optimization. PROTEUS operates across tau in [0.85, 0.95] from a single model. On RouterBench it achieves 90.1% accuracy, within 1.3% of oracle. On SPROUT it achieves 94.0% accuracy, within 4.6% of oracle. Cost savings reach 89.8% versus the best fixed model.

研究动机与目标

将 SLA 自适应路由形式化，其中目标准确性在运行时输入。
实现单一模型覆盖全完整准确性谱且无需再训练。
在异构大模型池中保障底线合规同时最小化成本。
在标准路由基准上展示运行时自适应性与成本效益。

提出的方法

将路由策略以运行时目标 tau 为条件，以支持连续的准确性工作点。
使用 Beta 分布的连续质量偏好 mu 在便宜模型与昂贵模型之间进行插值。
计算一个运行时评分函数 s_i，结合预测模型准确性 p_i(x)、质量提升 b_i，以及带可学习 gamma 的非线性成本项：s_i = p_i(x) + mu*b_i - (1-mu)^gamma * c_i。
通过一个学习的对偶变量 lambda，并通过约束反馈环更新，以在训练期间强制执行准确性目标：lambda_{t+1} = [lambda_t + eta_lambda*(tau - p_batch)]_+。
使用带约束的 MDP 奖励 r(x, mu) 通过 Proximal Policy Optimization (PPO) 训练策略，包含准确性、成本和约束压力：r = w_q(tau)*p_{m*}(x) - w_c(tau)*hat{c}_{m*} + lambda*(p_{m*}(x) - tau)。
采用会话式训练，在每个会话 tau 固定以稳定约束信号并学习 tau 映射的路由行为。

Figure 2: Main Results. (a) SLA Compliance: PROTEUS (bars) consistently meets or exceeds each $\tau$ target (black lines), while baselines fail. OmniRouter (blue X markers) plateaus below targets despite per- $\tau$ training; CARROT (brown dotted lines) achieves fixed accuracy regardless of $\tau$ .

实验结果

研究问题

RQ1一个 LLM 路由策略是否能够直接接受并满足运行时准确性目标 tau，适用于多样的模型池？
RQ2在 tau 条件化下，单一模型是否能够在无需再训练的情况下服务于多条 SLA？
RQ3在训练和推断阶段，拉格朗日对偶机制在强制目标准确性方面的效果如何？
RQ4与现有路由方法相比，使用 PROTEUS 在成本、准确性和延迟方面有哪些权衡？
RQ5tau-mu 相关性如何反映在基准上运行时的适应性和底线合规性？

主要发现

Method	RB Acc. (%)	SP Acc. (%)	RB Cost ($/1K)	SP Cost ($/1K)	RB Routing Eff. (pp/ms)	SP Routing Eff. (pp/ms)	RB Overall Perf.	SP Overall Perf.
PROTEUS	90.1	94.0	0.33	0.93	11.1	9.5	88.5	83.5
Oracle	91.4	98.6	0.39	0.60	N/A	N/A	88.2	92.2

在 RouterBench 和 SPROUT 的评估中，PROTEUS 对所有 tau 水平均实现了底线合规（准确性 ≥ tau），并优于基线方法。
tau-mu 相关性在 RouterBench 为 0.973，在 SPROUT 为 0.981，表明目标向质量偏好之间的映射很强。
在 RouterBench 上，PROTEUS 达到 90.1% 的准确性（离 oracle 的差距为 1.3%），在 SPROUT 上为 94.0%（离 oracle 的差距为 4.6%）。
相比最佳固定模型，PROTEUS 在 RouterBench 上将成本降低约 89.8%，SPROUT 相对于最强基线也显示出显著的成本节省。
路由效率（RE）在 RouterBench 达到 11.1 份点/毫秒，在 SPROUT 为 9.5 份点/毫秒，超过基线并在效率上接近 oracle 的表现。
消融实验显示约束机制（lambda）对维持准确性至关重要；在 SPROUT 上可学习的 gamma 对成本变化更大影响。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。