QUICK REVIEW

[논문 리뷰] PROTEUS: SLA-Aware Routing via Lagrangian RL for Multi-LLM Serving Systems

Amit Singh Bhatti, Vishal Vaddina|arXiv (Cornell University)|2026. 01. 27.

Software-Defined Networks and 5G인용 수 0

한 줄 요약

PROTEUS는 런타임에 정확도(target accuracy) 목표를 수용하고, 타깃을 학습된 라그랑지 이중을 사용해 품질-비용 라우팅 정책으로 매핑하여 재학습 없이 단일 모델이 전체 정확도 스펙트럼을 커버하도록 하는 SLA 인식 라우터를 도입합니다.

ABSTRACT

Production LLM deployments serve diverse workloads where cost and quality requirements vary by customer tier, time of day, and query criticality. Model serving systems accept latency SLOs directly. LLM routers do not. They force operators to tune parameters offline and guess what accuracy might result. The relationship between parameters and outcomes is indirect, non-monotonic, and dataset-dependent. Operators need to specify accuracy targets, not infer them from opaque settings. We present PROTEUS (Polymorphic Router for Operational Target Enforcement with Unified SLA), a router that accepts accuracy targets tau as runtime input. PROTEUS uses Lagrangian dual control. A learned dual variable lambda tracks constraint violations during training and conditions the policy network. This lets the router translate specified tau values into routing decisions that satisfy them. A single trained model serves the full accuracy spectrum without retraining.We evaluate on RouterBench (11 models, 405K queries) and SPROUT (14 models, 45K queries). PROTEUS achieves consistent floor compliance where accuracy meets or exceeds tau. The target-response correlation reaches 0.97 to 0.98. The closest baseline, OmniRouter, meets floors only 22% of the time despite also using Lagrangian optimization. PROTEUS operates across tau in [0.85, 0.95] from a single model. On RouterBench it achieves 90.1% accuracy, within 1.3% of oracle. On SPROUT it achieves 94.0% accuracy, within 4.6% of oracle. Cost savings reach 89.8% versus the best fixed model.

연구 동기 및 목표

타깃 정확도가 런타임 입력인 SLA-적응 라우팅을 형식화한다.
재학습 없이 단일 모델이 전체 정확도 스펙트럼을 서비스하도록 한다.
이질적인 LLM 풀에서 비용을 최소화하면서 바닥 준수를 보장한다.
표준 라우팅 벤치마크에서 런타임 적응성과 비용 효율성을 입증한다.

제안 방법

런타임 타깃(tau)에 라우팅 정책을 조건화하여 연속적인 정확도 작동 포인트를 지원한다.
저가 모델과 고가 모델 사이를 보간하기 위해 Beta 분포를 따르는 연속 품질 선호 mu를 사용한다.
런타임 점수 함수 s_i를 계산하여 예측 모델 정확도 p_i(x), 품질 향상 b_i, 학습 가능한 gamma를 갖는 비선형 비용 항을 결합한다: s_i = p_i(x) + mu*b_i - (1-mu)^gamma * c_i.
학습된 듀얼 변수 lambda를 제약 피드백 루프를 통해 업데이트하여 훈련 중 정확도 타깃을 강제한다: lambda_{t+1} = [lambda_t + eta_lambda*(tau - p_batch)]_+.
제약 MDP 보상 r(x, mu)을 포함하는 Proximal Policy Optimization (PPO)으로 정책을 훈련한다: r = w_q(tau)*p_{m*}(x) - w_c(tau)*hat{c}_{m*} + lambda*(p_{m*}(x) - tau).
제약 신호를 안정화하고 tau-매핑 라우팅 동작을 학습하기 위해 세션당 tau를 고정하는 세션 기반 학습을 채택한다.]
research_questions:[
Can an LLM routing policy directly accept and satisfy runtime accuracy targets (tau) across diverse model pools?
Does conditioning on tau enable a single model to serve multiple SLA tiers without retraining?
How effective is the Lagrangian dual mechanism in enforcing target accuracy during training and inference?
What are the tradeoffs in cost, accuracy, and latency when using PROTEUS compared to prior routing methods?
How does tau-mu correlation relate to runtime adaptability and floor compliance across benchmarks?

Figure 2: Main Results. (a) SLA Compliance: PROTEUS (bars) consistently meets or exceeds each $\tau$ target (black lines), while baselines fail. OmniRouter (blue X markers) plateaus below targets despite per- $\tau$ training; CARROT (brown dotted lines) achieves fixed accuracy regardless of $\tau$ .

실험 결과

연구 질문

RQ1다양한 모델 풀에서 런타임 정확도 타깃(tau)을 직접 수용하고 만족시키는 LLM 라우팅 정책이 가능한가?
RQ2tau에 조건을 두는 것이 재학습 없이 단일 모델이 여러 SLA 계층을 서비스하게 하는가?
RQ3훈련 및 추론 중 목표 정확도 강제에 대한 라그랑지 이중 메커니즘의 효율성은 어느 정도인가?
RQ4이전 라우팅 방법들과 비교했을 때 PROTEUS의 비용, 정확도, 대기시간의 트레이드오프는 어떠한가?
RQ5tau-mu 상관관계가 벤치마크 전반에서 런타임 적응성과 바닥 준수에 어떻게 연결되는가?

주요 결과

Method	RB Acc. (%)	SP Acc. (%)	RB Cost ($/1K)	SP Cost ($/1K)	RB Routing Eff. (pp/ms)	SP Routing Eff. (pp/ms)	RB Overall Perf.	SP Overall Perf.
PROTEUS	90.1	94.0	0.33	0.93	11.1	9.5	88.5	83.5
Oracle	91.4	98.6	0.39	0.60	N/A	N/A	88.2	92.2

PROTEUS는 RouterBench와 SPROUT에서 평가된 tau 수준 전반에 걸쳐 바닥 준수(정확도 ≥ tau)를 달성하며 베이스라인보다 우수합니다.
tau-mu 상관관계는 RouterBench에서 0.973, SPROUT에서 0.981로 타깃에서 품질 선호로의 강한 변환을 나타냅니다.
RouterBench에서 PROTEUS는 90.1% 정확도(오라클 대비 1.3% 이내); SPROUT에서 94.0%(오라클 대비 4.6% 이내)를 달성합니다.
PROTEUS는 RouterBench에서 가장 좋은 고정 모델 대비 약 89.8%의 비용 절감을 달성하고, SPROUT은 가장 강력한 베이스라인 대비 큰 비용 절감을 보입니다.
라우팅 효율(RE)은 RouterBench에서 11.1 pp/ms, SPROUT에서 9.5 pp/ms에 도달하여 베이스라인을 능가하고 효율성 면에서 오라클 성능에 근접합니다.
제약 메커니즘(lambda)의 제거 실험은 정확도 유지에 필수적임을 보여주며, SPROUT의 더 큰 비용 변화로 인해 학습 가능한 gamma의 중요성이 더 큽니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.