QUICK REVIEW

[논문 리뷰] Towards Fair and Comprehensive Evaluation of Routers in Collaborative LLM Systems

Wanxing Wu, He Zhu|arXiv (Cornell University)|2026. 02. 12.

Advanced Graph Neural Networks인용 수 0

한 줄 요약

RouterXBench를 제안하는 세 가지 관점 프레임워크로 LLM 라우터를 라우터 능력, 시나리오 정렬, 교차 도메인 견고성 측면에서 평가하고, 교차 도메인 일반화를 향상시키는 hidden-state 라우터인 ProbeDirichlet를 도입합니다.

ABSTRACT

Large language models (LLMs) have achieved success, but cost and privacy constraints necessitate deploying smaller models locally while offloading complex queries to cloud-based models. Existing router evaluations are unsystematic, overlooking scenario-specific requirements and out-of-distribution robustness. We propose RouterXBench, a principled evaluation framework with three dimensions: router ability, scenario alignment, and cross-domain robustness. Unlike prior work that relies on output probabilities or external embeddings, we utilize internal hidden states that capture model uncertainty before answer generation. We introduce ProbeDirichlet, a lightweight router that aggregates cross-layer hidden states via learnable Dirichlet distributions with probabilistic training. Trained on multi-domain data, it generalizes robustly across in-domain and out-of-distribution scenarios. Our results show ProbeDirichlet achieves 16.68% and 18.86% relative improvements over the best baselines in router ability and high-accuracy scenarios, with consistent performance across model families, model scales, heterogeneous tasks, and agentic workflows.

연구 동기 및 목표

엣지-클라우드 LLM 협업에서 라우터의 공정하고 시나리오 인식 평가를 동기 부여한다.
배포 제약으로부터 라우터 능력을 분리하여 principled한 비교를 가능하게 한다.
강건한 교차 도메인 성능을 갖춘 가벼운 숨은 상태 라우터를 제안한다.
다양한 학습 데이터가 도메인 내 성능을 해치지 않으면서 견고성을 향상시킨다는 것을 보여준다.
모델 계열, 규모, 에이전트 기반 워크플로우 전반의 일반화 가능성을 시연한다.

제안 방법

RouterXBench를 세 가지 평가 차원으로 정의한다: Router Ability (AUROC), Scenario Alignment (LPM, MPM, HCR), 및 Cross-Domain Robustness.
ProbeDirichlet를 제안하여 Dirichlet 분포 계층 가중치를 사용해 학습 중 크로스-레이어 숨김 상태를 통합하고 추론 시 기대값을 사용한다.
각 계층에서 문장 수준의 숨김 상태를 추출하고 계층 간 가중 합을 계산한 다음 경량 선형 탐색기를 학습한다.
다양한 도메인 학습 데이터를 사용해 교차 도메인 견고성을 개선하고 도메인 특정 과적합을 방지한다.
여섯 개의 벤치마크(Alpaca, MMLU, Big-Math, Magpie, MMLU-Pro, MATH)에서 GPT-5를 대형 모델로, LLama-3.1-8B-Instruct를 소형 모델로 평가한다.
신호 모달리티: Verbose, Logit, 및 Embedding 기반 라우터와 비교한다.

실험 결과

연구 질문

RQ1배포 비용과 무관하게 작은 모델의 정답성에서 AUROC를 사용해 intrinsic한 라우터 능력을 측정할 수 있는가?
RQ2실제 배포 제약을 반영하도록 저-대역, 중-대역, 고-대역인 시나리오 정렬을 어떻게 정량화할 수 있는가?
RQ3다양하고 다도메인 학습이 라우터의 교차 도메인 견고성을 향상시키는가?
RQ4출력 확률이나 외부 임베딩보다 내부 숨김 상태가 라우팅 결정에 더 우수한 신호인가?
RQ5Dirichlet 기반의 크로스-레이어 집계가 고정형 또는 평균 기반 집계보다 이점을 제공하는가?

주요 결과

ProbeDirichlet가 ID 및 OOD 설정에서 최적 Baseline 대비 라우터 능력에서 16.68% 상대 개선을 달성한다.
Probe 기반 방법이 고정밀도 시나리오(HCR)에서 18.86% 상대 개선을 달성한다.
숨김 상태 신호가 벼출 기반 신호나 임베딩 기반 신호를 능가한다.
Dirichlet 집계가 집계 전략 중 최상의 AUROC를 제공하며 Final Layer 및 Mean Pool을 능가한다.
다양한 다도메인 학습이 도메인 간 간섭 없이 누적 이점을 제공한다.
일반화는 모델 계열(Llama 및 Qwen)과 규모, 에이전트 기반 추론 시나리오를 포함한 범위에서 관찰된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.