[논문 리뷰] Towards Fair and Comprehensive Evaluation of Routers in Collaborative LLM Systems
RouterXBench를 제안하는 세 가지 관점 프레임워크로 LLM 라우터를 라우터 능력, 시나리오 정렬, 교차 도메인 견고성 측면에서 평가하고, 교차 도메인 일반화를 향상시키는 hidden-state 라우터인 ProbeDirichlet를 도입합니다.
Large language models (LLMs) have achieved success, but cost and privacy constraints necessitate deploying smaller models locally while offloading complex queries to cloud-based models. Existing router evaluations are unsystematic, overlooking scenario-specific requirements and out-of-distribution robustness. We propose RouterXBench, a principled evaluation framework with three dimensions: router ability, scenario alignment, and cross-domain robustness. Unlike prior work that relies on output probabilities or external embeddings, we utilize internal hidden states that capture model uncertainty before answer generation. We introduce ProbeDirichlet, a lightweight router that aggregates cross-layer hidden states via learnable Dirichlet distributions with probabilistic training. Trained on multi-domain data, it generalizes robustly across in-domain and out-of-distribution scenarios. Our results show ProbeDirichlet achieves 16.68% and 18.86% relative improvements over the best baselines in router ability and high-accuracy scenarios, with consistent performance across model families, model scales, heterogeneous tasks, and agentic workflows.
연구 동기 및 목표
- 엣지-클라우드 LLM 협업에서 라우터의 공정하고 시나리오 인식 평가를 동기 부여한다.
- 배포 제약으로부터 라우터 능력을 분리하여 principled한 비교를 가능하게 한다.
- 강건한 교차 도메인 성능을 갖춘 가벼운 숨은 상태 라우터를 제안한다.
- 다양한 학습 데이터가 도메인 내 성능을 해치지 않으면서 견고성을 향상시킨다는 것을 보여준다.
- 모델 계열, 규모, 에이전트 기반 워크플로우 전반의 일반화 가능성을 시연한다.
제안 방법
- RouterXBench를 세 가지 평가 차원으로 정의한다: Router Ability (AUROC), Scenario Alignment (LPM, MPM, HCR), 및 Cross-Domain Robustness.
- ProbeDirichlet를 제안하여 Dirichlet 분포 계층 가중치를 사용해 학습 중 크로스-레이어 숨김 상태를 통합하고 추론 시 기대값을 사용한다.
- 각 계층에서 문장 수준의 숨김 상태를 추출하고 계층 간 가중 합을 계산한 다음 경량 선형 탐색기를 학습한다.
- 다양한 도메인 학습 데이터를 사용해 교차 도메인 견고성을 개선하고 도메인 특정 과적합을 방지한다.
- 여섯 개의 벤치마크(Alpaca, MMLU, Big-Math, Magpie, MMLU-Pro, MATH)에서 GPT-5를 대형 모델로, LLama-3.1-8B-Instruct를 소형 모델로 평가한다.
- 신호 모달리티: Verbose, Logit, 및 Embedding 기반 라우터와 비교한다.
실험 결과
연구 질문
- RQ1배포 비용과 무관하게 작은 모델의 정답성에서 AUROC를 사용해 intrinsic한 라우터 능력을 측정할 수 있는가?
- RQ2실제 배포 제약을 반영하도록 저-대역, 중-대역, 고-대역인 시나리오 정렬을 어떻게 정량화할 수 있는가?
- RQ3다양하고 다도메인 학습이 라우터의 교차 도메인 견고성을 향상시키는가?
- RQ4출력 확률이나 외부 임베딩보다 내부 숨김 상태가 라우팅 결정에 더 우수한 신호인가?
- RQ5Dirichlet 기반의 크로스-레이어 집계가 고정형 또는 평균 기반 집계보다 이점을 제공하는가?
주요 결과
- ProbeDirichlet가 ID 및 OOD 설정에서 최적 Baseline 대비 라우터 능력에서 16.68% 상대 개선을 달성한다.
- Probe 기반 방법이 고정밀도 시나리오(HCR)에서 18.86% 상대 개선을 달성한다.
- 숨김 상태 신호가 벼출 기반 신호나 임베딩 기반 신호를 능가한다.
- Dirichlet 집계가 집계 전략 중 최상의 AUROC를 제공하며 Final Layer 및 Mean Pool을 능가한다.
- 다양한 다도메인 학습이 도메인 간 간섭 없이 누적 이점을 제공한다.
- 일반화는 모델 계열(Llama 및 Qwen)과 규모, 에이전트 기반 추론 시나리오를 포함한 범위에서 관찰된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.