Skip to main content
QUICK REVIEW

[论文解读] Towards Fair and Comprehensive Evaluation of Routers in Collaborative LLM Systems

Wanxing Wu, He Zhu|arXiv (Cornell University)|Feb 12, 2026
Advanced Graph Neural Networks被引用 0
一句话总结

提出 RouterXBench,一套用于评估 LLM 路由器在路由能力、场景对齐与跨域鲁棒性三方面的三重视角框架,并引入 ProbeDirichlet,一种提升跨域泛化的隐藏状态路由器。

ABSTRACT

Large language models (LLMs) have achieved success, but cost and privacy constraints necessitate deploying smaller models locally while offloading complex queries to cloud-based models. Existing router evaluations are unsystematic, overlooking scenario-specific requirements and out-of-distribution robustness. We propose RouterXBench, a principled evaluation framework with three dimensions: router ability, scenario alignment, and cross-domain robustness. Unlike prior work that relies on output probabilities or external embeddings, we utilize internal hidden states that capture model uncertainty before answer generation. We introduce ProbeDirichlet, a lightweight router that aggregates cross-layer hidden states via learnable Dirichlet distributions with probabilistic training. Trained on multi-domain data, it generalizes robustly across in-domain and out-of-distribution scenarios. Our results show ProbeDirichlet achieves 16.68% and 18.86% relative improvements over the best baselines in router ability and high-accuracy scenarios, with consistent performance across model families, model scales, heterogeneous tasks, and agentic workflows.

研究动机与目标

  • 推动对边缘云协作中的路由器进行公平、场景感知的评估。
  • 从部署约束中区分路由能力,以实现 principled 的比较。
  • 提出一种轻量级隐藏状态路由器,具备鲁棒的跨域性能。
  • 展示多样化训练数据在提升鲁棒性的同时不牺牲本领域性能。
  • 展示对模型家族、规模以及代理性工作流的泛化能力。

提出的方法

  • 用三维评估维度定义 RouterXBench:路由能力(AUROC)、场景对齐(LPM、MPM、HCR)及跨域鲁棒性。
  • 提出 ProbeDirichlet:在训练阶段使用 Dirichlet 分布的层权重对跨层隐藏状态进行聚合,在推理时使用期望值。
  • 从每一层提取句子级隐藏状态,计算跨层的加权和,并训练一个轻量线性探针。
  • 使用多域训练数据提高跨域鲁棒性,防止领域特定的过拟合。
  • 在六个基准数据集上评估(Alpaca、MMLU、Big-Math、Magpie、MMLU-Pro、MATH),以 GPT-5 作为大模型,LLama-3.1-8B-Instruct 作为小模型。
  • 与信号模态进行对比:Verbose、Logit、Embedding 基的路由器。

实验结果

研究问题

  • RQ1是否能够在不考虑部署成本的前提下,通过对小模型正确性的 AUROC 来独立衡量内在的路由能力?
  • RQ2如何量化场景对齐(低带、中带、高带)以真实反映实际部署约束?
  • RQ3在多域数据上训练是否能提升路由器的跨域鲁棒性?
  • RQ4内部隐藏状态是否比输出概率或外部嵌入信号更适合用于路由决策?
  • RQ5Dirichlet 基的跨层聚合是否优于固定或均值聚合?

主要发现

  • ProbeDirichlet 在 ID 和 OOD 场景中,相比最佳基线实现了 16.68% 的相对提升(路由能力)。
  • 基于探针的方法在高精度场景(HCR)中实现了 18.86% 的相对提升。
  • 隐藏状态信号在各基准与任务中超越输出信号或嵌入信号。
  • Dirichlet 聚合在所有聚合策略中提供了最佳 AUROC,优于最终层和均值池化。
  • 多域多样化训练带来叠加收益,且对不同领域和模型家族没有干扰。
  • 在模型家族(如 Llama、Qwen)和规模上表现出泛化能力,且扩展至代理式推理场景。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。