[论文解读] Towards Fair and Comprehensive Evaluation of Routers in Collaborative LLM Systems
提出 RouterXBench,一套用于评估 LLM 路由器在路由能力、场景对齐与跨域鲁棒性三方面的三重视角框架,并引入 ProbeDirichlet,一种提升跨域泛化的隐藏状态路由器。
Large language models (LLMs) have achieved success, but cost and privacy constraints necessitate deploying smaller models locally while offloading complex queries to cloud-based models. Existing router evaluations are unsystematic, overlooking scenario-specific requirements and out-of-distribution robustness. We propose RouterXBench, a principled evaluation framework with three dimensions: router ability, scenario alignment, and cross-domain robustness. Unlike prior work that relies on output probabilities or external embeddings, we utilize internal hidden states that capture model uncertainty before answer generation. We introduce ProbeDirichlet, a lightweight router that aggregates cross-layer hidden states via learnable Dirichlet distributions with probabilistic training. Trained on multi-domain data, it generalizes robustly across in-domain and out-of-distribution scenarios. Our results show ProbeDirichlet achieves 16.68% and 18.86% relative improvements over the best baselines in router ability and high-accuracy scenarios, with consistent performance across model families, model scales, heterogeneous tasks, and agentic workflows.
研究动机与目标
- 推动对边缘云协作中的路由器进行公平、场景感知的评估。
- 从部署约束中区分路由能力,以实现 principled 的比较。
- 提出一种轻量级隐藏状态路由器,具备鲁棒的跨域性能。
- 展示多样化训练数据在提升鲁棒性的同时不牺牲本领域性能。
- 展示对模型家族、规模以及代理性工作流的泛化能力。
提出的方法
- 用三维评估维度定义 RouterXBench:路由能力(AUROC)、场景对齐(LPM、MPM、HCR)及跨域鲁棒性。
- 提出 ProbeDirichlet:在训练阶段使用 Dirichlet 分布的层权重对跨层隐藏状态进行聚合,在推理时使用期望值。
- 从每一层提取句子级隐藏状态,计算跨层的加权和,并训练一个轻量线性探针。
- 使用多域训练数据提高跨域鲁棒性,防止领域特定的过拟合。
- 在六个基准数据集上评估(Alpaca、MMLU、Big-Math、Magpie、MMLU-Pro、MATH),以 GPT-5 作为大模型,LLama-3.1-8B-Instruct 作为小模型。
- 与信号模态进行对比:Verbose、Logit、Embedding 基的路由器。
实验结果
研究问题
- RQ1是否能够在不考虑部署成本的前提下,通过对小模型正确性的 AUROC 来独立衡量内在的路由能力?
- RQ2如何量化场景对齐(低带、中带、高带)以真实反映实际部署约束?
- RQ3在多域数据上训练是否能提升路由器的跨域鲁棒性?
- RQ4内部隐藏状态是否比输出概率或外部嵌入信号更适合用于路由决策?
- RQ5Dirichlet 基的跨层聚合是否优于固定或均值聚合?
主要发现
- ProbeDirichlet 在 ID 和 OOD 场景中,相比最佳基线实现了 16.68% 的相对提升(路由能力)。
- 基于探针的方法在高精度场景(HCR)中实现了 18.86% 的相对提升。
- 隐藏状态信号在各基准与任务中超越输出信号或嵌入信号。
- Dirichlet 聚合在所有聚合策略中提供了最佳 AUROC,优于最终层和均值池化。
- 多域多样化训练带来叠加收益,且对不同领域和模型家族没有干扰。
- 在模型家族(如 Llama、Qwen)和规模上表现出泛化能力,且扩展至代理式推理场景。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。