[论文解读] $n$-Musketeers: Reinforcement Learning Shapes Collaboration Among Language Models
该论文提出软隐藏状态协作,通过一个可训练的 Perceiver 风格适配器,在强化学习可验证奖励(RLVR)框架下融合多颗冻结的小型语言模型(SLM)Experts,达到具有竞争力的推理性能并揭示Emergent Expert Roles。
Recent progress in reinforcement learning with verifiable rewards (RLVR) shows that small, specialized language models (SLMs) can exhibit structured reasoning without relying on large monolithic LLMs. We introduce soft hidden-state collaboration, where multiple heterogeneous frozen SLM experts are integrated through their internal representations via a trainable attention interface. Experiments on Reasoning Gym and GSM8K show that this latent integration is competitive with strong single-model RLVR baselines. Ablations further reveal a dual mechanism of expert utilization: for simpler arithmetic domains, performance gains can largely be explained by static expert preferences, whereas more challenging settings induce increasingly concentrated and structured expert attention over training, indicating emergent specialization in how the router connects to relevant experts. Overall, hidden-state collaboration provides a compact mechanism for leveraging frozen experts, while offering an observational window into expert utilization patterns and their evolution under RLVR.
研究动机与目标
- 推动从单体大模型向由冻结、专门化的 SLM 集成体进行推理任务的转变(在 RLVR 下)。
- 提出一种表示层面的、可训练的接口,暴露并使用冻结专家的隐藏状态,而无需重新训练它们。
- 表明潜在专家条件化可以在某些任务上改进推理,并在 RLVR 训练过程中揭示Emergent 专家动态。
提出的方法
- 将专家条件化策略定义为 πθ,ϕ(y | x) = πθ(y | [x ∥ C]),其中上下文令牌 C = gϕ(H) 来自冻结专家表示 H。
- 提取并对齐冻结专家的最终层隐藏状态,对它们进行池化(默认:末尾令牌),并通过 di × d 投影矩阵 Wi 将其投射到共享潜在空间。
- 使用 Perceiver 风格的跨注意力瓶颈聚合对齐表示,利用 m 个可训练潜在查询 Qlat 产生固定大小的上下文令牌 C。
- 将 C 作为前缀条件提供给最终策略,并在 RLVR 下对 θ, ϕ 进行端到端优化,目标函数包含 KL 正则化(GRPO/变体)。
- 通过跟踪跨注意力权重(路由熵)和每个专家的使用 u_i,检查潜在利用动态以研究Emergent Role。
实验结果
研究问题
- RQ1潜在专家状态条件化是否在 RLVR 的性能上超越单模型基线?
- RQ2RLVR 是否在没有显式路由监督的情况下引入结构化、任务相关的专家利用?
- RQ3在何种条件下,隐藏状态协作有利于或有害于跨任务的推理?
主要发现
| Method | Algorithmic | Arithmetic | Logic | GSM8k |
|---|---|---|---|---|
| Single | 51.56±0.55 | 52.34±1.78 | 96.88±1.10 | 64.32±0.92 |
| Hard Routing | 34.18±4.18 | 32.47±5.10 | 63.80±2.39 | 14.52±1.52 |
| Output Collaboration | 51.43±3.41 | 31.19±1.16 | 66.80±0.64 | 67.58±1.03 |
| Ours (w/o Cross Attn) (n = 3) | 51.56±0.64 | 60.16±4.38 | 89.71±2.17 | 63.28±1.03 |
| Ours : Default Team (n = 3) | 51.82±0.49 | 75.26±5.62 | 82.81±1.56 | 61.59±1.25 |
| Ours : Generalist Team (n = 5) | 52.02±2.77 | 65.10±8.49 | 90.23±5.01 | 41.02±29.01 |
- 潜在专家情境在与 RLVR 结合时能提升算术推理的性能,但增益因任务和专家池而异。
- 算法任务对潜在上下文的提升甚微或没有提升,而逻辑推理与 GSM8K 往往由于饱和而出现有限或负向效果。
- RLVR 自身驱动 Emergent、结构化的专家利用,随着训练进行,路由变得更具选择性(路由熵降低与更高奖励相关)。
- 更高容量的专家(如 GPT-OSS)倾向于支配注意力,表明除了潜在功能角色外,还存在基于容量的专家利用偏向。
- 上下文令牌 C 对训练有显著贡献,且适度的潜在瓶颈(m≈8)在表达力与稳定性之间取得平衡。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。