[論文レビュー] $n$-Musketeers: Reinforcement Learning Shapes Collaboration Among Language Models
本論文は、検証可能な報酬(RLVR)下で訓練可能な Perceiver 風のアダプターを介して凍結された複数の小型言語モデル(SLM)を統合するためのソフトな隠れ状態協調を導入し、競争力の推論性能を達成するとともに、エキスパートの役割の新たな出現を明らかにする。
Recent progress in reinforcement learning with verifiable rewards (RLVR) shows that small, specialized language models (SLMs) can exhibit structured reasoning without relying on large monolithic LLMs. We introduce soft hidden-state collaboration, where multiple heterogeneous frozen SLM experts are integrated through their internal representations via a trainable attention interface. Experiments on Reasoning Gym and GSM8K show that this latent integration is competitive with strong single-model RLVR baselines. Ablations further reveal a dual mechanism of expert utilization: for simpler arithmetic domains, performance gains can largely be explained by static expert preferences, whereas more challenging settings induce increasingly concentrated and structured expert attention over training, indicating emergent specialization in how the router connects to relevant experts. Overall, hidden-state collaboration provides a compact mechanism for leveraging frozen experts, while offering an observational window into expert utilization patterns and their evolution under RLVR.
研究の動機と目的
- モノリシックな LLM から凍結された専門の SLM のアンサンブルへ、RLVR 下で推論タスクに適用する動機づけを行う。
- retraining せずに凍結された専門家の hidden states を露出・活用する表現レベルの訓練可能なインターフェースを提案する。
- 潜在的なエキスパート条件付けが特定のタスクで推論を改善し、 RLVR 訓練中に emergent なエキスパート動力学を明らかにすることを示す。
提案手法
- expert-conditioned policy を πθ,ϕ(y | x) = πθ(y | [x ∥ C]) と定義し、文脈トークン C = gϕ(H) を凍結されたエキスパートの表現 H から導出する。
- 凍結されたエキスパートの最終層 hidden states を抽出・揃え、プールして(デフォルトは最後のトークン)、di × d の射影行列 Wi によって共有潜在空間に射影する。
- 整列した表現を Perceiver-風のクロスアテンション・ボトルネックで集約し、学習可能な潜在クエリ Qlat を m 個用いて固定サイズの文脈トークン C を生成する。
- 最終ポリシーへ C をプレフィックス条件付けとして提供し、 KL 正則化目的(GRPO/派生型)で RLVR の下に θ, ϕ をエンドツーエンドで最適化する。
- クロスアテンション重み(ルーティングエントロピー)とエキスパートごとの使用量 u_i を追跡することで潜在利用動態を検査し、 emergent な役割を研究する。
実験結果
リサーチクエスチョン
- RQ1 隠れ状態による潜在エキスパート条件付けは、単一モデルのベースラインを超えて RLVR の性能を改善するか。
- RQ2 RLVR は explicit なルーティング監視なしに、構造化されたタスク依存のエキスパート利用を誘発するか。
- RQ3 潜在状態協調がタスク間で推論を助ける条件と、妨げる条件は何か。
主な発見
| Method | Algorithmic | Arithmetic | Logic | GSM8k |
|---|---|---|---|---|
| Single | 51.56±0.55 | 52.34±1.78 | 96.88±1.10 | 64.32±0.92 |
| Hard Routing | 34.18±4.18 | 32.47±5.10 | 63.80±2.39 | 14.52±1.52 |
| Output Collaboration | 51.43±3.41 | 31.19±1.16 | 66.80±0.64 | 67.58±1.03 |
| Ours (w/o Cross Attn) (n = 3) | 51.56±0.64 | 60.16±4.38 | 89.71±2.17 | 63.28±1.03 |
| Ours : Default Team (n = 3) | 51.82±0.49 | 75.26±5.62 | 82.81±1.56 | 61.59±1.25 |
| Ours : Generalist Team (n = 5) | 52.02±2.77 | 65.10±8.49 | 90.23±5.01 | 41.02±29.01 |
- 潜在エキスパート文脈は RLVR と組み合わせると算術タスクでの性能を改善するが、改善はタスクとエキスパートプールにより変動する。
- アルゴリズム的タスクでは潜在文脈からの改善は小さいか、無効であることが多く、論理や GSM8K では飽和のため限定的または負の影響が見られる。
- RLVR 単独で emergent かつ構造化されたエキスパート利用を促進し、訓練が進むにつれてルーティングがより選択的になり(ルーティングエントロピーの低下は報酬と相関)。
- 高容量エキスパート(例:GPT-OSS)は注意を支配する傾向があり、エキスパート利用における容量に基づくバイアスと潜在的な機能的役割を示唆する。
- 文脈トークン C は入力だけで条件付けるより有意に訓練へ寄与し、中程度の潜在ボトルネック(m ≈ 8)が表現力と安定性のバランスを取る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。