[論文レビュー] Self-Compression of Chain-of-Thought via Multi-Agent Reinforcement Learning
SCMAを導入。Reasoning, Segmentation, Scoring の3役割を jointly 訓練する多エージェント強化学習フレームワークで、テスト時オーバーヘッドなしに連鎖的推論を圧縮し、複数のモデルとデータセットで長さを短縮しつつ精度を向上。
The inference overhead induced by redundant reasoning undermines the interactive experience and severely bottlenecks the deployment of Large Reasoning Models. Existing reinforcement learning (RL)-based solutions tackle this problem by coupling a length penalty with outcome-based rewards. This simplistic reward weighting struggles to reconcile brevity with accuracy, as enforcing brevity may compromise critical reasoning logic. In this work, we address this limitation by proposing a multi-agent RL framework that selectively penalizes redundant chunks, while preserving essential reasoning logic. Our framework, Self-Compression via MARL (SCMA), instantiates redundancy detection and evaluation through two specialized agents: extbf{a Segmentation Agent} for decomposing the reasoning process into logical chunks, and extbf{a Scoring Agent} for quantifying the significance of each chunk. The Segmentation and Scoring agents collaboratively define an importance-weighted length penalty during training, incentivizing extbf{a Reasoning Agent} to prioritize essential logic without introducing inference overhead during deployment. Empirical evaluations across model scales demonstrate that SCMA reduces response length by 11.1\% to 39.0\% while boosting accuracy by 4.33\% to 10.02\%. Furthermore, ablation studies and qualitative analysis validate that the synergistic optimization within the MARL framework fosters emergent behaviors, yielding more powerful LRMs compared to vanilla RL paradigms.
研究の動機と目的
- 大規模推論モデルにおける推論の非効率ボトルネックを、冗長なCoTステップを削減して解消する。
- 正確さを損なわずに推論ブロックを分解・評価・剪定する専門エージェントを持つMARLフレームワークを提案する。
- 重要度ウェイト付きの長さペナルティを共有報酬として導入し、冗長性を選択的に除去する。
- 共同MARL最適化が、モデル規模を問わず短い推論パスと高い精度を生み出すことを示す。
- emergentな細粒度圧縮挙動を分析し、デプロイオーバーヘッドなしの訓練時利得を示す。
提案手法
- SCMAを、Base LLMを共有する3エージェント(Reasoning: yを生成, Segmentation: yをセグメントに分割, Scoring: 各セグメントの重要度w_iを割り当て)として定式化する。
- 素朴な長さペナルティを、重要度ウェイト付き長さペナルティ R(y|x)=R_acc(y|x) - alpha f(sum_i phi(w_i)*|s_i|) に置換する。phi(w_i)は重要度をペナルティ重みに変換する。
- Multi-Agent GRPOを用いて訓練し、パラメータthetaを共有し、共通のグローバル報酬でReasoning, Segmentation, Scoringの方策を共進化させる。
- 各エージェントの構造化観測と行動を定義し、プロンプトP_reason, P_seg, P_score、XML風の制約を用いて適切なフォーマットと協調を保証する。
- 重み付き長さ制約の下での期待精度を最大化することへの等価性を証明し、MARL訓練を安定化させるためのフォーマット報酬を提供する。

実験結果
リサーチクエスチョン
- RQ1RQ1: SCMAは、複数データセットとモデルスケールにおいて、従来の長さペナルティRLベースラインよりも concise かつ正確な推論を達成できるか。
- RQ2RQ2: ペナルティ重み alpha は推論長と精度のトレードオフにどのような影響を与え、SCMAの訓練はどれほど安定か。
- RQ3RQ3: 細粒度圧縮を実現するためには、多-agent協調最適化が必須か、それとも単一エージェントで足りるか。
- RQ4RQ4: SCMA訓練中にどのように細粒度のセグメンテーションとスコアリングが出現し、意味的圧縮を可能にするのか。
主な発見
| Method | GSM8K_Acc | GSM8K_Tokens | MATH500_Acc | MATH500_Tokens | AIME24_Acc | AIME24_Tokens | AIME25_Acc | AIME25_Tokens | AMC23_Acc | AMC23_Tokens | Overall_Acc | Overall_Tokens |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| SCMA (Ours) - Qwen3-8B | 94.99 | 369 | 89.20 | 1999 | 60.00 | 6475 | 43.33 | 7402 | 89.60 | 3599 | 75.42 | 3889 |
- SCMAは、モデル間で推論長を11.1%〜39.0%短縮しつつ、精度を4.33%〜10.02%向上させる。
- SCMAは、Qwen3-8Bのような小型ベースモデルでも高い性能向上を達成し、トークン削減が顕著(例: ある設定で369トークン)、全体精度は高い(例: 全体で75.42)。
- MARL協調訓練はRL+LP法で見られた崩壊を防ぎ、効率と精度の両方でより安定した改善を生む。
- アブレーションにより、 joint最適化を除去したり、より小さな segmentation/scoring モジュールを使用すると性能が低下することが示され、協調学習の価値が強調される。
- 細粒度圧縮の出現の証拠:Step 40時点でセグメンテーションが内容適応的になり、チャンクが意味的に密になり、平均スコアが高く、チャンク数が少なくなる。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。