QUICK REVIEW

[論文レビュー] RUMAD: Reinforcement-Unifying Multi-Agent Debate

Chao Wang, Han Lin|arXiv (Cornell University)|Feb 27, 2026

Reinforcement Learning in Robotics被引用数 2

ひとこと要約

RUMADは対話型デベートにおいて複数のLLMエージェント間の通信を動的に剪定・重み付けする強化学習コントローラを学習させ、トークンコストを大幅に削減しつつ高い精度と優れたゼロショット一般化を実現します。

ABSTRACT

Multi-agent debate (MAD) systems leverage collective intelligence to enhance reasoning capabilities, yet existing approaches struggle to simultaneously optimize accuracy, consensus formation, and computational efficiency. Static topology methods lack adaptability to task complexity variations, while external LLM-based coordination risks introducing privileged knowledge that compromises debate neutrality. This work presents RUMAD (Reinforcement-Unifying Multi-Agent Debate), a novel framework that formulates dynamic communication topology control in MAD as a reinforcement learning (RL) problem. RUMAD employs a content-agnostic observation scheme that captures high-level debate dynamics avoiding access to raw agent reasoning content. RUMAD uses a multi-objective reward to model solution quality, cohesion and efficiency. A PPO-trained controller dynamically adjusts edge weights in the communication graph, while a dual-threshold mechanism enables fine-grained control over both agent activation and information visibility. Experimental evaluation across MMLU, GSM8K, and GPQA benchmarks demonstrates that RUMAD achieves substantial efficiency gains, reducing token costs by over 80\%, while still improving reasoning accuracy compared to single LLM model and multiple MAD baselines. Notably, RUMAD trained exclusively on MMLU exhibits robust zero-shot generalization to out-of-domain (OOD) tasks, indicating that the learned communication strategies capture task-independent principles of effective multi-agent coordination. These results establish RUMAD as a efficient and robust approach for deploying multi-agent reasoning application with practical resource constraints.

研究の動機と目的

MAD システム（多エージェントデベート）における精度、合意、計算効率のトレードオフ改善を動機づける。
特権的なコンテンツアクセスなしに適応するコンテンツ非依存のRLベースのトポロジーコントローラを開発する。
パフォーマンスとトークン使用量のバランスを取る多目的報酬と予算機構を導入する。
標準ベンチマークで強力な効率向上とドメイン横断の一般化を示す。

提案手法

MADを動的ウェ weighted 有向グラフとしてモデル化し、エッジ重みを調整するPPOコントローラを訓練する。
生の推論内容にアクセスせず、エージェント間の類似性と合意に基づくコンテンツ非依存の観測スキームを使用する。
エッジ重みを確率的ガウスパラメータとして表現し、シグモイドを通して0-1の重みを確保する。
トークンコストを制御するためにエージェント活性化と情報可視性の二重閾値機構を組み込む。
予算損失とグローバル予算パラメータBによってソフトな予算を課し、スパース性とトークン使用を正則化する。
二層の報酬を採用する：1ラウンドごとのR_tとエピソード終端のR_epを組み合わせ、即時の利益とエピソードレベルの目的をバランスさせる。

実験結果

リサーチクエスチョン

RQ1RLベースのトポロジー制御は静的または完全連結ベースのベースラインと比較して、MADの精度-効率トレードオフを改善できるか。
RQ2コンテンツ非依存のコントローラはゼロショット設定でタスクとドメイン横断の一般化が可能か。
RQ3通信の明示的な予算付け（B）は性能と資源使用にどう影響するか。
RQ4エージェント活性化、予算正則化、二層報酬の各成分が全体性能にどの程度寄与するか。

主な発見

タスク	方法	ACC	トークンコスト（k/タスク）	コスト削減
MMLU	RUMAD B=12	68%	11.43	-81.74%
MMLU	RUMAD B=18	68%	22.46	-64.11%
MMLU	MAD	49%	62.58	N/A
MMLU	S-MAD *	61%	33.32	-46.75%
MMLU	S-MAD ∘	54%	31.70	-49.34%
MMLU	GD	53%	32.17	-48.59%
MMLU	S 2 MAD	46%	25.36	-58.48%
GPQA	RUMAD B=12	32%	19.53	-66.21%
GPQA	RUMAD B=18	35%	33.39	-42.24%
GPQA	MAD	30%	57.80	N/A
GPQA	S-MAD *	30%	36.37	-37.08%
GPQA	S-MAD ∘	34%	38.59	-33.24%
GPQA	GD	34%	26.05	-54.93%
GPQA	S 2 MAD	28%	23.26	-59.76%
GSM8K	RUMAD B=12	86%	10.46	-86.40%
GSM8K	RUMAD B=18	89%	17.28	-77.53%
GSM8K	MAD	88%	76.90	N/A
GSM8K	S-MAD *	83%	39.38	-48.78%
GSM8K	S-MAD ∘	70%	37.82	-50.81%
GSM8K	GD	84%	29.76	-61.30%
GSM8K	S 2 MAD	70%	30.51	-60.32%

RUMADはトークンコストを大幅に削減し（MMLUで最大81.7%、GPQAで66%の削減）、ベースラインと比較して精度を維持または向上。
MMLUではB=12のRUMADが68%の精度と1タスクあたり11.43kトークン（MADは49%精度、62.58kトークン）を達成。
GSM8KではB=12で86%の精度、1タスクあたり10.46kトークンで、GDなどのベースライン（例: 76.90kトークン）より圧倒的に安価。
RUMADはMMLUでの訓練済みモデルがGPQAおよびGSM8Kにゼロショット一般化し、タスクに依存しない協調原理を示す。
アブレーション研究では、エージェント活性化、予算損失、または多目的報酬を削除すると性能と効率が低下し、それらの本質的役割が強調される。
予算パラメータBは効率と精度のバランスをとるチューニング可能な先行情報として機能し、ドメイン横断パフォーマンスを犠牲にすることなく効果的なスパース化を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。