QUICK REVIEW

[论文解读] RUMAD: Reinforcement-Unifying Multi-Agent Debate

Chao Wang, Han Lin|arXiv (Cornell University)|Feb 27, 2026

Reinforcement Learning in Robotics被引用 2

一句话总结

简报：RUMAD 在辩论中训练强化学习控制器，以动态裁剪并调整多位大模型代理之间的通信权重，在显著降低代币成本的同时实现强准确性，并具备良好的零-shot 泛化能力。

ABSTRACT

Multi-agent debate (MAD) systems leverage collective intelligence to enhance reasoning capabilities, yet existing approaches struggle to simultaneously optimize accuracy, consensus formation, and computational efficiency. Static topology methods lack adaptability to task complexity variations, while external LLM-based coordination risks introducing privileged knowledge that compromises debate neutrality. This work presents RUMAD (Reinforcement-Unifying Multi-Agent Debate), a novel framework that formulates dynamic communication topology control in MAD as a reinforcement learning (RL) problem. RUMAD employs a content-agnostic observation scheme that captures high-level debate dynamics avoiding access to raw agent reasoning content. RUMAD uses a multi-objective reward to model solution quality, cohesion and efficiency. A PPO-trained controller dynamically adjusts edge weights in the communication graph, while a dual-threshold mechanism enables fine-grained control over both agent activation and information visibility. Experimental evaluation across MMLU, GSM8K, and GPQA benchmarks demonstrates that RUMAD achieves substantial efficiency gains, reducing token costs by over 80\%, while still improving reasoning accuracy compared to single LLM model and multiple MAD baselines. Notably, RUMAD trained exclusively on MMLU exhibits robust zero-shot generalization to out-of-domain (OOD) tasks, indicating that the learned communication strategies capture task-independent principles of effective multi-agent coordination. These results establish RUMAD as a efficient and robust approach for deploying multi-agent reasoning application with practical resource constraints.

研究动机与目标

在多代理辩论（MAD）系统中，推动准确性、共识与计算效率之间的改进权衡。
开发一个内容无关的、基于 RL 的拓扑控制器，在不获取特权内容的前提下自适应通信模式。
引入多目标奖励和预算机制，以平衡性能与代币使用。
在标准基准上展示显著的效率提升和跨领域泛化能力。

提出的方法

将 MAD 建模为一个动态加权有向图；训练 PPO 控制器以调整边权。
使用基于代理间相似性和一致性的、与内容无关的观测方案，而不访问原始推理内容。
将边权表示为通过 sigmoid 传递的随机高斯参数，以实现 0-1 的权重。
引入代理激活与信息可见性的双阈值机制，以控制代币成本。
通过预算损失和全局预算参数 B 对稀疏性与代币使用进行软预算正则化。
采用两层奖励：每轮 R_t 与终局奖励 R_ep，平衡即时收益与情节级目标。

实验结果

研究问题

RQ1与静态或全连接基线相比，基于 RL 的拓扑控制是否能改善 MAD 的准确性-效率权衡？
RQ2在零-shot 设置下，内容无关的控制器是否能在跨任务与领域上实现泛化？
RQ3通过显式对通信进行预算（通过 B）对性能与资源使用有何影响？
RQ4各组成部分（代理激活、预算正则化、两层奖励）对整体性能的贡献是什么？

主要发现

RUMAD 在保持或提升准确性的同时，大幅降低代币成本（在 MMLU 上下降至 81.7%，在 GPQA 上下降至 66%）与基线相比。
在 MMLU 上，RUMAD B=12 的准确率达到 68%，每任务 11.43k 代币（与 MAD 的 49% 准确率和 62.58k 代币相比）。
RUMAD 在 GSM8K 上在 B=12 时达到 86% 的准确率，每任务 10.46k 代币，显著低于如 GD（76.90k 代币）等基线。
在 MMLU 训练的 RUMAD 能零-shot 一般化到 GPQA 和 GSM8K，且表现相近，展示了任务无关的协调原则。
消融研究表明，去除代理激活、预算损失或多目标奖励会降低性能与效率，凸显其关键作用。
预算参数 B 作为可调先验，用以在效率与准确性之间取得平衡，能够在不牺牲跨域表现的前提下实现有效稀疏化。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。