Skip to main content
QUICK REVIEW

[论文解读] Breaking the Martingale Curse: Multi-Agent Debate via Asymmetric Cognitive Potential Energy

Yuhan Liu, Juntian Zhang|arXiv (Cornell University)|Mar 6, 2026
Topic Modeling被引用 0
一句话总结

AceMAD 引入同侪预测机制,揭示二阶信念,将非对称认知潜能转化为正向漂移,并在多智能体辩论中打破 Martingale Curse,从而在具有挑战性的任务上实现更好的真相恢复。

ABSTRACT

Multi-Agent Debate (MAD) has emerged as a promising paradigm for enhancing large language model reasoning. However, recent work reveals a limitation:standard MAD cannot improve belief correctness beyond majority voting; we refer to this as the Martingale Curse. This curse arises because correlated errors cause agents to converge toward erroneous consensus, where debate merely reinforces collective mistakes rather than filtering noise. We propose AceMAD, a framework that breaks the Martingale Curse by harnessing asymmetric cognitive potential energy to transform MAD from a random walk into a directed convergence process with positive drift. Through a peer-prediction mechanism, agents predict their peers' belief distributions, revealing asymmetric cognitive potential: truth-holders not only know the correct answer but also anticipate the crowd's misconceptions, while the hallucinating majority remains blind to their collective error. This asymmetry creates a potential energy gap that we quantify via strictly proper scoring rules. We prove this cognitive potential manifests as information-theoretic superiority and, under nonlinear aggregation, converts into submartingale drift toward truth, directly breaking the Martingale Curse. Experiments on challenging subsets across six benchmarks show AceMAD recovers sparse truth signals even when initial majorities are incorrect, substantially outperforming baseline methods.

研究动机与目标

  • 在相关误差下,动机化并形式化标准多智能体辩论(MAD)中的 Martingale Curse。
  • 提出 AceMAD,通过非对称认知潜能与同侪预测来改变 MAD 动态。
  • 在信息论与随机漂移方面理论性地证明相对于标准 MAD 的优势。
  • 在多个基准和模型族的具有挑战性子集上对 AceMAD 进行实证验证。

提出的方法

  • 定义标准 MAD 及因相关误差导致错误共识的挑战区间。
  • 引入 AceMAD,包含四阶段协议:论证、信号提取(自我信念与同侪预测)、验证(Brier 评分)与非线性放大(指数权重更新)。
  • 通过二阶信念与 Brier 评分形式化非对称认知潜能。
  • 证明 AceMAD 相对于标准 MAD 的信息理论支配性(Blackwell 定理),以及在较小放大系数 η 下向真相的亚等积过程漂移。
  • 量化非线性放大如何将潜能转化为定向漂移,确保从少数立场向真值收敛。

实验结果

研究问题

  • RQ1在 MAD 中产生非对称认知潜能需要哪些异质性形式?
  • RQ2二阶同侪预测在打破 Martingale Curse 中的作用与必要性是什么?
  • RQ3AceMAD 的放大如何影响收敛动力学以及随着队伍规模的可扩展性?
  • RQ4在不同模型族(闭源与开源)及任务类型(推理、领域知识、幻觉)下,收益是否持续存在?

主要发现

MethodsARC-CLogiQAMMLU-ProTruthfulQAMedQABBHAverage
Majority Voting23.1521.885.5017.9423.2322.0718.96
Decentralized MAD41.6722.196.8833.6323.2344.1428.62
Centralized MAD41.6722.198.7239.5124.1939.6629.32
Sparse MAD43.5222.198.7232.7423.2347.2429.61
AceMAD (T=2)56.4820.008.1037.6739.0372.7639.01
AceMAD (T=3)56.4837.748.7239.9138.3978.2849.92
AceMAD (T=5)59.2620.637.9540.8139.0377.2440.82
  • AceMAD 在挑战性子集上显著超越基线 MAD 与多数投票,平均增益明显(GPT-4o-mini:AceMAD T=3 达到 49.92%,MAD 基线为 22.1%)。
  • 同侪预测与二阶认知至关重要;若缺少同侪预测的消融实验显示性能大幅下降。
  • 非线性放大将认知潜能转化为正向漂移,打破 Martingale Curse(定理 4.6)。
  • 该框架实现 Blackwell 支配,意味着 AceMAD 提供比标准 MAD 更丰富的信息通道(定理 4.2)。
  • 在适度组内规模时效果最佳;随着群体增大,收益趋于边际递减或下降(如实验中的 N≈3–5)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。