Skip to main content
QUICK REVIEW

[論文レビュー] Breaking the Martingale Curse: Multi-Agent Debate via Asymmetric Cognitive Potential Energy

Yuhan Liu, Juntian Zhang|arXiv (Cornell University)|Mar 6, 2026
Topic Modeling被引用数 0
ひとこと要約

AceMADは、第二次信念を明らかにするピア予測メカニズムを導入し、非対称的な認知ポテンシャルエネルギーを正のドリフトに変換し、多機関討論におけるマルタイン呪いを解くことで、難しいタスクでの真実回収を改善する。

ABSTRACT

Multi-Agent Debate (MAD) has emerged as a promising paradigm for enhancing large language model reasoning. However, recent work reveals a limitation:standard MAD cannot improve belief correctness beyond majority voting; we refer to this as the Martingale Curse. This curse arises because correlated errors cause agents to converge toward erroneous consensus, where debate merely reinforces collective mistakes rather than filtering noise. We propose AceMAD, a framework that breaks the Martingale Curse by harnessing asymmetric cognitive potential energy to transform MAD from a random walk into a directed convergence process with positive drift. Through a peer-prediction mechanism, agents predict their peers' belief distributions, revealing asymmetric cognitive potential: truth-holders not only know the correct answer but also anticipate the crowd's misconceptions, while the hallucinating majority remains blind to their collective error. This asymmetry creates a potential energy gap that we quantify via strictly proper scoring rules. We prove this cognitive potential manifests as information-theoretic superiority and, under nonlinear aggregation, converts into submartingale drift toward truth, directly breaking the Martingale Curse. Experiments on challenging subsets across six benchmarks show AceMAD recovers sparse truth signals even when initial majorities are incorrect, substantially outperforming baseline methods.

研究の動機と目的

  • correlated errors の下で標準的 MAD のマルタイン呪いを動機づけ、形式化する。
  • 非対称的認知ポテンシャルエネルギーとピア予測を用いて MAD ダイナミクスを変換する AceMAD を提案する。
  • 標準 MAD に対する情報理論的・確率過程的優位性を理論的に証明する。
  • 複数のベンチマークとモデルファミリーに跨る難易度の高いサブセットで AceMAD を実証的に検証する。

提案手法

  • 標準 MAD と、相関誤差が誤った合意を生む Challenging Interval を定義する。
  • AceMAD を導入し、4段階のプロトコルを採用する:Argumentation、Signal Extraction(自己信念とピア予測)、Verification(Brier スコアリング)、Non-linear Amplification(指数ウェイト更新)。
  • 二次信念と Brier スコアリングを介して非対称的認知ポテンシャルエネルギーを形式化する。
  • AceMAD が標準 MAD を情報理論的に優越させる(Blackwell 定理)、小さな増幅 η の下で真実へ向かうサブマーチングドリフトを示す。
  • 非線形増幅がポテンシャルを指向性ドリフトへ変換し、少数派の立場から地道な真実への収束を保証する。

実験結果

リサーチクエスチョン

  • RQ1 MAD における非対称的認知ポテンシャルエネルギーを生み出す必要な異質性の形は何か?
  • RQ2 マルタイン呪いを打破するための二次的ピア予測の役割と必須性は何か?
  • RQ3 AceMAD の増幅が収束ダイナミクスとチームサイズに対するスケーラビリティにどう影響するのか?
  • RQ4 排他的モデル群(クローズド)とオープンソースのモデルファミリー、推論・領域知識・幻覚などのタスク種別で利得は持続するか?

主な発見

MethodsARC-CLogiQAMMLU-ProTruthfulQAMedQABBHAverage
Majority Voting23.1521.885.5017.9423.2322.0718.96
Decentralized MAD41.6722.196.8833.6323.2344.1428.62
Centralized MAD41.6722.198.7239.5124.1939.6629.32
Sparse MAD43.5222.198.7232.7423.2347.2429.61
AceMAD (T=2)56.4820.008.1037.6739.0372.7639.01
AceMAD (T=3)56.4837.748.7239.9138.3978.2849.92
AceMAD (T=5)59.2620.637.9540.8139.0377.2440.82
  • AceMAD は難易度の高いサブセットでベースライン MAD とマジョリティ投票を大幅に上回り、平均的な利得を示す(GPT-4o-mini: AceMAD T=3 は 49.92%、MAD ベースラインは 22.1%)。
  • ピア予測と二次認知は必須であり、アブレーション実験でピア予測がないと大幅なパフォーマンス低下を示す。
  • 非線形増幅が認知ポテンシャルエネルギーを正のドリフトに変換し、マルタイン呪いを打破する(定理 4.6)。
  • Blackwell 支配性を達成し、AceMAD が標準 MAD より豊かな情報チャネルを提供する(定理 4.2)。
  • スケーリングは一定の範囲まで効果的で、実験では適度なグループサイズ(例:N≈3–5)で最適なパフォーマンスを示し、それ以上の大規模での利益は減衰または劣化する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。