QUICK REVIEW

[論文レビュー] The Value of Variance: Mitigating Debate Collapse in Multi-Agent Systems via Uncertainty-Driven Policy Optimization

Luoxi Tang, Meng Yu|arXiv (Cornell University)|Feb 6, 2026

Multi-Agent Systems and Negotiation被引用数 0

ひとこと要約

階層的不確実性指標（系内・系間・システムレベル）を導入してMADディベート崩壊を診断し、不確実性駆動型ポリシー最適化（UDPO）を提案して崩壊を緩和、特に攻撃時の精度と頑健性を向上させる。

ABSTRACT

Multi-agent debate (MAD) systems improve LLM reasoning through iterative deliberation, but remain vulnerable to debate collapse, a failure type where final agent decisions are compromised on erroneous reasoning. Existing methods lack principled mechanisms to detect or prevent such failures. To address this gap, we first propose a hierarchical metric that quantifies behavioral uncertainty at three levels: intra-agent (individual reasoning uncertainty), inter-agent (interactive uncertainty), and system-level (output uncertainty). Empirical analysis across several benchmarks reveals that our proposed uncertainty quantification reliably indicates system failures, which demonstrates the validity of using them as diagnostic metrics to indicate the system failure. Subsequently, we propose a mitigation strategy by formulating an uncertainty-driven policy optimization to penalize self-contradiction, peer conflict, and low-confidence outputs in a dynamic debating environment. Experiments demonstrate that our proposed uncertainty-driven mitigation reliably calibrates the multi-agent system by consistently improving decision accuracy while reducing system disagreement.

研究の動機と目的

MADシステムにおけるディベート崩壊の診断と防止の必要性を動機づける。
不安定なディベートダイナミクスを検出する三レベルの不確実性定量フレームワークを開発する。
MAD中の自己矛盾、仲間対立、低信頼度出力をペナルティするUDPOを提案する。
自然条件下および攻撃時にMADの精度と頑健性を向上させることを示す。
不確実性に基づいてエージェントごとにペナルティを適合させる非対称な最適化アプローチを提供する。

提案手法

自己一貫性の指標として系内エージェントの反転率と信念改変を定義する。
各ディベートラウンドでエージェント対立を対ペアの不一致として定義する。
エントロピー・最終不一致・Leave-One-Out不安定性を用いて系レベルの不確実性を定義する。
これらを3つの不確実性指標U_intra, U_inter, U_sysに集約し、正解性との相関を示す。
不確実性ベースの報酬r_intra, r_inter, r_sysとタスク報酬を組み合わせたUDPOを定式化する。エージェント固有の係数を用いた非対称目的関数を実装する。
学習を安定化させ大きなポリシーシフトを防ぐためのアンカリング項を用いたクリップ付き相対更新目的を使用する。
温暖化的な不確実性プロファイルから決定されるエージェント個別のハイパーパラメータを導入し、必要なトレーニング焦点を割り当てる。

実験結果

リサーチクエスチョン

RQ1階層的な不確実性指標はMADシステムのディベート崩壊を信頼性高く診断できるか？
RQ2自己エージェント、不確実性、系レベルの不確実性は不正確または劣化したMAD結果と相関するか？
RQ3不確実性駆動型ポリシー最適化は頑健性と精度を向上させ、特に対戦型攻撃下でMADを改善するか？
RQ4UDPOは標準MAD、MAPPO、RMAACと比較して精度と不確実性低減の観点でどのように優れるか？
RQ5UDPOは難易度の異なる質問に対してどこで、いつ最大の利得を提供するか？

主な発見

Dataset	N Agents	Standard MAD Acc	Standard MAD U_in	Standard MAD U_ir	Standard MAD U_s	MAPPO Acc	MAPPO U_in	MAPPO U_ir	MAPPO U_s	RMAAC Acc	RMAAC U_in	RMAAC U_ir	RMAAC U_s	UDPO Acc	UDPO U_in	UDPO U_ir	UDPO U_s
GSM8K	3	51.2	.231	.268	.372	64.8	.218	.185	.278	66.3	.205	.172	.258	84.6	.068	.052	.078
GSM8K	5	68.4	.228	.172	.285	73.6	.185	.145	.232	75.8	.168	.132	.215	92.3	.065	.038	.058
GSM8K	10	65.7	.235	.188	.298	70.2	.192	.158	.248	72.1	.175	.145	.228	89.8	.071	.055	.072
TruthfulQA	3	62.4	.225	.178	.275	68.5	.192	.152	.238	70.2	.185	.148	.225	85.2	.072	.058	.082
TruthfulQA	5	71.8	.218	.142	.235	74.2	.158	.122	.198	76.5	.152	.115	.188	88.7	.068	.048	.068
TruthfulQA	10	73.5	.222	.128	.218	76.8	.165	.108	.182	78.2	.158	.102	.172	91.4	.075	.035	.055
CSQA	3	68.2	.205	.162	.258	72.5	.172	.138	.222	74.1	.168	.132	.212	86.8	.062	.048	.072
CSQA	5	75.4	.198	.135	.225	78.2	.148	.112	.188	79.8	.142	.108	.178	91.5	.058	.032	.052
CSQA	10	73.8	.202	.148	.238	76.5	.155	.125	.202	77.2	.148	.118	.192	88.2	.064	.045	.065

不確実性指標は失敗したMAD推論と成功したMAD推論を区別する際に信頼でき、失敗はレベルを超えて不確実性が有意に高い。
三つの不確実性指標はすべて精度と負の相関を示し、不確実性が高いほど性能が低下する。
UDPOは標準MADやベースラインよりも精度を大幅に向上させる（例：GSM8KでN=5のときStandard MADに対して最大25ポイント）。
UDPOは系レベルの不確実性を大幅に低減する（例：GSM8KでStandard MADと比較して約80%の削減）。
不確実性を考慮した非対称最適化は攻撃に対する頑健性を高め、破損エージェント数が増えても高い精度を維持する。
アブレーションにより各損失成分が異なる故障モードを標的にしており、いずれかを除くと精度が低下し不確実性が増加する；系レベル損失が精度に最も大きな影響を与える。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。