Skip to main content
QUICK REVIEW

[論文レビュー] Epistemic Filtering and Collective Hallucination: A Jury Theorem for Confidence-Calibrated Agents

Jonas Karge|arXiv (Cornell University)|Feb 25, 2026
Mobile Crowdsensing and Crowdsourcing被引用数 0
ひとこと要約

要旨: 本論文は、エージェントが自信をキャリブレーションし、投票を選択的に辞退する逐次的な認識的フィルタリングの枠組みを導入する。Condorcet Jury Theoremを自信閾値でゲートします、異質な有権者に一般化し、非漸近境界を提供し、モンテカルロ検証とAI安全性への影響を示す。

ABSTRACT

We investigate the collective accuracy of heterogeneous agents who learn to estimate their own reliability over time and selectively abstain from voting. While classical epistemic voting results, such as the extit{Condorcet Jury Theorem} (CJT), assume fixed participation, real-world aggregation often benefits from allowing agents to say ``I don't know.'' We propose a probabilistic framework where agents engage in a extit{calibration} phase, updating beliefs about their own fixed competence, before facing a final confidence gate that determines whether to vote or abstain. We derive a non-asymptotic lower bound on the group's success probability and prove that this extit{selective participation} generalizes the asymptotic guarantees of the CJT to a sequential, confidence-gated setting. Empirically, we validate these bounds via Monte Carlo simulations. While our results are general, we discuss their potential application to AI safety, outlining how this framework can mitigate extit{hallucinations} in collective LLM decision-making.

研究の動機と目的

  • calibration フェーズを通じて自分の適性を学ぶ異質なエージェントによる集合的意思決定を動機づけ、形式化する。
  • Condorcet Jury Theoremを逐次的、信頼度ゲート付き設定へ拡張し、辞退を導入する。
  • 選択参加を選択的に行う場合に正解のオプションが勝つ確率の非漸近的な下界を導出する。
  • 理論的境界のモンテカルロ検証を提供し、AI安全性と集合的LLM決定における誤 hallucination の軽減への関連性を議論する。

提案手法

  • 2つの選択肢を持つ二項投票問題をモデル化し、校正済みエージェント集合で最終集計を行う。
  • 各エージェントの真の信頼性p_iをBeta分布の信念Psi_{i,t}で表現し、Bernoulliフィードバックを介してBetaパラメータを更新する。
  • 信頼度C_{i,t}をP(Psi_{i,t} > p_critical,i)として定義し、閾値tau_abstain,iで辞退ゲートを設定する。
  • 校正フェーズ(t < T)と最終意思決定ラウンド(t = T)を用い、辞退なしの投票のみをカウントする。
  • E[V_{i,T}]を(2p_i - 1) P(C_{i,T} > tau_abstain,i)として計算し、辞退確率を正規化された不完全Beta関数を用いて表現する。
  • イベントベースの濾過を含むDoob分解に基づくDoobマルチンゲールM_kを構築し、Azuma-Hoeffdingの濃度境界を適用する。
  • 正解の代替案が勝つ確率の非漸近的下界を提供し、モンテカルロシミュレーションで検証する。

実験結果

リサーチクエスチョン

  • RQ1信頼度キャリブレーション辞退機構は逐次的で異質なエージェント設定においてCJTの保証を保持または拡張できるか。
  • RQ2選択的参加の下で正しく識別された代替案が勝つ確率の非漸近的境界は何か。
  • RQ3エージェントが校正済みの信頼度に基づいて辞退する際、学習・校正プロセスは最終投票性能にどう影響するか。
  • RQ4多エージェント・逐次的フレームワークで、データの期待値から最終投票の偏差を界定するためにマルチンゲールの濃度不等式をどう適用できるか。

主な発見

  • 校正と辞退を伴う逐次モデルは、信頼度ゲート付き有権者へのCJT保証を一般化する。
  • 正解多数決の非漸近的下界が導出される。
  • 最終的な総計投票は、各エージェントの信頼性、投票確率、および辞退閾値に依存する。
  • 過去のフィードバックが将来の参加確率をどう形成するかをBeta-Binomial更新で捉える。
  • Azuma-Hoeffdingに基づく濃度境界を用いて、最終投票が平均からどれだけ逸脱するかを境界づける。
  • 理論的境界のモンテカルロ simulations は検証され、集合的LLM意思決定における誤 hallucinationの緩和への潜在的関連を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。