Skip to main content
QUICK REVIEW

[论文解读] Epistemic Filtering and Collective Hallucination: A Jury Theorem for Confidence-Calibrated Agents

Jonas Karge|arXiv (Cornell University)|Feb 25, 2026
Mobile Crowdsensing and Crowdsourcing被引用 0
一句话总结

该论文提出一个顺序的知识性过滤框架,其中代理校准其信心并有选择地放弃投票。它将 Condorcet 陪审团定理推广到一个信心门控的异质选 electorate,并提供非渐近界限,带有蒙特卡罗验证和AI安全含义。

ABSTRACT

We investigate the collective accuracy of heterogeneous agents who learn to estimate their own reliability over time and selectively abstain from voting. While classical epistemic voting results, such as the extit{Condorcet Jury Theorem} (CJT), assume fixed participation, real-world aggregation often benefits from allowing agents to say ``I don't know.'' We propose a probabilistic framework where agents engage in a extit{calibration} phase, updating beliefs about their own fixed competence, before facing a final confidence gate that determines whether to vote or abstain. We derive a non-asymptotic lower bound on the group's success probability and prove that this extit{selective participation} generalizes the asymptotic guarantees of the CJT to a sequential, confidence-gated setting. Empirically, we validate these bounds via Monte Carlo simulations. While our results are general, we discuss their potential application to AI safety, outlining how this framework can mitigate extit{hallucinations} in collective LLM decision-making.

研究动机与目标

  • 通过一个校准阶段让代理学习自身能力,动机与形式化集体决策。
  • 将 Condorcet 陪审团定理扩展到一个顺序、信心门控的设定并包含放弃。
  • 在有选择参与的情况下,推导对正确选项胜出的非渐近下界。
  • 提供理论界限的蒙特卡罗验证,并讨论其在 AI 安全与减少集体 LLM 决策中幻觉的相关性。

提出的方法

  • 对一个含两个备选项的二元投票问题建模,并在已校准的代理子集中进行最终聚合。
  • 用 Beta 分布的 Psi_{i,t} 表示每个代理的真实可靠性 p_i,并通过伯努利反馈更新 Beta 参数。
  • 将置信度 C_{i,t} 定义为 P(Psi_{i,t} > p_critical,i),并设定放弃门槛 tau_abstain,i。
  • 使用一个校准阶段(t < T)和一个最终决策轮(t = T),仅计入未放弃投票。
  • 将 E[V_{i,T}] 表示为 (2p_i - 1) P(C_{i,T} > tau_abstain,i),并通过正规化不完全 Beta 函数表达放弃概率。
  • 基于 Doob 分解构建基于事件 filtrations 的 Doob 水平鞘过程 Doob martingale M_k,以应用 Azuma-Hoeffding 稳定性界限。
  • 给出关于正确备选项胜出的非渐近下界,并通过蒙特卡罗仿真进行验证。

实验结果

研究问题

  • RQ1一个带有信心校准的放弃机制在顺序的异质代理设置中是否能保持或扩展 CJT 的保证?
  • RQ2在有选择参与的情况下,正确识别的备选项胜出的概率的非渐近界限是什么?
  • RQ3当基于已校准的信心而让代理放弃时,学习/校准过程如何影响最终投票表现?
  • RQ4如何将鞅稳定性不等式应用于在多代理、顺序框架中对最终投票相对于其期望的偏差进行界定?

主要发现

  • 一个带有校准与放弃的顺序模型将 CJT 的保证推广到一个信心门控的选民群体。
  • 推导出正确多数票概率的非渐近下界。
  • 最终汇总投票取决于每个代理的可靠性、投票概率以及他们的放弃阈值。
  • Beta-Binomial 更新捕捉过去反馈如何影响未来参与概率。
  • 基于 Azuma-Hoeffding 的稳定性界限用来界定最终投票相对于其均值的偏差。
  • 蒙特卡罗仿真验证了理论界限,并展示在缓解集体 LLM 决策中的幻觉方面的潜在相关性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。