[논문 리뷰] Epistemic Filtering and Collective Hallucination: A Jury Theorem for Confidence-Calibrated Agents
본 논문은 에이전트가 자신감을 보정하고 투표에서 선택적으로 기권하는 순차적 인식-필터링 프레임워크를 소개한다. 이는 신념 게이트가 적용된 이질적 유권자에 대해 Condorcet Jury Theorem을 일반화하고 비점근적 경계를 제공하며 몬테카를로 검증과 AI 안전 시사점을 제시한다.
We investigate the collective accuracy of heterogeneous agents who learn to estimate their own reliability over time and selectively abstain from voting. While classical epistemic voting results, such as the extit{Condorcet Jury Theorem} (CJT), assume fixed participation, real-world aggregation often benefits from allowing agents to say ``I don't know.'' We propose a probabilistic framework where agents engage in a extit{calibration} phase, updating beliefs about their own fixed competence, before facing a final confidence gate that determines whether to vote or abstain. We derive a non-asymptotic lower bound on the group's success probability and prove that this extit{selective participation} generalizes the asymptotic guarantees of the CJT to a sequential, confidence-gated setting. Empirically, we validate these bounds via Monte Carlo simulations. While our results are general, we discuss their potential application to AI safety, outlining how this framework can mitigate extit{hallucinations} in collective LLM decision-making.
연구 동기 및 목표
- 다양한 역량을 학습하는 이질적 에이전트들의 보정 단계를 통해 집단 의사결정을 동기화하고 formalize한다.
- Condorcet Jury Theorem을 순차적, 신뢰도 게이트 설정에서 기권과 함께 확장한다.
- 선택적 참여하에 올바른 선택지가 이기는 확률에 대한 비점근적 하한을 도출한다.
- 이론적 경계의 몬테카를로 검증을 제공하고 AI 안전 및 집단 LLM 의사결정에서의 시사점을 논의한다.
제안 방법
- 두 가지 대안에 대한 이진 투표 문제를 모델링하고 보정된 에이전트 부분집합에서 최종 집계를 수행한다.
- 각 에이전트의 실제 신뢰도 p_i를 Beta 분포의 신념 Psi_{i,t}로 표현하고 베르누이 피드백을 통해 베타 매개변수를 업데이트한다.
- 신뢰도 C_{i,t}를 P(Psi_{i,t} > p_critical,i)로 정의하고 임계값 tau_abstain,i의 기권 게이트를 설정한다.
- 보정 단계(t < T)와 최종 의사결정 라운드(t = T)를 사용하여 기권 없이 투표한 경우에만 집계한다.
- E[V_{i,T}]를 (2p_i - 1) P(C_{i,T} > tau_abstain,i)로 계산하고 기권 확률을 정규화된 불완전 베타 함수로 표현한다.
- 도브 분해를 기반으로 이벤트 기반 여과를 사용한 Doob 마르디게를 구성하여 Azuma-Hoeffding 집중 경계를 적용한다.
- 선택적 참여하에서 올바른 대안이 이길 확률에 대한 비점근적 하한을 제공하고 몬테카를로 시뮬레이션으로 검증한다.
실험 결과
연구 질문
- RQ1신뢰도 보정 기권 메커니즘이 순차적이고 이질적인 에이전트 환경에서 CJT 보장을 유지하거나 확장할 수 있는가?
- RQ2선택적 참여 하에서 올바르게 식별된 대안이 이길 확률에 대한 비점근적 경계는 무엇인가?
- RQ3에이전트가 보정된 신뢰도에 따라 기권하는 경우 학습/보정 과정이 최종 투표 성능에 어떤 영향을 미치는가?
- RQ4다에이전트 순차 프레임워크에서 최종 투표의 기대값으로부터의 편차를 마르틴게 집중 불평등을 적용해 어떻게 경계할 수 있는가?
주요 결과
- 보정과 기권을 포함한 순차적 모델은 신뢰도 게이트화된 유권자에게 CJT 보장을 일반화한다.
- 정확한 다수결의 비점근적 하한이 도출된다.
- 최종 집계 투표는 각 에이전트의 신뢰도, 투표 확률, 기권 임계값에 의존한다.
- 과거 피드백이 미래 참여 확률을 어떻게 형성하는지 Beta-Binomial 업데이트로 포착한다.
- Azuma-Hoeffding 기반의 집중 경계를 사용하여 최종 투표의 평균으로부터의 편차를 경계한다.
- 몬테카를로 시뮬레이션이 이론적 경계를 검증하고 집단 LLM 의사결정에서의 환각 완화 가능성과의 시사점을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.