Skip to main content
QUICK REVIEW

[논문 리뷰] Why Keep Your Doubts to Yourself? Trading Visual Uncertainties in Multi-Agent Bandit Systems

Jusheng Zhang, Yijia Fan|arXiv (Cornell University)|2026. 01. 26.
Multimodal Machine Learning Applications인용 수 0
한 줄 요약

Agora는 다에이전트 비전–언어 협력을 불확실성에 대한 분산된 시장으로 재구성하고, 지각적, 의미적, 추론적 불확실성을 거래하여 비용 효율적인 균형에 도달하고 강력한 기준선보다 정확도를 개선합니다.

ABSTRACT

Vision-Language Models (VLMs) enable powerful multi-agent systems, but scaling them is economically unsustainable: coordinating heterogeneous agents under information asymmetry often spirals costs. Existing paradigms, such as Mixture-of-Agents and knowledge-based routers, rely on heuristic proxies that ignore costs and collapse uncertainty structure, leading to provably suboptimal coordination. We introduce Agora, a framework that reframes coordination as a decentralized market for uncertainty. Agora formalizes epistemic uncertainty into a structured, tradable asset (perceptual, semantic, inferential), and enforces profitability-driven trading among agents based on rational economic rules. A market-aware broker, extending Thompson Sampling, initiates collaboration and guides the system toward cost-efficient equilibria. Experiments on five multimodal benchmarks (MMMU, MMBench, MathVision, InfoVQA, CC-OCR) show that Agora outperforms strong VLMs and heuristic multi-agent strategies, e.g., achieving +8.5% accuracy over the best baseline on MMMU while reducing cost by over 3x. These results establish market-based coordination as a principled and scalable paradigm for building economically viable multi-agent visual intelligence systems.

연구 동기 및 목표

  • 정보 비대칭성과 제한된 합리성 하에서 비전–언어 모델(VLM) 기반 다에이전트 시스템의 확장 가능성에 대한 경제적 타당성 문제를 자극한다.
  • 비용 및 불확실성 구조를 무시하는 휴리스틱 협력 방법(MoA, 라우팅 기반 라우터)을 비판한다.
  • 인지적 불확실성을 거래 가능한 자산으로 수익성 기반의 거래를 통해 협력을 유도하는 Agora를 제안한다.
  • 시장 기반 협력이 비용 효율적인 균형과 다양한 벤치마크에서 우수한 정확도를 창출함을 입증한다.

제안 방법

  • 총 불확실성을 지각적, 의미적, 추론적 구성요소로 분해하고 이를 거래 자산으로 취급한다.
  • ΔC < 0이고 수신자가 용량을 가질 때에만 거래를 실행하는 수익성 기반 거래 프로토콜(Eq. 5)을 정의한다.
  • 협업 초기화를 확장하고 거래를 안내하는 시장 인지형 중개인(Broker)을 도입한다( Eq. 6 ).
  • 브로커 주도 초기화와 거래를 통한 점진적 탐욕적 비용 하강을 번갈아 수행하는 Agora 알고리즘(Algorithm 1)을 형식화한다.
  • 과거 거래의 관련성과 비용 효율성을 가중치로 반영하는 원장을 통해 불확실성 전달을 정량화한다(Eq. 3).
  • 다섯 개의 다중 모달 벤치마크에서 이질적 에이전트 풀을 사용하고 라우팅/MoA 베이스라인과 비교한다.
Figure 1: Comparison of heuristic coordination and Agora. Unlike heuristics that rely on flawed proxies, Agora forms a dynamic market for uncertainty, where emergent prices enable coordination.
Figure 1: Comparison of heuristic coordination and Agora. Unlike heuristics that rely on flawed proxies, Agora forms a dynamic market for uncertainty, where emergent prices enable coordination.

실험 결과

연구 질문

  • RQ1정보 비대칭 하에서 이질적인 VLM 에이전트를 효과적으로 조정하는 시장 기반 메커니즘이 가능한가?
  • RQ2인지적 불확실성을 거래 가능한 자산으로 다루는 것이 전체 비용을 감소시키면서 정확도를 유지하거나 향상시키는가?
  • RQ3시장 인지형 MAB 브로커가 초기 협력 결정 및 이후 거래에 어떤 영향을 미치는가?
  • RQ4Agora에서 에이전트 풀의 다양성과 비용 절감 간의 트레이드오프는 무엇인가?
  • RQ5전략적 불확실성, 시너지, 작업 적합성, 시간 쇄락 등 Agora의 구성요소가 성능에 어떻게 기여하는가?

주요 결과

  • Agora는 MMMU, MMBench, MathVision, InfoVQA, CC-OCR 등 벤치마크에서 최첨단 또는 경쟁력 있는 성능을 달성한다.
  • MMMU에서 Agora는 정확도 79.2%를 달성하여 최상위 벤치마크 대비 8.5%의 상승을 기록했다.
  • Agora는 여러 벤치마크에서 비용을 3배 이상 절감하면서 정확도를 향상시킨다.
  • 시장 인지형 유틸리티를 갖춘 MAB 기반 브로커가 RL 및 휴리스틱 셀렉터에 비해 최고 정확도와 불확실성 인식 성능 점수(UAPS)를 보인다.
  • 구조적 불확실성 제거를 시도한 경우 성능이 크게 악화되며, 전체 Agora 설계가 최고의 정확도와 최저 최종 인식 불확실성 및 COI를 제공합니다.
Figure 2: Final epistemic uncertainty of Agora (blue, 0.16) vs. KABB-VLM (orange, 0.21).
Figure 2: Final epistemic uncertainty of Agora (blue, 0.16) vs. KABB-VLM (orange, 0.21).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.