Skip to main content
QUICK REVIEW

[论文解读] Why Keep Your Doubts to Yourself? Trading Visual Uncertainties in Multi-Agent Bandit Systems

Jusheng Zhang, Yijia Fan|arXiv (Cornell University)|Jan 26, 2026
Multimodal Machine Learning Applications被引用 0
一句话总结

Agora 将多智能体视觉–语言协同重新构建为一个不确定性市场,交易感知、语义和推理不确定性以达到成本高效的均衡并在强基线之上提升准确性。

ABSTRACT

Vision-Language Models (VLMs) enable powerful multi-agent systems, but scaling them is economically unsustainable: coordinating heterogeneous agents under information asymmetry often spirals costs. Existing paradigms, such as Mixture-of-Agents and knowledge-based routers, rely on heuristic proxies that ignore costs and collapse uncertainty structure, leading to provably suboptimal coordination. We introduce Agora, a framework that reframes coordination as a decentralized market for uncertainty. Agora formalizes epistemic uncertainty into a structured, tradable asset (perceptual, semantic, inferential), and enforces profitability-driven trading among agents based on rational economic rules. A market-aware broker, extending Thompson Sampling, initiates collaboration and guides the system toward cost-efficient equilibria. Experiments on five multimodal benchmarks (MMMU, MMBench, MathVision, InfoVQA, CC-OCR) show that Agora outperforms strong VLMs and heuristic multi-agent strategies, e.g., achieving +8.5% accuracy over the best baseline on MMMU while reducing cost by over 3x. These results establish market-based coordination as a principled and scalable paradigm for building economically viable multi-agent visual intelligence systems.

研究动机与目标

  • 在信息不对称和有限理性条件下,推动基于 Vision–Language Model (VLM) 的多智能体系统在规模化中的经济可行性挑战。
  • 批评基于启发式的协调方法(MoA、基于路由的路由器)对成本和不确定性结构的忽视。
  • 提出 Agora,将认知不确定性货币化为可交易资产,并通过以盈利为驱动的交易来引导协调。
  • 证明基于市场的协调在多样化基准上能够实现成本高效的均衡并提升准确性。

提出的方法

  • 将总不确定性分解为感知、语义和推理三个可交易资产进行处理。
  • 定义以盈利为驱动的交易协议,只有在 ΔC < 0 且接收方有容量时才执行交易(式(Eq. 5))。
  • 引入面向市场的经纪人 Broker,扩展 Thompson 采样以初始化协作并引导交易(式(Eq. 6))。
  • 正式化 Agora 算法,在经纪人驱动的初始化和通过交易进行的迭代贪心成本下降之间交替(算法 1)。
  • 通过一个分类账来量化不确定性转移,该分类账按相关性和成本效益对过去交易加权(式(Eq. 3))。
  • 在五个多模态基准上使用异质代理池进行评估,并与基于路由/MoA 的基准进行比较。
Figure 1: Comparison of heuristic coordination and Agora. Unlike heuristics that rely on flawed proxies, Agora forms a dynamic market for uncertainty, where emergent prices enable coordination.
Figure 1: Comparison of heuristic coordination and Agora. Unlike heuristics that rely on flawed proxies, Agora forms a dynamic market for uncertainty, where emergent prices enable coordination.

实验结果

研究问题

  • RQ1市场驱动机制是否能够在信息不对称下有效协调异质的 VLM 代理?
  • RQ2将认知不确定性视为可交易资产是否能在保持或提升准确性的前提下降低总成本?
  • RQ3面向市场的 MAB 经纪人如何影响初始协作决策及后续交易?
  • RQ4Agora 中代理池多样性与成本节省之间的权衡是什么?
  • RQ5Agora 的组件(战略性不确定性、协同效应、任务匹配、时间衰减)如何共同贡献性能?

主要发现

  • Agora 在 MMMU、MMBench、MathVision、InfoVQA 与 CC-OCR 等基准上实现先进或具有竞争力的结果。
  • 在 MMMU 上,Agora 的准确率达到 79.2%,相比最高基线提升 8.5%。
  • Agora 将成本降低超过 3 倍,并在若干基准上提升了准确性。
  • 基于 MAB 的经纪人结合市场感知效用在准确性与不确定性感知性能分数(UAPS)方面超过 RL 与启发式选择器。
  • 消融研究显示若移除战略性不确定性,性能将严重下降;完整的 Agora 设计可获得最佳准确性、最低最终认识论不确定性与最低 COI(成本机会指数)。
Figure 2: Final epistemic uncertainty of Agora (blue, 0.16) vs. KABB-VLM (orange, 0.21).
Figure 2: Final epistemic uncertainty of Agora (blue, 0.16) vs. KABB-VLM (orange, 0.21).

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。