[论文解读] VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining
VTC-Bench 提供了一个包含 680 个问题的基准测试,使用 32 个基于 OpenCV 的工具来评估多模态大语言模型在组合多工具视觉工作流方面的能力,同时揭示当前在工具多样性和多步规划方面的不足。
Recent advancements extend Multimodal Large Language Models (MLLMs) beyond standard visual question answering to utilizing external tools for advanced visual tasks. Despite this progress, precisely executing and effectively composing diverse tools for complex tasks remain persistent bottleneck. Constrained by sparse tool-sets and simple tool-use trajectories, existing benchmarks fail to capture complex and diverse tool interactions, falling short in evaluating model performance under practical, real-world conditions. To bridge this gap, we introduce VisualToolChain-Bench(VTC-Bench), a comprehensive benchmark designed to evaluate tool-use proficiency in MLLMs. To align with realistic computer vision pipelines, our framework features 32 diverse OpenCV-based visual operations. This rich tool-set enables extensive combinations, allowing VTC-Bench to rigorously assess multi-tool composition and long-horizon, multi-step plan execution. For precise evaluation, we provide 680 curated problems structured across a nine-category cognitive hierarchy, each with ground-truth execution trajectories. Extensive experiments on 19 leading MLLMs reveal critical limitations in current models' visual agentic capabilities. Specifically, models struggle to adapt to diverse tool-sets and generalize to unseen operations, with the leading model Gemini-3.0-Pro only achieving 51% on our benchmark. Furthermore, multi-tool composition remains a persistent challenge. When facing complex tasks, models struggle to formulate efficient execution plans, relying heavily on a narrow, suboptimal subset of familiar functions rather than selecting the optimal tools. By identifying these fundamental challenges, VTC-Bench establishes a rigorous baseline to guide the development of more generalized visual agentic models.
研究动机与目标
- 评估多模态大语言模型(MLLMs)在组合多样化视觉工具时的工具使用能力。
- 在现实、分步的视觉工作流中,使用广泛的基于 OpenCV 的工具集对性能进行基准评测。
- 识别对未见工具的一般化能力以及多工具编排的局限性。
- 提供一个严格的基线,以指导通用视觉代理模型的发展。
提出的方法
- 引入 VisualToolChain-Bench (VTC-Bench) 及 32 种基于 OpenCV 的视觉操作。
- 将 680 个问题组织成覆盖从视觉感知到组合推理的九类认知层级。
- 提供真实执行轨迹以便对规划和最终输出进行精确评估。
- 使用双重评估框架,包含基于代码的和基于界面的工具调用协议。
- 在基地和工具增强设置下,对 19 种领先的 MLLMs(涵盖专有与开源类别)进行评估。
- 定义评估指标,包括 Average Pass Rate (APR)、Tool Call Rate (TCR)、Mean Absolute Error (MAE) 和 Tool Usage Efficiency (Eff_tool)。

实验结果
研究问题
- RQ1当前的 MLLMs 能否将工具用法推广到多样化的 OpenCV 工具集中的未见操作?
- RQ2模型在长程视觉任务中对多工具组合的执行效果如何?
- RQ3工具调用模式(代码 vs 界面)对不同模型类别的性能有何影响?
- RQ4具备更强内在感知能力的模型是否更易实现高级工具调用与推理?
- RQ5专有模型与开源模型在利用外部工具执行视觉任务方面存在哪些系统性差距?
主要发现
- 性能最佳的模型(如 Gemini-3.0-Pro)在有工具时的 APR 约为 51%,这表明通用代理能力仍有较大差距。
- 专有模型通常优于开源模型,工具增强对闭源模型的提升更大。
- 在不同层级上存在性能天花板,基地分数大致在 22%–46% 之间,使用工具并不保证在更大规模下获得显著提升。
- 模型主要复用一小组简单工具(如裁剪、缩放、旋转),尽管 OpenCV 工具箱规模较大,但工具多样性受限。
- 有效的工具串联与 APR 相关,但较高的 Tool Call Rate 未必总能带来高准确性,因为仍存在规划与工具选择的挑战。
- 内在感知能力强是实现高级工具调用的前提,因为当感知能力稳固时,在组合任务中的收益更大。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。