[論文レビュー] VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining
VTC-Bench は 680 問題のベンチマークを提示し、32 OpenCV-based ツールを用いて多模态 LLMs がマルチツール視覚ワークフローをどれだけ上手に構成できるかを評価します。ツールの多様性と多段階計画の現状のギャップを強調します。
Recent advancements extend Multimodal Large Language Models (MLLMs) beyond standard visual question answering to utilizing external tools for advanced visual tasks. Despite this progress, precisely executing and effectively composing diverse tools for complex tasks remain persistent bottleneck. Constrained by sparse tool-sets and simple tool-use trajectories, existing benchmarks fail to capture complex and diverse tool interactions, falling short in evaluating model performance under practical, real-world conditions. To bridge this gap, we introduce VisualToolChain-Bench(VTC-Bench), a comprehensive benchmark designed to evaluate tool-use proficiency in MLLMs. To align with realistic computer vision pipelines, our framework features 32 diverse OpenCV-based visual operations. This rich tool-set enables extensive combinations, allowing VTC-Bench to rigorously assess multi-tool composition and long-horizon, multi-step plan execution. For precise evaluation, we provide 680 curated problems structured across a nine-category cognitive hierarchy, each with ground-truth execution trajectories. Extensive experiments on 19 leading MLLMs reveal critical limitations in current models' visual agentic capabilities. Specifically, models struggle to adapt to diverse tool-sets and generalize to unseen operations, with the leading model Gemini-3.0-Pro only achieving 51% on our benchmark. Furthermore, multi-tool composition remains a persistent challenge. When facing complex tasks, models struggle to formulate efficient execution plans, relying heavily on a narrow, suboptimal subset of familiar functions rather than selecting the optimal tools. By identifying these fundamental challenges, VTC-Bench establishes a rigorous baseline to guide the development of more generalized visual agentic models.
研究の動機と目的
- 多様な視覚ツールの組み合わせにおけるマルチモーダル大規模言語モデル(MLLM)のツール使用能力を評価する。
- 現実的で多段階の視覚ワークフローの下で、広範な OpenCV ベースのツールセットを用いてベンチマーク性能を測定する。
- 未知のツールへの一般化と多ツールの調整における限界を特定する。
- 一般化された視覚的エージェント型モデルの開発を導く厳格なベースラインを提供する。)
提案手法
- 32 OpenCV-based visual operations を用いた VisualToolChain-Bench(VTC-Bench)を導入する。
- 680 問題を、視覚知覚から構成的推論までの九カテゴリの認知階層に整理する。
- 計画と最終出力を正確に評価するためのグラウンドトゥルース実行軌跡を提供する。
- コードベースとインターフェースベースのツール呼び出しプロトコルの二重評価フレームワークを用いる。
- 19 のリーディング MLLMs を、基礎設定とツール強化設定の双方で、プロプライエタリおよびオープンソースカテゴリにわたり評価する。
- APR(Average Pass Rate)、TCR(Tool Call Rate)、MAE(Mean Absolute Error)、Eff_tool(Tool Usage Efficiency)などの指標を定義する。

実験結果
リサーチクエスチョン
- RQ1現在の MLLMs は多様な OpenCV ツールセット内の未見操作へツール使用を一般化できるか。
- RQ2長期的な視覚タスクにおけるマルチツール構成をモデルはどれほど効果的に実行できるか。
- RQ3ツール呼び出しモダリティ(コード対インターフェース)がモデルカテゴリ間の性能に与える影響は。
- RQ4 intrinsic perception が強いモデルは高次のツール呼び出しと推論をより確実に可能にするか。
- RQ5外部ツールを視覚タスクに活用する際、プロプライエタリモデルとオープンソースモデルの間にどのような体系的ギャップが存在するか。
主な発見
- ツールを用いた場合のトップモデル(例:Gemini-3.0-Pro)は約 51% APR を達成するが、堅牢なエージェント性能にはまだ大きなギャップがある。
- 一般的にプロプライエタリモデルはオープンソースモデルよりも高性能で、ツール強化は閉域モデルに対してより大きな利益をもたらす。
- 基礎スコアはおおむね 22%~46% のレンジで、ツール使用が規模を拡大しても大きな利益に直結しない。
- モデルは主に限られた簡易ツール群(例:crop、zoom、rotate)を再利用しており、OpenCV ツールキットが大きくなってもツール多様性が限定的である。
- 効果的なツール連鎖は APR と相関するが、ツール呼び出し率が高くても計画とツール選択の課題により正確性が必ずしも高くなるとは限らない。
- 内在的知覚力の強さは高度なツール呼び出しの前提条件であり、知覚が堅牢な場合に構成タスクでの利益が大きくなることが示される。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。