[論文レビュー] Beyond Accuracy: Evaluating Grounded Visual Evidence in Thinking with Images
ViEBenchは、Vision-Language Modelsの視覚的基盤と多段階推論を検証するプロセス検証型のベンチマークであり、精度だけでは捉えられない grounding と reasoning のボトルネックを明らかにします。
Despite the remarkable progress of Vision-Language Models (VLMs) in adopting "Thinking-with-Images" capabilities, accurately evaluating the authenticity of their reasoning process remains a critical challenge. Existing benchmarks mainly rely on outcome-oriented accuracy, lacking the capability to assess whether models can accurately leverage fine-grained visual cues for multi-step reasoning. To address these limitations, we propose ViEBench, a process-verifiable benchmark designed to evaluate faithful visual reasoning. Comprising 200 multi-scenario high-resolution images with expert-annotated visual evidence, ViEBench uniquely categorizes tasks by difficulty into perception and reasoning dimensions, where reasoning tasks require utilizing localized visual details with prior knowledge. To establish comprehensive evaluation criteria, we introduce a dual-axis matrix that provides fine-grained metrics through four diagnostic quadrants, enabling transparent diagnosis of model behavior across varying task complexities. Our experiments yield several interesting observations: (1) VLMs can sometimes produce correct final answers despite grounding on irrelevant regions, and (2) they may successfully locate the correct evidence but still fail to utilize it to reach accurate conclusions. Our findings demonstrate that ViEBench can serve as a more explainable and practical benchmark for comprehensively evaluating the effectiveness agentic VLMs. The codes will be released at: https://github.com/Xuchen-Li/ViEBench.
研究の動機と目的
- Vision-Language Models (VLMs) における最終回答だけでなく、忠実な視覚的推論を評価する必要性を動機づける。
- 専門家が注釈した視覚証拠を用いたプロセス検証型ベンチマークとしてViEBenchを導入する。
- 知覚タスクと推論タスクを区別し、細かな視覚基盤と多段論理を強調する。
- 課題の難易度に応じて grounding 対 推論の失敗を診断する二軸能力マトリクスを提供する。
提案手法
- 4つの実世界シナリオ(小売、都市、産業、日常生活)にまたがる高解像度画像200枚を用いてViEBenchを作成する。
- 最小限の不可欠な証拠を表す専門家の金標準の境界ボックス(BBox)を注釈する。
- IoAベースの grounding と回答の正確さを用いて二軸の能力マトリクスを定義し、4つの診断象限を形成する。
- Acc、Grounded Score (GS)、および G+ A+ や G+ A- のような象限ベースの指標を含む7つの指標を測定する。
- ツールを用いるエージェント型モデルとエンドツーエンドのVLMを、それぞれのパイプラインを用いて区別して評価する。
実験結果
リサーチクエスチョン
- RQ1ViEBenchはエージェント型VLMにおける grounding エラーと推論エラーを区別できるか。
- RQ2超スパースな視覚証拠条件下で、知覚と推論のタスクがモデルの性能をどのように異ならせるか。
- RQ3現在のVLMにおける共通の失敗モード(例: grounding されていない正解、grounding 成功だが推論が誤る)とは何か。
- RQ4ツール使用(ズーム化)が grounding の精度と最終的な推論の正確さにどう影響するか。
主な発見
- エージェント型VLMは適切な grounding なしに正解を出せることがあり、信頼性を過大評価させる。
- モデルは正しい証拠を見つけても、それを正しい結論へ統合できず、grounding 成功が回答の失敗につながる場合がある。
- 一部のモデルは強い grounding と推論の一貫性を示し、例として Qwen3-VL-32B-Instruct は高い G+ A+ と低い G- A+ を示す。
- ツールの有効性はモデルごとに異なり、 accuracy と grounding の精度のバランスをとるためにツールを選択的に呼び出すモデルもある。
- ViEBenchはVLMにおける局所化と多段推論の間に認知的一貫性のギャップを露呈させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。