QUICK REVIEW

[論文レビュー] VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images

Neil Tripathi|arXiv (Cornell University)|Mar 3, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

要約: VB は visibility の主張が単一画像で支持されるかどうかを、棄却と最小編集の摂動、さらに二次的視点推論を用いて評価するベンチマークである。信頼度を考慮した正確性を棄却とともに報告し、モデル間のロバスト性と較正を分析する。

ABSTRACT

We present VB, a benchmark that tests whether vision-language models can determine what is and is not visible in a photograph, and abstain when a human viewer cannot reliably answer. Each item pairs a single photo with a short yes/no visibility claim; the model must output VISIBLY_TRUE, VISIBLY_FALSE, or ABSTAIN, together with a confidence score. Items are organized into 100 families using a 2x2 design that crosses a minimal image edit with a minimal text edit, yielding 300 headline evaluation cells. Unlike prior unanswerable-VQA benchmarks, VB tests not only whether a question is unanswerable but why (via reason codes tied to specific visibility factors), and uses controlled minimal edits to verify that model judgments change when and only when the underlying evidence changes. We score models on confidence-aware accuracy with abstention (CAA), minimal-edit flip rate (MEFR), confidence-ranked selective prediction (SelRank), and second-order perspective reasoning (ToMAcc); all headline numbers are computed on the strict XOR subset (three cells per family, 300 scored items per model). We evaluate nine models spanning flagship and prior-generation closed-source systems, and open-source models from 8B to 12B parameters. GPT-4o and Gemini 3.1 Pro effectively tie for the best composite score (0.728 and 0.727), followed by Gemini 2.5 Pro (0.678). The best open-source model, Gemma 3 12B (0.505), surpasses one prior-generation closed-source system. Text-flip robustness exceeds image-flip robustness for six of nine models, and confidence calibration varies substantially: GPT-4o and Gemini 2.5 Pro achieve similar accuracy yet differ sharply in selective prediction quality.

研究の動機と目的

1. 視覚言語モデルが単一の画像と短い質問から視認性の主張を検証できるかを評価する。
2. 正解ラベルを反転させるべき制御済みの最小編集に対するモデルの頑健性を評価する。
3. 写真から人間の視点で確信をもって答えられない場合の校正された棄却をテストする。
4. MULTI_AGENT/SECOND_ORDER セクションを通じた二次的視点推論を検討する。
5. 視認性ベースの VQA の公開データセットと評価基盤を提供する。

提案手法

2x2 ファミリ設計を提案し、最小画像編集と最小テキスト編集を組み合わせてファミリごとに4つの評価セルを生み出す。
3 つのヘッドラインセル（BASE、TEXT_FLIP、IMAGE_FLIP）と診断セル（DOUBLE_FLIP）を用いて、厳格な XOR ベースのスコアリングのサブセットを計算する。
各アイテムに対し、VISIBLY_TRUE、VISIBLY_FALSE、ABSTAIN のラベルと信頼度スコアを定義する。
8カテゴリの視認性分類法と、特定の視認性要因（例：OCCLUSION、OUT_OF_FRAME、GAZE_DIRECTION など）に結びつく推論コードを導入する。
Confidence-Aware Accuracy with Abstention（CAA）、Minimal Edit Flip Rate（MEFR）、Confidence-ranked Selective Prediction（SelRank）、および二次推論の ToMAcc を含む指標を計算する。

実験結果

リサーチクエスチョン

RQ1視覚言語モデルは、写真のピクセルから視認性の主張が正しく支持されているかを判定できるか？
RQ2最小の画像編集またはテキスト編集が正解ラベルを期待どおり反転させるか、モデルは根拠となる証拠の変化に依存しているか？
RQ3画像からの回答が合理的な自信で得られない場合に、モデルは棄却できるか？
RQ4単一画像に基づく二次的視点推論はどの程度うまく機能するか？
RQ5オープンソースモデルは視認性推論タスクで旗艦のクローズドソースモデルとどう比較されるか？

主な発見

GPT-4o と Gemini 3.1 Pro は、試行されたすべてのモデルの中で最も高い複合 FinalScore（約 0.728）を達成。
オープンソースの Gemma 3 12B は 0.505 に到達し、8–12B スケールのオープンソースモデルが以前の世代のクローズドソース系を超えることがあることを示唆。
テキスト編集は六モデル中九モデルのうち一般に画像編集より堅牢である傾向が強く、テキスト増強の堅牢性格差を浮き彫りにする。
ToMAcc（二次推論）において旗艦のクローズドソースモデルとオープンソースモデルの間に大きなギャップがある。
校正と棄却の挙動はモデル間で大きく異なり、確信的に正答を示すモデルもあれば、情報価値に反する信頼ランキングを示すモデルもある。
MEFR の結果は、テキスト編集の方が多くのモデルで画像編集より信頼性が高く処理されることを示唆。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。