[논문 리뷰] VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images
VB는 단일 이미지에 의해 가시성 주장이 이미지로 뒷받침되는지 판단하는 비전-언어 모델의 능력을 평가하는 벤치마크로, 기권(abstention)과 최소 편집 perturbations, 그리고 제2차 시점 추론을 포함합니다. 신뢰도 인지 가능한 정확도와 기권을 보고하고, 모델 간 로버스트성과 보정을 분석합니다.
We present VB, a benchmark that tests whether vision-language models can determine what is and is not visible in a photograph, and abstain when a human viewer cannot reliably answer. Each item pairs a single photo with a short yes/no visibility claim; the model must output VISIBLY_TRUE, VISIBLY_FALSE, or ABSTAIN, together with a confidence score. Items are organized into 100 families using a 2x2 design that crosses a minimal image edit with a minimal text edit, yielding 300 headline evaluation cells. Unlike prior unanswerable-VQA benchmarks, VB tests not only whether a question is unanswerable but why (via reason codes tied to specific visibility factors), and uses controlled minimal edits to verify that model judgments change when and only when the underlying evidence changes. We score models on confidence-aware accuracy with abstention (CAA), minimal-edit flip rate (MEFR), confidence-ranked selective prediction (SelRank), and second-order perspective reasoning (ToMAcc); all headline numbers are computed on the strict XOR subset (three cells per family, 300 scored items per model). We evaluate nine models spanning flagship and prior-generation closed-source systems, and open-source models from 8B to 12B parameters. GPT-4o and Gemini 3.1 Pro effectively tie for the best composite score (0.728 and 0.727), followed by Gemini 2.5 Pro (0.678). The best open-source model, Gemma 3 12B (0.505), surpasses one prior-generation closed-source system. Text-flip robustness exceeds image-flip robustness for six of nine models, and confidence calibration varies substantially: GPT-4o and Gemini 2.5 Pro achieve similar accuracy yet differ sharply in selective prediction quality.
연구 동기 및 목표
- 비전-언어 모델이 단일 이미지와 짧은 질문에서 시야 주장을 확인할 수 있는지 평가합니다.
- 제어된 최소 편집으로 올바른 라벨을 뒤바꿀 수 있는 모델의 강건성 평가.
- 사진에서 합리적인 자신감으로 답할 수 없을 때 기권을 보정된 방식으로 테스트합니다.
- 단일 이미지에 기반한 제2차 시점 추론을 MULTI_AGENT/SECOND_ORDER 슬라이스를 통해 조사합니다.
- 시야 기반 VQA를 위한 공개 데이터셋과 평가 인프라를 제공합니다.
제안 방법
- 최소한의 이미지 편집과 최소한의 텍스트 편집을 교차시키는 2x2 계열 설계를 제시하여 가족당 네 개의 평가 셀을 산출합니다.
- BASE, TEXT_FLIP, IMAGE_FLIP의 세 가지 헤드라인 셀과 진단 셀(DOUBLE_FLIP)을 사용하여 엄격한 XOR 기반 채점 서브셋을 계산합니다.
- 항목당 VISIBLY_TRUE, VISIBLY_FALSE, ABSTAIN 라벨과 신뢰도 점수를 정의합니다.
- 8 가지 카테고리의 시야성 분류 체계와 특정 시야성 요인에 연결된 추론 코드를 도입합니다(예: OCCLUSION, OUT_OF_FRAME, GAZE_DIRECTION 등).
- CAA, MEFR, SelRank, ToMAcc 등 신뢰도 기반 근거 수치를 포함한 메트릭을 계산합니다.
실험 결과
연구 질문
- RQ1비전-언어 모델이 사진의 픽셀에서 가시성 주장이 지지되는지 올바르게 판단할 수 있나요?
- RQ2최소 이미지 편집이나 텍스트 편집이 예상대로 올바른 라벨을 뒤바꾸는지, 모델이 기본 증거 변화에 의존하는지요?
- RQ3모델은 이미지에서 합리적 자신감으로 답할 수 없을 때 기권을 할 수 있나요?
- RQ4단일 이미지를 바탕으로 제2차 시점 추론을 얼마나 잘 수행할 수 있나요?
- RQ5오픈소스 모델과 주력 폐쇄형 모델이 가시성 추론 작업에서 어떻게 비교되나요?
주요 결과
- GPT-4o와 Gemini 3.1 Pro가 테스트된 모든 모델 중 최종 점수(FinalScore)가 가장 높은 복합 점수에 도달했습니다(~0.728).
- 오픈소스 Gemma 3 12B가 0.505에 도달하여 8–12B 규모의 오픈소스 모델이 일부 이전 세대의 비공개 시스템을 능가할 수 있음을 시사합니다.
- 텍스트 편집의 강건성이 이미지 편집보다 일반적으로 여섯 모델 중 다섯 모델에서 더 우수하며, 텍스트 보강 강건성 격차를 강조합니다.
- 제력형 폐쇄형 모델과 오픈 소스 모델 간의 ToMAcc(제2차 추론)에서 큰 차이가 있습니다.
- 보정(calibration)과 기권 동작은 모델에 따라 광범위하게 다르게 나타나며, 일부 모델은 자신감 있는 정답을 보이고 다른 일부는 비정보적 신뢰도 순위를 보입니다.
- MEFR 결과는 텍스트 편집이 많은 모델에서 이미지 편집보다 더 안정적으로 처리되는 경향이 있습니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.