[논문 리뷰] OODBench: Out-of-Distribution Benchmark for Large Vision-Language Models
OODBench는 대형 Vision-Language Models에 대한 공변량 시프트(out-of-distribution) 벤치마크를 제시합니다. 자동화된 OOD 데이터 분할과 Basic-to-Advanced Progression 지표를 통해 주요 모델들에서 OOD 데이터에 대한 성능 저하가 크게 나타남을 보여줍니다.
Existing Visual-Language Models (VLMs) have achieved significant progress by being trained on massive-scale datasets, typically under the assumption that data are independent and identically distributed (IID). However, in real-world scenarios, it is often impractical to expect that all data processed by an AI system satisfy this assumption. Furthermore, failure to appropriately handle out-of-distribution (OOD) objects may introduce safety risks in real-world applications (e.g., autonomous driving or medical assistance). Unfortunately, current research has not yet provided valid benchmarks that can comprehensively assess the performance of VLMs in response to OOD data. Therefore, we propose OODBench, a predominantly automated method with minimal human verification, for constructing new benchmarks and evaluating the ability of VLMs to process OOD data. OODBench contains 40K instance-level OOD instance-category pairs, and we show that current VLMs still exhibit notable performance degradation on OODBench, even when the underlying image categories are common. In addition, we propose a reliable automated assessment metric that employs a Basic-to-Advanced Progression of prompted questions to assess the impact of OOD data on questions of varying difficulty more fully. Lastly, we summarize substantial findings and insights to facilitate future research in the acquisition and evaluation of OOD data.
연구 동기 및 목표
- 현실 세계 환경에서 Vision-Language Models(VLMs)의 신뢰할 수 있는 OOD 평가의 필요성을 동기화합니다.
- VLM용으로 공변량-시프트 OOD 데이터를 자동화하되 검증 지원 파이프라인을 제안합니다.
- OOD에서의 인식, 세기(counting), 추론을 평가하기 위한 Basic-to-Advanced Progression(BAP) 지표를 도입합니다.
- 최신 VLM들이 ID 데이터에 비해 OOD 데이터에서 현저한 성능 저하를 보인다는 것을 실증합니다.
제안 방법
- VLM용 공변량 시프트 OOD 데이터를 데이터 분포가 바뀌고 라벨은 학습 라벨 공간 내에 남아 있는 이미지로 정의하며, 주 객체나 그 변형물에 중심적이지 않은 객체에 초점을 맞춥니다.
- KLIP(CLIP)와 BLIP2의 두 일반화된 탐지기를 사용하여 OOD 샘플을 자동으로 분할하고 라벨 상호작용 효과를 피하기 위한 정화(purify) 작업을 통해 라벨을 만족시킵니다.
- 강건한(OOD-H) 신호와 탐지기 특이적(OOD-S) 신호를 포착하기 위해 OOD-H(교집합)와 OOD-S(대칭 차) 파티션을 설정합니다.
- COCO, LVIS, nuScenes, Cityscapes 기반 소스에서 인스턴스 레벨의 OOD 데이터를 수집하기 위해 각 인스턴스당 두 개의 질문 프롬프트를 사용합니다.
- Existential(E-Acc), Counting(C-Acc), Logical(L-Acc) 정확도 구성요소를 갖는 Basic-to-Advanced Progression(BAP) 지표를 도입하여 ID 및 OOD 조건에서의 인식, 숫자화, 추론을 평가합니다.
- ID, OOD-S, OOD-H 데이터 전반에서 8개의 SOTA VLM(Open-, Closed-, GPT-계열 모델 포함)을 평가하고 표준 지표(정확도, F1, 정밀도, 재현율, MCC)와 BAP 특화 점수를 보고합니다.

실험 결과
연구 질문
- RQ1현대의 대형 Vision-Language Models는 공변량 시프트 OOD 데이터에서 ID 데이터에 비해 어떤 성능을 보이는가?
- RQ2 detector 간 교차 검증이 가능한 자동 OOD 데이터 분할 파이프라인이 실제 세계의 VLM 도전 과제를 대표하는 OOD 데이터를 생성할 수 있는가?
- RQ3Basic-to-Advanced Progression 지표로 측정된 이미지 이해, 세기, 추론에 대한 OOD 데이터의 영향은 어떠한가?
- RQ4Chain-of-Thought 프롬프트가 OOD 데이터에서 VLM의 성능을 향상시키는가 아니면 악화시키는가?
주요 결과
- 선도적인 VLM은 LLaVA-NeXT, DeepSeek-VL, InternVL2/2.5, Qwen2-VL, Llama-3.2-Vision, Gemini, GPT-4o 등에서 OOD-H 데이터에 대해 ID 대비 약 20–30%의 상대적 정확도 하락을 보인다.
- CoT 프롬프트는 혼합된 결과를 내며, 일부 모델은 OOD-H에서 정확도 약 10% 정도 상승하지만 다른 모델은 ID 또는 OOD-S 성능이 저하된다.
- OOD-H 데이터에서 GPT-4o는 여전히 ID 대비 약 26%의 정확도 차이를 보이며 최고급 모델에서도 OOD 취약성이 지속됨을 시사한다.
- 한 탐지기에 의해 식별된 OOD-S 데이터는 ID보다 더 도전적이지만 OOD-H보다는 덜 까다로운 경향이 있어 탐지기 의존적 편향을 강조한다.
- BAP 평가에 따르면 논리 추론(L-Acc)이 인식 또는 수 카운트에 비해 ID에서 OOD-S, OOD-H로 데이터가 이동함에 따라 더 급격히 저하된다.
- 오류 분석은 두 가지 지배적 OOD 실패 모드를 나타낸다: (i) 주된 의미 객체가 아닌 경우, (ii) 의미적 변_variants로, 주된 의미 객체를 넘어서는 이미지-텍스트 정합성의 차이를 강조한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.