QUICK REVIEW

[논문 리뷰] IllusionVQA: A Challenging Optical Illusion Dataset for Vision Language Models

Haz Sameen Shahgir, Khondker Salman Sayeed|arXiv (Cornell University)|2024. 03. 23.

Multimodal Machine Learning Applications인용 수 6

한 줄 요약

IllusionVQA는 시각-언어 모델(VLM)을 평가하기 위한 두 가지 작업(이해 및 소프트 로컬라이제이션)을 갖춘 도전적인 착시 VQA 데이터셋을 소개합니다. GPT4V가 현재까지 가장 뛰어난 성능을 보였지만 인간 수준과는 상당한 격차가 있으며, ICL/CoT 및 로컬라이제이션 능력의 한계를 드러냅니다.

ABSTRACT

The advent of Vision Language Models (VLM) has allowed researchers to investigate the visual understanding of a neural network using natural language. Beyond object classification and detection, VLMs are capable of visual comprehension and common-sense reasoning. This naturally led to the question: How do VLMs respond when the image itself is inherently unreasonable? To this end, we present IllusionVQA: a diverse dataset of challenging optical illusions and hard-to-interpret scenes to test the capability of VLMs in two distinct multiple-choice VQA tasks - comprehension and soft localization. GPT4V, the best performing VLM, achieves 62.99% accuracy (4-shot) on the comprehension task and 49.7% on the localization task (4-shot and Chain-of-Thought). Human evaluation reveals that humans achieve 91.03% and 100% accuracy in comprehension and localization. We discover that In-Context Learning (ICL) and Chain-of-Thought reasoning substantially degrade the performance of Gemini-Pro in the localization task. Tangentially, we discover a potential weakness in the ICL capabilities of VLMs: they fail to locate optical illusions even when the correct answer is in the context window as a few-shot example.

연구 동기 및 목표

광학적 착시에 대한 VLM 평가를 통해 일반 이미지를 넘어 지각, 추론, 로컬라이제이션을 탐구한다.
이해도와 소프트 로컬라이제이션 태스크를 도전적으로 다루는 12개 카테고리에 걸친 다양하고 실제 세계의 착시 데이터셋을 만든다.
기계와 인간 간 차이를 정량화하기 위한 인간 평가를 포함한 엄격한 벤치마크를 제공한다.

제안 방법

인터넷에서 374장의 고품질 착시 이미지를 GPT-4V 및 Gemini-Vision API로 필터링한 후 큐레이션한다.
이미지당 3–6개의 선택지를 가진 IllusionVQA-Comprehension 439개의 다지선다형 질문을 생성하여 정답 한 개와 타당한 오답을 보장한다.
절차적으로 두 이미지를 붙여 불가능한 물체의 좌/우 로컬라이제이션을 테스트하는 IllusionVQA-Soft-Localization을 생성한다(샘플 1000).
적용 가능한 경우 제로샷, 포샷 4샷, 4샷+CoT 설정에서 다양한 VLM(GPT-4V, Gemini-Pro, InstructBLIP, LLaVA-1.5, CogVLM)을 평가한다.
정답 비교 및 시간 측정을 위한 현장 인간 평가자(전문가 3명)를 포함한다.

실험 결과

연구 질문

RQ1최신의 비전-언어 모델이 다양한 카테고리의 착시에 대해 이해하고 질문에 올바르게 대답할 수 있는가?
RQ2대형 VLM이 오픈 소스 소형 모델보다 착시 이해에서 더 우수하며 인간 성능에 얼마나 근접하는가?
RQ3VLM이 착시 장면에서 기하학적으로 불가능한 물체를 정확히 위치시키거나 식별할 수 있는가, 그리고 프롬프트 전략이 이를 어떻게 좌우하는가?
RQ4인맥학습(ICL) 및 사고사(CoT) 추론이 착시 관련 작업의 성능을 개선하는가 아니면 저해하는가?

주요 결과

GPT-4V는 IllusionVQA-Comprehension에서 4-shot 기준 62.99%의 정확도를 달성하였으나, 같은 작업에서 인간은 91.03%에 도달한다.
GPT-4V는 IllusionVQA-Soft-Localization에서 4-shot+CoT 기준 49.7%의 정확도를 달성하는 반면, 평가된 로컬라이제이션 샘플에서 인간은 100%에 도달한다.
12개 카테고리에 걸쳐 VLM은 이해에서 인간보다 뒤처지며, 대형 모델이 일반적으로 소형 오픈 소스 모델보다 우수하나 여전히 인간 수준과는 거리가 있다.
ICL 및 CoT가 일부 모델의 로컬라이제이션 작업 성능을 저하시킬 수 있어, 이 전략들이 착시 로컬라이제션에 보편적으로 유리하지 않음을 시사한다.
대형 VLM은 일반 물체의 로컬라이제이션에서 강한 성능을 보이지만 착시를 로컬라이즈하는 데에는 실패해 공간적 추론의 차이를 강조한다.
평가된 샘플에서 인간은 IllusionVQA-Soft-Localization에서 거의 완벽한 로컬라이제이션(100%)을 달성하여 현 VLM의 능력에 상당한 격차가 있음을 드러낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.