[논문 리뷰] MIRAGE: The Illusion of Visual Understanding
본 논문은 다중모달 AI에서 이미지가 존재하지 않더라도 높은 확신으로 비실재 이미지를 서술하는 미라지 효과를 밝히고, 의료 데이터에서 병리학 편향이 있음을 보이며, 비전-근거 평가를 위한 공정한 프레임워크인 B-Clean을 제안한다.
Multimodal AI systems have achieved remarkable performance across a broad range of real-world tasks, yet the mechanisms underlying visual-language reasoning remain surprisingly poorly understood. We report three findings that challenge prevailing assumptions about how these systems process and integrate visual information. First, Frontier models readily generate detailed image descriptions and elaborate reasoning traces, including pathology-biased clinical findings, for images never provided; we term this phenomenon mirage reasoning. Second, without any image input, models also attain strikingly high scores across general and medical multimodal benchmarks, bringing into question their utility and design. In the most extreme case, our model achieved the top rank on a standard chest X-ray question-answering benchmark without access to any images. Third, when models were explicitly instructed to guess answers without image access, rather than being implicitly prompted to assume images were present, performance declined markedly. Explicit guessing appears to engage a more conservative response regime, in contrast to the mirage regime in which models behave as though images have been provided. These findings expose fundamental vulnerabilities in how visual-language models reason and are evaluated, pointing to an urgent need for private benchmarks that eliminate textual cues enabling non-visual inference, particularly in medical contexts where miscalibrated AI carries the greatest consequence. We introduce B-Clean as a principled solution for fair, vision-grounded evaluation of multimodal AI systems.
연구 동기 및 목표
- 최전방 다중모달 모델이 이미지에 접근하지 않고도 상세한 이미지 유사 추론을 생성할 수 있음을 입증하라(미라지 효과).
- 의료 및 일반 벤치마크에서 시각 입력 없이 다중모달 질문에 모델이 얼마나 자주 응답하는지 정량화하라.
- 명시적 추측(무이미지 프롬프트)이 미라지 모드보다 성능이 낮음을 보여주어 서로 다른 기본 메커니즘을 시사하라.
- 현 벤치마크의 위험성을 보여주고, 비전-근거 평가를 위한 원칙적 평가 프레임워크(B-Clean)를 제안하라.
제안 방법
- 이미지가 제거된 시각적 질문 벤치마크 Phantom-0을 통해 미라지를 정의하고 정량화한다.
- 의료 및 일반 벤치마크에서 미라지-모드와 원래 모드에서 최전방 모델들(예: Gemini-3-Pro, Gemini-2.5-Pro, Claude Opus 4.5, GPT-5.1)을 평가한다.
- 이미지 없이 성능을 테스트하기 위해 ReXVQA에서 텍스트 전용 초강력 추리기를 학습시키고 다중모달 모델 및 방사선 전문의와 비교한다.
- 미라지-모드와 추측-모드를 비교하여 작동 체계를 구분한다.
- 공정한 비전-근거 벤치마킹을 위해 손상된 질문을 식별하고 제거하는 B-Clean을 도입한다.

실험 결과
연구 질문
- RQ1시각 입력이 없을 때 최전방 다중모달 모델이 자신감 있는 이미지 없는 서술(미라지)을 생성하는가?
- RQ2의료 및 일반 벤치마크 전반에서 미라지의 발생 비율과 편향(특히 병리 편향)은 어느 정도인가?
- RQ3보유된 데이터셋에서 미라지-모드의 성능이 추측-모드와 인간 전문가와 어떻게 비교되는가?
- RQ4사후 프레임워크(B-Clean)가 손상된 질문을 제거하여 공정한 비전-근거 벤치마크를 회복할 수 있는가?
주요 결과
- 모두 테스트된 최전방 모델은 높은 미라지 비율을 보였으며, 범주에 걸쳐 존재하지 않는 이미지를 자신감 있게 서술했다.
- 미라지는 의료 맥락에서 병리에 편향적이며, 진단과 병원 관련 세부 정보와 같은 민감한 데이터를 포함한다.
- 미라지-모드 정확도는 벤치마크에서 이미지 활용 정확도를 종종 능가하며, 평균 미라지 점수는 벤치마크 전반에서 60–99%의 취약성을 나타내고(의료 벤치마크가 더 높다).
- ReXVQA에서 학습된 텍스트만의 3B-파라미터 초강력 추리기는 이미지가 사용되지 않을 때 보유된 흉부 방사선 벤치마크에서 최전방 모델 및 방사선 전문의보다 우수하다.
- 이미지 없이 추측하라고 명시적으로 지시하면 정확도가 감소하며, 두 가지 작동 체계(미라지-모드와 추측-모드)가 시사된다.
- B-Clean은 손상된 질문을 대폭 줄일 수 있으며(여러 벤치마크에서 75% 이상 제거 등) 모델 순위에도 영향을 주어 평가 인공성을 부각시킨다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.