Skip to main content
QUICK REVIEW

[논문 리뷰] Same Answer, Different Representations: Hidden instability in VLMs

Farooq Ahmad Wani, Alessandro Suglia|arXiv (Cornell University)|2026. 02. 06.
Multimodal Machine Learning Applications인용 수 0
한 줄 요약

논문은 표현-의식적이고 주파수-의식적인 VLMs 로버스트 프레임워크를 도입하고, 출력이 동일하게 유지되더라도 perturbation 아래에서 숨겨진 내부 드리프트를 드러낸다.

ABSTRACT

The robustness of Vision Language Models (VLMs) is commonly assessed through output-level invariance, implicitly assuming that stable predictions reflect stable multimodal processing. In this work, we argue that this assumption is insufficient. We introduce a representation-aware and frequency-aware evaluation framework that measures internal embedding drift, spectral sensitivity, and structural smoothness (spatial consistency of vision tokens), alongside standard label-based metrics. Applying this framework to modern VLMs across the SEEDBench, MMMU, and POPE datasets reveals three distinct failure modes. First, models frequently preserve predicted answers while undergoing substantial internal representation drift; for perturbations such as text overlays, this drift approaches the magnitude of inter-image variability, indicating that representations move to regions typically occupied by unrelated inputs despite unchanged outputs. Second, robustness does not improve with scale; larger models achieve higher accuracy but exhibit equal or greater sensitivity, consistent with sharper yet more fragile decision boundaries. Third, we find that perturbations affect tasks differently: they harm reasoning when they disrupt how models combine coarse and fine visual cues, but on the hallucination benchmarks, they can reduce false positives by making models generate more conservative answers.

연구 동기 및 목표

  • VLM에서 출력 불변성 너머의 로버스트니스 평가를 고무해, 숨겨진 다중모달 불안정성을 검출한다.
  • VLM에서 임베딩 드리프트, 스펙트럴 변화, 그리고 구조적 매끄러움을 측정하는 표현-의식 프레임워크를 제안한다.
  • 고장 모드를 식별하고 perturbation 이 추론 및 환각 작업에 미치는 영향을 정량화한다.
  • 모델 규모, 데이터셋, 아키텍처 전반에 걸친 로버스트니스를 평가하여 스케일링 효과를 이해한다.

제안 방법

  • 레이블 안정성와 내부 표현 지표 및 여백 다이나믹스를 결합한 평가 프레임워크를 개발한다.
  • 여러 프롬프트 규칙에서 Embedding Stability, Dirichlet Energy (structural smoothness), Perturbation Drift vs. Control Drift, 및 Drift-to-Prior를 측정한다.
  • 마진 다이나믹스와 의사결정 경계를 추적하기 위한 로그-가능도 MCQ 채점 프로토콜을 사용한다.
  • 의미적 오버레이 및 가림을 포함한 여섯 가지 교란군(이동, 패딩/자르기, 스케일링, 회전, 텍스트 오버레이)을 평가한다.
  • SEEDBench, MMMU, POPE 전반에 걸친 분석으로 교차 데이터셋 및 교차 아키텍처 로버스트니스를 연구한다.
Figure 1: Cosine distance ( $1-\cos$ ), Drift versus control drift for the ans_mcq_free embedding under Translation and Textoverlay perturbation. Blue shows perturbation-induced drift relative to the base image; orange shows control drift (base image versus randomly sampled other images). Left: Tran
Figure 1: Cosine distance ( $1-\cos$ ), Drift versus control drift for the ans_mcq_free embedding under Translation and Textoverlay perturbation. Blue shows perturbation-induced drift relative to the base image; orange shows control drift (base image versus randomly sampled other images). Left: Tran

실험 결과

연구 질문

  • RQ1출력-레벨 로버스트니스가 의미 보존 perturbation 아래에서 내부 표현 드리프트를 가릴 수 있는가?
  • RQ2perturbation 이 VLMs의 내부 임베딩, 스펙트럴 콘텐츠, 로컬 토큰 매끄러움에 어떤 영향을 미치는가?
  • RQ3모델 규모가 로버스트니스를 향상시키는가, 아니면 특정 perturbation 아래에서 더 큰 모델이 더 취약할 수 있는가?
  • RQ4perturbation 이 VLMs의 추론과 환각 작업에 어떤 영향을 미치는가?
  • RQ5주파수 콘텐츠와 교차 주파수 응집도가 VLM 로버스트니스에서 어떤 역할을 하는가?

주요 결과

PerturbationIFRIV
Translation0.0620.168
Pad/Crop0.0650.169
Scale0.0790.079
Scale+Pad0.0800.100
Rotation0.1220.166
TextOverlay(semantic)0.1920.239
TextOverlay(random)0.0640.086
TextOverlay(empty)0.0430.044
Any (union)0.0790.376
  • 37.6% of images experience at least one perturbation leading to a decision flip across perturbations.
  • Text overlays are the most disruptive, with IFR ~19.2% and IV ~23.9%.
  • Representation drift can be large even when predictions stay the same, and drift magnitudes often rival inter-image variability.
  • Model scale does not guarantee robustness; larger models show equal or greater representation drift and error transitions under perturbations.
  • Perturbations harm reasoning tasks but can reduce false positives on hallucination benchmarks by promoting more conservative predictions.
  • Across datasets and architectures, robustness failures persist and do not scale monotonically with capacity.
Figure 2: Qwen3-VL (Instruct) scaling on SEEDBench. Left: base accuracy versus ground truth. Right: average flip rate under natural perturbations (lower is better).
Figure 2: Qwen3-VL (Instruct) scaling on SEEDBench. Left: base accuracy versus ground truth. Right: average flip rate under natural perturbations (lower is better).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.